SS shadow是 register                                            

 分类:python

使用scrapy进行大规模抓取

使用scrapy进行大规模抓取
  使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万u...

赵浮云 4个月前 (12-09) 136℃ 0评论 1喜欢

python中的os.path.join

python中的os.path.join
是在拼接路径的时候用的。举个例子: os.path.join(“home”, "me", "mywork") 在Linux系统上会返回 “home/me/mywork" 在Windows系统上会返回 "home\me\m...

赵浮云 5个月前 (10-30) 115℃ 0评论 2喜欢

Python Requests快速入门

Python Requests快速入门
快速上手 迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。 首先,确认一下: Requests 已安装 Requests是 最新的 让我们从一些简单的示例开始吧。 发送请求 使用Req...

赵浮云 5个月前 (10-21) 181℃ 0评论 2喜欢

Python2.7 urlparse学习

Python2.7 urlparse学习
urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。 urlparse.urlparse(urlstring[, scheme[, allow_...

赵浮云 5个月前 (10-21) 109℃ 0评论 1喜欢

Python模块常用的几种安装方式

Python模块常用的几种安装方式
Python模块安装方法 一、方法1: 单文件模块 直接把文件拷贝到 $python_dir/Lib 二、方法2: 多文件模块,带setup.py 下载模块包,进行解压,进入模块文件夹,执行: python setup.py install 三、 方法3:easy_instal...

赵浮云 5个月前 (10-21) 110℃ 0评论 1喜欢

Python学习相关不断更新

Python学习相关不断更新
PyCharm 社区版 4.5.3 中文汉化包:http://www.cnblogs.com/sphere/archive/2015/08/08/4712658.html python如何删除list里重复的元素 要求是把列表里的重复元素删除,只保留没有重复的元素。 例如: a...

赵浮云 5个月前 (10-20) 138℃ 0评论 1喜欢

Python 爬虫的工具列表大全

Python 爬虫的工具列表大全
即然提到了爬虫,就从网上理了一份python爬虫相关的包。包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。...

赵浮云 5个月前 (10-18) 91℃ 0评论 1喜欢