积淀                                            

标签:Spider

python

使用scrapy进行大规模抓取

使用scrapy进行大规模抓取
  使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万u...

赵浮云 1年前 (2016-12-09) 416℃ 0评论 1喜欢

python

Python Requests快速入门

Python Requests快速入门
快速上手 迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。 首先,确认一下: Requests 已安装 Requests是 最新的 让我们从一些简单的示例开始吧。 发送请求 使用Req...

赵浮云 1年前 (2016-10-21) 321℃ 0评论 2喜欢

python

Python学习相关不断更新

Python学习相关不断更新
PyCharm 社区版 4.5.3 中文汉化包:http://www.cnblogs.com/sphere/archive/2015/08/08/4712658.html python如何删除list里重复的元素 要求是把列表里的重复元素删除,只保留没有重复的元素。 例如: a...

赵浮云 1年前 (2016-10-20) 257℃ 0评论 1喜欢

python

Python 抓取微信公众号文章

Python 抓取微信公众号文章
今天继续向 Python 头条添加数据信息,完成了微信公号的爬虫,接下来会继续通过搜狗的知乎搜索抓取知乎上与 Python 相关的文章、问答。 微信公众号的文章链接有些是具有时效性的,过一段时间会变成参数错误而无法访问,但是我们发现从公众号后台点击过去得到的链接却是永久链接,其...

赵浮云 2年前 (2016-06-15) 284℃ 0评论 1喜欢

python

【Python】python 多线程两种实现方式

【Python】python 多线程两种实现方式
目前python 提供了几种多线程实现方式 thread,threading,multithreading ,其中thread模块比较底层,而threading模块是对thread做了一些包装,可以更加方便的被使用。 2.7版本之前python对线程的支持还不够完善,不能利用多核...

赵浮云 2年前 (2016-05-14) 228℃ 0评论 0喜欢

python

使用python 简单的保存网页的图片

使用python 简单的保存网页的图片
这个是个比较简单的例子, 网页中的图片地址都是使用’http://。。。。.jpg’这种方式直接定义的 使用前,可以先建立好一个文件夹用于保存图片,本例子中 使用的文件夹是 d:\\pythonPath这个文件夹 代码如下: # -*- coding: ...

赵浮云 2年前 (2016-05-14) 228℃ 0评论 0喜欢