-
Notifications
You must be signed in to change notification settings - Fork 0
shuzhiwei/Test-PythonSpider
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
环境: python3.6 1. spider: 1)爬取页面, 2)每一个item, 提取链接地址, 3)爬取具体电影信息, 提取信息 4)找到下一地址 2. 代码整合 1)proxy整合, 获取代理ip, 并将IP放入IP池中 2)引入spider, 使用并发模式爬取 3)使用消息队列作为代理IP池, 每个spider获取消息队列, 读取里面的IP 4)修改spider, 使其支持代理 4.1 代理爬取10次, 更换代理 4.2 opener替换 4.3 代理失效, 把代理ip剔除 5)spider代理少于一定数量, 自动去ip池中请求代理 6)IP池有效代理数量小于100, 代理爬虫, 自动获取新的代理 7)存储 csv 3. 优化 1)类实现main 2)代理网站只有一个, IP有限, 找更多代理网站, 爬取有效IP
About
项目:使用urllib, bs4模块爬取豆瓣电影从1970-1971年的电影信息, 采用了线程池技术并发爬取
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published