Skip to content

项目:使用urllib, bs4模块爬取豆瓣电影从1970-1971年的电影信息, 采用了线程池技术并发爬取

Notifications You must be signed in to change notification settings

shuzhiwei/Test-PythonSpider

Repository files navigation

环境: python3.6

1. spider:
    1)爬取页面,
    2)每一个item, 提取链接地址,
    3)爬取具体电影信息, 提取信息
    4)找到下一地址
    
2. 代码整合
	1)proxy整合, 获取代理ip, 并将IP放入IP池中
	2)引入spider, 使用并发模式爬取
	3)使用消息队列作为代理IP池, 每个spider获取消息队列, 读取里面的IP
	4)修改spider, 使其支持代理
		4.1 代理爬取10次, 更换代理
		4.2 opener替换
		4.3 代理失效, 把代理ip剔除
	5)spider代理少于一定数量, 自动去ip池中请求代理
	6)IP池有效代理数量小于100, 代理爬虫, 自动获取新的代理
	7)存储 csv
3. 优化
	1)类实现main
	2)代理网站只有一个, IP有限, 找更多代理网站, 爬取有效IP
		
		
		
		
		

About

项目:使用urllib, bs4模块爬取豆瓣电影从1970-1971年的电影信息, 采用了线程池技术并发爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages