Skip to content

WilliamTalk/maoyanMovies

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬取猫眼电影
爬虫管理器SpiderManager.py
负责真个爬虫程序的调度
URL管理器UrlManager.py
主要包含两个集合:已爬取的URL 集合,未爬取的URL集合。
涉及到URL的去重,方法有内存去重;数据库去重和缓存数据库去重
HTML解析器HtmlParser.py
按照要求解析网页的内容,获取需要的内容以及新的URL
数据存储器SaveData.py
分批的把数据存储到内存,然后再存入到本地文件或者数据库中

About

爬取猫眼电影前20页的电影信息

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages