TicketSpider

一个简单的可以爬取北京-天津的高铁票信息的爬虫

快速开始

配置 Splash 服务端

docker run -p 8050:8050 scrapinghub/splash

配置后请在 core/settings.py 中配置 Splash 端点

参考 splash文档

运行爬虫

进行单次爬虫

scrapy crawl ticket

以定时的方式运行爬虫

python3 main.py

结果保存在 result 文件夹中

实现方案

原方案

通过网络获取 12306 网站网站信息的接口，发现 12306 对接口返回的信息做了加密，解密需要对 JS 进行分析，考虑到复杂度不考虑这个方案。

最终方案

采用 Splash 作为 JavaScript 延时加载的载体，在爬虫中同步等待 12306 网站渲染。渲染结束之后再采用标签解析的方式进行信息提取。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea		.idea
core		core
.gitignore		.gitignore
Readme.md		Readme.md
main.py		main.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TicketSpider

快速开始

配置 Splash 服务端

运行爬虫

进行单次爬虫

以定时的方式运行爬虫

实现方案

About

Uh oh!

Releases

Packages

Languages

St2r/ticket-spider

Folders and files

Latest commit

History

Repository files navigation

TicketSpider

快速开始

配置 Splash 服务端

运行爬虫

进行单次爬虫

以定时的方式运行爬虫

实现方案

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages