本爬虫主要采集行政区划代码历史变更数据,为新老身份证数据校验提供底层数据支持。
原始数据来源于 中华人民共和国民政部 网站,由 crawler
脚本对采集过来的数据进行处理,处理之后的行政区划代码数据按年份放置到 data
目录下,可供第三方程序二次开发使用。
在终端切换到本文档目录,然后执行下面命令:
php crawler.php
直到回显 Good, all have done!
信息,说明采集处理完成。
目前已使用 mysqlite
数据库存储行政区划历史变更数据,数据库文件为 db\database.sqlite
,身份证证号校验默认也是通过查询此数据库得出。
本行政区划历史变更数据会一年更新一次,下次更新数据时间预计在 2021
年四月底。
-
民政部可能会更新部分历史数据文件网址,采集脚本(
urls.php
) 里面的网址链接也会发生一些变更。采集到的数据会放置在crawler/data
目录下;一般按年份归类成一个文件:已过去年份的历史数据以年份作为文件名(如1998.txt
就是1998年的数据),采集时当年的数据可能会带上年月作为文件名(如202008.txt
就是2020年8月份的数据) 。 -
采集目标网址过多,可能会出现脚本假死卡住的情况,请自行修改采集代码
urls.php
里面的网址(可以注释掉已采集下来的年份网址)。目前仓库中已采集到1980-201801
年月数据,如有最新数据请添加新的url
重新采集。
在使用中,遇到问题可以通过以下方式联系作者我。
- Email: raoyc [email protected]
- 官网:http://douyasi.com
- QQ群:260655062
- Github: ycrao