Skip to content

Latest commit

 

History

History
39 lines (21 loc) · 1.84 KB

readme.md

File metadata and controls

39 lines (21 loc) · 1.84 KB

crawler

本爬虫主要采集行政区划代码历史变更数据,为新老身份证数据校验提供底层数据支持。

原始数据来源于 中华人民共和国民政部 网站,由 crawler 脚本对采集过来的数据进行处理,处理之后的行政区划代码数据按年份放置到 data 目录下,可供第三方程序二次开发使用。

采集方法

在终端切换到本文档目录,然后执行下面命令:

php crawler.php

直到回显 Good, all have done! 信息,说明采集处理完成。

数据库

目前已使用 mysqlite 数据库存储行政区划历史变更数据,数据库文件为 db\database.sqlite ,身份证证号校验默认也是通过查询此数据库得出。

本行政区划历史变更数据会一年更新一次,下次更新数据时间预计在 2021 年四月底。

已知问题

  • 民政部可能会更新部分历史数据文件网址,采集脚本(urls.php) 里面的网址链接也会发生一些变更。采集到的数据会放置在 crawler/data 目录下;一般按年份归类成一个文件:已过去年份的历史数据以年份作为文件名(如 1998.txt 就是1998年的数据),采集时当年的数据可能会带上年月作为文件名(如 202008.txt 就是2020年8月份的数据) 。

  • 采集目标网址过多,可能会出现脚本假死卡住的情况,请自行修改采集代码 urls.php 里面的网址(可以注释掉已采集下来的年份网址)。目前仓库中已采集到 1980-201801 年月数据,如有最新数据请添加新的 url 重新采集。

联系方式

在使用中,遇到问题可以通过以下方式联系作者我。