Skip to content
宅教授 edited this page Jan 10, 2019 · 20 revisions

图片识别

第一步,获取训练集

来源:https://www.kaggle.com/libowei/12306-captcha-image

将其转换为images.npz文件。

~$ ll -h images.npz
... 148M ... images.npz
~$ python -c "import numpy as np;t=np.load('images.npz');print(t['images'].shape);print(t['labels'].shape)"
(11794, 66, 66)
(11794,)

第二步,深度学习

让卷积神经网络从images.npz中学习。在验证集上的正确率浮动在93%

数据的下载地址:

  1. https://drive.google.com/drive/folders/1GDCQyaHr36c7y1H-19pOKjc_EdAI1wn0

统计学方案,一个奇葩的方案

如果有人能给我一堆验证码,并告诉我说,这都是让寻找打字机的。即使我不知道什么叫打字机,什么不叫打字机,但也可以根据统计学(抱歉,我并不知道这样称呼是否准确)来寻找打字机,不是吗?因为这里某样东西是打字机的概率高于1/8,而是其它某样东西的概率仅仅只有1/80。将以此思路获取的结论放到整个训练集上的正确率达到91%。这个结果是根据10万条验证码统计的,如果100万条,1000万条呢?

我把统计学的结果也命名为images.npz了,靠,起名难。

数据的下载地址:

  1. https://pan.baidu.com/s/1OsBIBM4rl8EnpZt7VYiD9g

Clone this wiki locally