Image recognition

图片识别

第一步，获取训练集

来源：https://www.kaggle.com/libowei/12306-captcha-image

将其转换为images.npz文件。

~$ ll -h images.npz
... 148M ... images.npz
~$ python -c "import numpy as np;t=np.load('images.npz');print(t['images'].shape);print(t['labels'].shape)"
(11794, 66, 66)
(11794,)

第二步，深度学习

让卷积神经网络从images.npz中学习。在验证集上的正确率浮动在93%。

数据的下载地址：

https://drive.google.com/drive/folders/1GDCQyaHr36c7y1H-19pOKjc_EdAI1wn0

统计学方案，一个奇葩的方案

如果有人能给我一堆验证码，并告诉我说，这都是让寻找打字机的。即使我不知道什么叫打字机，什么不叫打字机，但也可以根据统计学（抱歉，我并不知道这样称呼是否准确）来寻找打字机，不是吗？因为这里某样东西是打字机的概率高于1/8，而是其它某样东西的概率仅仅只有1/80。将以此思路获取的结论放到整个训练集上的正确率达到91%。这个结果是根据10万条验证码统计的，如果100万条，1000万条呢？

我把统计学的结果也命名为images.npz了，靠，起名难。

数据的下载地址：

https://pan.baidu.com/s/1OsBIBM4rl8EnpZt7VYiD9g

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Image recognition

图片识别

第一步，获取训练集

第二步，深度学习

统计学方案，一个奇葩的方案

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally