简介

第二届搜狐内容识别大赛冠军LuckyRabbit团队的解决方案，关于参赛细节和详解，请参阅说明文档

代码流程

整个代码分为数据预处理、特征提取、单模型、stacking模型融合、trick部分

Input

输入数据是HTML格式的新闻和附带的图片

<title>惠尔新品 | 冷色系实木多层地板系列</title> <p>  </p> <br/><p>  <span style="font-size: 16px;">冷色系实木多层系列全新上市</span></p>	P0000001.JPEG;P0000002.JPEG;

Preprocessing

文本翻译数据增强：把中文翻译成英文、再把英文翻译回中文，代码中没有给出，可自行调API接口
图片数据增强：图片旋转、平移、加噪声、过采样
使用jieba分词为基本分词组件

Feature Extraction

gensim训练好的300维词向量百度云盘
TFIDF 特征 + SVD进行降维度
字向量特征
基础特征：是否含有手机号、微信号等
OCR文字提取提取图片上包含的文字来补充文本分类信息

单模型

这里拿一个经典的模型来做一个例子, 我们把ocr提取出来的文本和新闻文本分别输入到同一个embedding层，随后再连接做分类各种模型的得分如下

模型或方法	得分F1-measure
catboost	0.611
xgboost	0.621
lightgbm	0.625
dnn	0.621
textCNN	0.617
capsule	0.625
covlstm	0.630
dpcnn	0.626
lstm+gru	0.635
lstm+gru+attention	0.640
(ps 由于大赛评分系统关闭了，个别模型得分可能不太准确)

模型融合

Stacking

关于stacking这里有一篇很好的模型融合方法的介绍我们比赛中使用的stacking模型结构如下图所示

Snapshot Emsemble

在stacking第二层模型中我们还加入了深度融合的方法，论文地址

Pesudo Labeling

我们使用的另外一个trick就是pesudo-labeling 方法，它适用于所有给定测试集的比赛教程

方法效果如下

模型或方法	得分F1-measure
单一模型	0.642
stacking	0.647
stacking+trick	0.652

代码结构

使用方式：

git clone https://github.com/zhanzecheng/SOHU_competition.git
下载新闻文本训练文件，放在 ./data/路径下，地址，图片文件过大，请自行去官网下载
下载ocr模型文件，放在 ./src/ocr/ctpn/checkpoints/ 路径下，模型地址
pip3 install -r requirement.txt
下载词向量，放到 ./data 目录下
执行 EDA&Extract.ipynb
执行 train&predict.ipynb
执行 stacking.ipynb

感谢

感谢两位帅气的队友HiYellowC和yupeihua

这里还有我们的答辩PPT，如果需要的话自行下载

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
ckpt		ckpt
data		data
img		img
src		src
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

简介

代码流程

Input

Preprocessing

Feature Extraction

单模型

模型融合

Stacking

Snapshot Emsemble

Pesudo Labeling

代码结构

使用方式：

感谢

About

Releases

Packages

Languages

License

funny000/sohu-competition01

Folders and files

Latest commit

History

Repository files navigation

简介

代码流程

Input

Preprocessing

Feature Extraction

单模型

模型融合

Stacking

Snapshot Emsemble

Pesudo Labeling

代码结构

使用方式：

感谢

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages