GitHub - yaosting/Recommender-System-with-TF2.0: Recurrence the recommender paper with Tensorflow2.0

前言

开源项目Recommender System with TF2.0主要是对经典的推荐系统论文进行复现，包括Matching（召回）（NCF、SASRec、STAMP等）、Ranking（粗排）（WDL、DCN等）。

建立原因：

理论和实践似乎有很大的间隔，学术界与工业界的差距更是如此；
更好的理解论文的核心内容，增强自己的工程能力；
很多论文给出的开源代码都是TF1.x，因此想要用更简单的TF2.x进行复现；

项目特点：

使用Tensorflow2.x进行复现；
每个模型都是相互独立的，不存在依赖关系（当然因为这也增加了很多重复工作）；
模型基本按照论文进行构建，实验尽量使用论文给出的的公共数据集；
模型都附有README.md，对于模型的训练使用有详细的介绍；
代码源文件参数、函数命名规范，并且带有标准的注释；

重要更新

【2020.12.20】在Top-K模型中，评估方式为正负样本1:100的模型（MF-BPR、SASRec等），之前评估代码效率太低，因此进行了调整（目前评估时间大幅度缩短），同时也更新了utils.py文件；
【2020.11.18】在Top-K模型中，不再考虑dense_inputs、sparse_inputs，并且user_inputs和seq_inputs不考虑多个类别，只将id特征作为输入（降低了模型的可扩展性，但是提高了模型的可读性）；
【2020.11.18】BPR、SASRec模型进行了更新，加入了实验结果；

复现论文

1. 召回模型（Top-K推荐）

Paper\|Model	Published in	Author
Matrix Factorization Techniques for Recommender Systems\|MF	IEEE Computer Society,2009	Koren\|Yahoo Research
BPR: Bayesian Personalized Ranking from Implicit Feedback\|MF-BPR	UAI, 2009	Steﬀen Rendle
Neural network-based Collaborative Filtering\|NCF	WWW, 2017	Xiangnan He
Self-Attentive Sequential Recommendation｜SASRec	ICDM, 2018	UCSD
STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation\| STAMP	KDD, 2018	Qiao Liu
Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding｜Caser	WSDM, 2018	Jiaxi Tang
Next Item Recommendation with Self-Attentive Metric Learning\|AttRec	AAAAI, 2019	Shuai Zhang

2. 排序模型（CTR预估）

Paper｜Model	Published in	Author
Factorization Machines\|FM	ICDM, 2010	Steffen Rendle
Field-aware Factorization Machines for CTR Prediction｜FFM	RecSys, 2016	Yuchin Juan｜Criteo Research
Wide & Deep Learning for Recommender Systems｜WDL	DLRS, 2016	Google Inc.
Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features\|Deep Crossing	KDD, 2016	Microsoft Research
Product-based Neural Networks for User Response Prediction\|PNN	ICDM, 2016	Shanghai Jiao Tong University
Deep & Cross Network for Ad Click Predictions｜DCN	ADKDD, 2017	Stanford University｜Google Inc.
Neural Factorization Machines for Sparse Predictive Analytics\|NFM	SIGIR, 2017	Xiangnan He
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks\|AFM	IJCAI, 2017	Zhejiang University\|National University of Singapore
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction\|DeepFM	IJCAI, 2017	Harbin Institute of Technology\|Noah’s Ark Research Lab, Huawei
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems\|xDeepFM	KDD, 2018	University of Science and Technology of China
Deep Interest Network for Click-Through Rate Prediction\|DIN	KDD, 2018	Alibaba Group

讨论

Github推出了Discussions功能，作者会将一些重要的更新/代码进行分享。

评估函数：evaluate.py
Criteo数据集：链接:https://pan.baidu.com/s/19O0jLKrDGpp6SAWFtgsJvg 密码:vufh

致谢

项目中难免会存在一些代码Bug，感谢以下朋友指出问题：

wangzhe258369：指出在DIN模型中tf.keras.layers.BatchNormalization默认行为是training=False，此时不会去更新BN中的moving_mean和moving_variance变量。但是重新修改了DIN模型代码内容时，再仔细查找了资料，发现：

如果使用模型调用fit()的话，是可以不给的（官方推荐是不给），因为在fit()的时候，模型会自己根据相应的阶段（是train阶段还是inference阶段）决定training值，这是由learning——phase机制实现的。
boluochuile：发现SASRec模型训练出错，原因是验证集必须使用tuple的方式，已更正；
dominic-z：指出DIN中Attention的mask问题，更改为从seq_inputs中得到mask，因为采用的是0填充（这里与重写之前的代码不同，之前是在每个mini-batch中选择最大的长度作为序列长度，不会存在序列过长被切割的问题，而现在为了方便，采用最普遍padding的方法）
dominic-z：指出DIN训练中seq_inputsshape与model不匹配的问题，已更正，应该是(batch_size, maxlen, behavior_num)，model相关内容进行更改，另外对于行为数量，之前的名称seq_len有歧义，改为behavior_num；添加了重写之前的代码，在DIN/old目录下

zhangfangkai、R7788380：指出在使用movielens的utils.py文件中，trans_score并不能指定正负样本，应将

data_df.loc[data_df.label < trans_score, 'label'] = 0
data_df.loc[data_df.label >= trans_score, 'label'] = 1

更改为：

data_df = data_df[data_df.label >= trans_score]

联系方式

1、对于项目有任何建议或问题，可以在Issue留言，或者发邮件至[email protected]。

2、作者有一个自己的公众号：推荐算法的小齿轮，如果喜欢里面的内容，不妨点个关注。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

前言

重要更新

复现论文

1. 召回模型（Top-K推荐）

2. 排序模型（CTR预估）

讨论

致谢

联系方式

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 261 Commits
AFM		AFM
AttRec		AttRec
BPR		BPR
Caser		Caser
DCN		DCN
DIN		DIN
DNN		DNN
DeepFM		DeepFM
Deep_Crossing		Deep_Crossing
FFM		FFM
FM		FM
MF		MF
NCF		NCF
NFM		NFM
PNN		PNN
SASRec		SASRec
STAMP		STAMP
WDL		WDL
xDeepFM		xDeepFM
README.md		README.md

yaosting/Recommender-System-with-TF2.0

Folders and files

Latest commit

History

Repository files navigation

前言

重要更新

复现论文

1. 召回模型（Top-K推荐）

2. 排序模型（CTR预估）

讨论

致谢

联系方式

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages