Churn Data Analysis

使用比赛方提供的脱敏数据，进行客户信贷流失预测。根据比赛方要求，无法开源数据。 二分类问题

Version 3: CMTR_CHURN_PR_V3_ TabNet 使用无监督模型进行预训练
- 遇到的问题：AUC和准确率提升依旧很难，模型效果比较差。AUC: 0.6511318268787747 | Score: 0.74
  - 解决思路：使用PCA主成分分析法，进行特征降维, 准确率依旧下降，出现特征工程无效的情况，原因未知。AUC: 0.5801404503216607

Version 5: CMTR_CHURN_PR_V5 变量组合新变量进一步降维 | 随机森林权重筛选变量
- 经过特征选择（TOP12），通过SMOTE方法平衡正负样本（1:1）。AUC: 0.74977

Version 6: CMTR_CHURN_PR_V6 SMOTE采样 | LightGBM | GridSearchCV | K折交叉验证 | 模型融合（《机器学习》周志华）
- 经过数据清洗后，使用SMOTE平衡正负样本（3:1 -> 1:1），由于剔除变量使得AUC显著下降，故根据相关系数热力图，剔除多重共线性变量。
- 使用K折交叉验证和GridSearchCV寻找LightGBM最优参数，训练集和验证集AUC均大于92%，但是提交的预测结果只显示0.6613，依旧存在过拟合现象。
- 使用模型融合，第一层LightGBM + XGB计算加权平均值，将加权平均值输入LogisticRegression预测结果，最终提交平台的AUC:0.6889。

总结：虽然从数据清洗、变量筛选、调参、调整分类效果最好的模型、尝试模型融合，比赛结果依旧不理想，但是过程中学到了很多，并且了解了AutoML的包，并且学习到了模型融合的思想。还是有进步的。

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
CMTR_CHURN_PR.ipynb		CMTR_CHURN_PR.ipynb
CMTR_CHURN_PR_V3.ipynb		CMTR_CHURN_PR_V3.ipynb
CMTR_CHURN_PR_V3_.ipynb		CMTR_CHURN_PR_V3_.ipynb
CMTR_CHURN_PR_V4.ipynb		CMTR_CHURN_PR_V4.ipynb
CMTR_CHURN_PR_V5.ipynb		CMTR_CHURN_PR_V5.ipynb
CMTR_CHURN_PR_V6.ipynb		CMTR_CHURN_PR_V6.ipynb
README.md		README.md
特征说明.csv		特征说明.csv

Provide feedback