Esse repositório contem os códigos utilizados no Workshop de Airflow
Link para a apresentação: https://docs.google.com/presentation/d/17Kc2dDkoOQBKMZCemjP6PEmT1I7a8dhIMspLXLjfROg/edit#slide=id.g7a1bccaf72_0_90
Estrutura do diretório
├── data
│ ├── raw
│ ├── transform
│ └── prediction
├── dag
│ ├── src
│ ├── extract_data
| ├── extract_data.py
│ ├── preprocessing
│ ├── preprocessing.py
│ ├── train
| ├── train.py
| ├── predict
| ├── predict.py
│ ├── DAG-WiDS_2021.py
│ └── DAG-WiDS_2021_predict.py
├── model
├── notebooks
├── images
├── README.md
└── .gitignore
• DAG-WiDS_2021.py
Criação da DAG de treino com extração de dados do kaggle, preprocessamento e treino de um modelo de Regressão Logística e um modelo de Xgboost com GridSearch
• DAG-WiDS_2021_predict.py
Criação da DAG de predição com extração de dados do kaggle, preprocessamento, escolha do melhor modelo utilizando AUC e predição
• extract-data.py
Script para extração de dados do kaggle em .zip e salvar na pasta data/raw
• preprocessing.py
Script de preprocessamento dos dados provindos de data/raw com a exclusão de colunas com muitos nans, com variáveis categóricas e colunas cujos dados têm baixa variância. A saída é salva na pasta data/transform
• train.py
Treino de um modelo de Regressão Logística e um modelo de Xgboost com GridSearch. O pickel do modelo e os AUC são salvos na pasta model
• prediction.py
Escolhe o melhor modelo utilizando AUC e realiza a predição. A saída é salva no arquivo data/prediction/prediction.npy
Como instalar o airflow na sua máquina: https://medium.com/data-hackers/primeiros-passos-com-o-apache-airflow-etl-f%C3%A1cil-robusto-e-de-baixo-custo-f80db989edae