Skip to content

Esse repositório contem os códigos utilizados no Workshop de Airflow

License

Notifications You must be signed in to change notification settings

patriciacatandi/Workshop-Airflow

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Workshop-Airflow

Esse repositório contem os códigos utilizados no Workshop de Airflow

Link para a apresentação: https://docs.google.com/presentation/d/17Kc2dDkoOQBKMZCemjP6PEmT1I7a8dhIMspLXLjfROg/edit#slide=id.g7a1bccaf72_0_90

Estrutura do diretório

├── data
│   ├── raw
│   ├── transform
│   └── prediction
├── dag
│   ├── src
│       ├── extract_data
|         ├── extract_data.py
│       ├── preprocessing
│         ├── preprocessing.py
│       ├── train
|         ├── train.py
|       ├── predict
|         ├── predict.py
│   ├── DAG-WiDS_2021.py
│   └── DAG-WiDS_2021_predict.py
├── model
├── notebooks
├── images
├── README.md
└── .gitignore

Arquivos

DAG-WiDS_2021.py
 Criação da DAG de treino com extração de dados do kaggle, preprocessamento e treino de um modelo de Regressão Logística e um modelo de Xgboost com GridSearch

DAG-WiDS_2021_predict.py
 Criação da DAG de predição com extração de dados do kaggle, preprocessamento, escolha do melhor modelo utilizando AUC e predição

extract-data.py
 Script para extração de dados do kaggle em .zip e salvar na pasta data/raw

preprocessing.py
 Script de preprocessamento dos dados provindos de data/raw com a exclusão de colunas com muitos nans, com variáveis categóricas e colunas cujos dados têm baixa variância. A saída é salva na pasta data/transform

train.py
 Treino de um modelo de Regressão Logística e um modelo de Xgboost com GridSearch. O pickel do modelo e os AUC são salvos na pasta model

prediction.py
 Escolhe o melhor modelo utilizando AUC e realiza a predição. A saída é salva no arquivo data/prediction/prediction.npy

DAG de treino

What is this

DAG de predição

What is this

Como instalar o airflow na sua máquina: https://medium.com/data-hackers/primeiros-passos-com-o-apache-airflow-etl-f%C3%A1cil-robusto-e-de-baixo-custo-f80db989edae

About

Esse repositório contem os códigos utilizados no Workshop de Airflow

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published