Z użyciem Pythona, Pandasa, Matplotlib, Seaborn, SKlearn, XGBoosta
Jest to kopia notebook z mojego Kaggle'a https://www.kaggle.com/bimbus94/titanic-po-polsku
- Obróbka danych w Pandas'ie
- Wizualizacja danych z wykorzystaniem Matplotlib i Seaborn
- Różnorodne wykorzystanie Sklearn
- Imputacja, normalizacja, skalowanie danych
- Przegląd różnych modeli Machine Learningu
- Feature Engineering
- Heatmapy
- Cross-Validation
- Krzywe uczenia
- Feature Importance
- Modelowanie z użyciem XGBoosta
- Próba tuningu/optymalizacji parametrów XGBoosta z GridSeachCV
- 0.7894 przy wyborze tylko 5 zmiennych
- 0.76-0.77 przy wyborze większości zmiennych