Bu proje, California'da bulunan ev fiyatlarını tahmin etmek amacıyla geliştirilmiştir. Veri bilimi ve makine öğrenimi yöntemleri kullanılarak oluşturulan bu projenin detayları aşağıda yer almaktadır.
Proje, California'daki evlere ait çeşitli özellikleri içeren bir veri seti kullanmaktadır. Bu özellikler arasında coğrafi konum, ev özellikleri, nüfus istatistikleri ve gelir seviyeleri bulunmaktadır. Veri seti, housing.csv dosyasından yüklenmektedir.
Proje, veri setindeki eksik değerleri kontrol edip, eksik değerleri uygun şekilde doldurarak veriyi temizlemektedir. Ayrıca, kategorik verilerin sayısal değerlere dönüştürülmesi için Label Encoder kullanılmaktadır.
Proje, veri setindeki ilişkileri anlamak için Seaborn kütüphanesini kullanarak bir ısı haritası (heat map) oluşturmaktadır. Bu harita, bağımlı ve bağımsız değişkenler arasındaki ilişkileri görselleştirmektedir.
Proje, veriyi eğitim ve test setlerine bölmekte ve ardından hem Lineer Regresyon hem de Random Forest Regresyon modelleri ile eğitim gerçekleştirmektedir. Her iki modelin başarı oranları da R-squared metriği kullanılarak değerlendirilmektedir.
- Lineer Regresyon Modeli: %44 doğruluk oranı.
- Random Forest Regresyon Modeli: %63 doğruluk oranı.
Projenin kullanımı oldukça basittir. İlgili Jupyter Notebook dosyasını çalıştırarak modelleri eğitebilir ve ev fiyatları için tahminlerde bulunabilirsiniz.