Add files via upload

Fatih-Haslak · web-flow · commit e938c48ce629 · 2023-07-22T17:18:21.000+03:00
diff --git a/knn.py b/knn.py
@@ -0,0 +1,152 @@
+import pandas as pd
+from sklearn.preprocessing import MinMaxScaler #sadece veri normalizasyonu için sklearn kullandım
+scaler = MinMaxScaler()
+import time 
+start=time.time()
+i=0
+j=1
+y=0
+deger=0
+liste_ar=[]
+son=0
+
+###############################################################
+df=pd.read_excel("Dry_Bean_Dataset.xlsx")
+df.iloc[:,0:-1] = scaler.fit_transform(df.iloc[:,0:-1].to_numpy()) # verileri 0-1 arasında normalize ettik
+df1=df.copy()
+df1['index_col'] = df.index
+###############################################################
+
+
+train=df.sample(frac=0.7 ,random_state=61) #train sample
+
+test=df.drop(train.index) #test sample
+
+hesaplanacak=pd.DataFrame(train.iloc[0:1,:]) #sürekli değisecek olan classını tahmın edecegımız veri
+
+y_sinif=hesaplanacak["Class"].values[0] #  var olan classımız budur
+
+hesaplanacak=hesaplanacak.drop("Class",axis=1)   #hesaplayacagımızın sadece verılerını tutuyoruz classı cıkardık.
+
+train_class=train.drop("Class",axis=1) # var olan tumm verıler classları ayır
+
+train_class=train.drop(hesaplanacak.index)
+
+
+len_test=hesaplanacak.shape[0]
+len_train=train_class.shape[0]
+len_columns=train_class.shape[1]
+
+
+def hesapla_class(liste_ar,k_changed):
+        
+    sorted_lenght=sorted(liste_ar,key=lambda liste_ar:liste_ar[1], reverse=False)# uzaklıklara göre sıraliyoruz
+    count=0
+    clas_aga=[]
+    while(1):
+        if(count==k_changed):
+            break
+        indexler=(sorted_lenght[count][0])
+        clas_aga.append(df1[df1["index_col"]==indexler]["Class"].values[0])
+        count+=1
+    y_head=max(clas_aga,key=clas_aga.count)
+    liste_ar.clear()
+    return y_head
+
+count_true=0
+count_false=0
+
+def knn(df,train_class,hesaplanacak,y_sinif,k_changed):
+    global count_true
+    global count_false
+    global len_columns
+    global liste_ar
+    global i
+    global y
+    global deger
+    global j
+    global son
+    try:
+        while(1):
+            
+            if(y==len_columns-1):
+                sonuc=deger**0.5
+
+                liste_ar.append((train_class.index.values[i],sonuc)) # indexleri ve uzaklıkları lıste_ar'ın içine atıyoruz ileride sıralamak için
+                #print(liste_ar)
+                sonuc=0
+                deger=0
+                i+=1
+                y=0
+            if(len_train<=i): # doğruluk oranı ıcın hesaplamaları bunun ıcınde anlık olarak tutuyorum
+            
+                tahmin=hesapla_class(liste_ar,k_changed)
+                #print("Class",y_sinif)
+                
+                if(y_sinif==tahmin):
+                    #print("{} GERCEK DEGERİM , {} TAHMİN DEGERİM ".format(y_sinif,tahmin))
+                    count_true+=1
+                else:
+                    #print("{} GERCEK DEGERİM , {} TAHMİN DEGERİM ".format(y_sinif,tahmin))
+                    count_false+=1
+
+                j+=1
+                hesaplanacak=pd.DataFrame(df.iloc[j:(j+1),:])
+                y_sinif=hesaplanacak["Class"].values[0]
+                hesaplanacak=hesaplanacak.drop("Class",axis=1) #class_ hesaplanacakın classını tuttuk
+                train_class=df.drop("Class",axis=1) # var olan tumm verıler classları ayır
+                train_class=df.drop(hesaplanacak.index)
+
+                sonuc=0
+                deger=0
+                i=0
+                y=0
+                
+                continue
+            
+            deger=deger+(train_class.iloc[i,y]-hesaplanacak.iloc[0,y])**2 #öklid hesabı için karekok harıc olan kısım
+            y+=1
+
+    except:
+        
+        son=(count_true/(count_true+count_false))*100
+        #print("doğruluk orani",son)
+
+try:
+    k_changed=int(input("Bir 'K' parametresi giriniz "))
+except:
+    print("Hatali giris cikis yapiliyor")
+    exit()  
+knn(train,train_class,hesaplanacak,y_sinif,k_changed)
+print("Train için doğruluk orani {:.2f} ".format(son))
+
+print("----------")
+
+i=0
+j=1
+y=0
+deger=0
+liste_ar=[]
+count_true=0
+count_false=0
+son=0
+hesaplanacak=pd.DataFrame(test.iloc[0:1,:])
+
+y_sinif=hesaplanacak["Class"].values[0]
+
+hesaplanacak=hesaplanacak.drop("Class",axis=1)   #class_ hesaplanacakın classını tuttuk
+                                        
+train_class=test.drop("Class",axis=1) # var olan tumm verıler classları ayır
+
+train_class=test.drop(hesaplanacak.index)
+
+len_test=hesaplanacak.shape[0]
+len_train=train_class.shape[0]
+len_columns=train_class.shape[1]
+
+knn(test,train_class,hesaplanacak,y_sinif,k_changed)
+print("Test için doğruluk orani {:.2f} ".format(son))
+
+end=time.time()
+sonucc=end-start
+print("Hesaplama zamani",sonucc)
diff --git a/naive_bayes.py b/naive_bayes.py
@@ -0,0 +1,129 @@
+import pandas as pd
+import numpy as np
+import math
+from sklearn.preprocessing import MinMaxScaler
+scaler = MinMaxScaler()
+
+
+df = pd.read_excel("Dry_Bean_Dataset.xlsx")
+df.iloc[:,0:-1] = scaler.fit_transform(df.iloc[:,0:-1].to_numpy()) #verileri normalize ettik
+
+train = df.sample(frac = 0.7, random_state = 42) # yuzde 70 30 ayrım
+test = df.drop(train.index)
+y_train = train["Class"]
+x_train = train.drop("Class", axis = 1)
+
+y_test = test["Class"]
+x_test = test.drop("Class", axis = 1)
+
+#####
+classes=[]
+flag=0
+for i in train["Class"]: #classlarımızı depoluyoruz
+
+	for b in classes:
+		if(i==b):
+			flag=1
+			break
+		else:
+			flag=0
+
+	leng=len(classes)
+	if(leng==7):
+		break
+	if(flag!=1):
+		classes.append(i)
+		flag=0
+
+
+df_new=pd.DataFrame()
+df_new_var=pd.DataFrame()
+df_new_prior=pd.DataFrame()
+
+for i in range(0,len(classes)): # ortalama standart sapma ve ilk olasılıkları hesaplayarak dataframe'e çeviriyoruz.
+    
+	df_new_temp=pd.DataFrame(train[train['Class'] == classes[i]].mean(numeric_only=True),columns=[classes[i]]).T
+	temp=df_new_temp
+	df_new=pd.concat([df_new, temp], ignore_index=False)
+
+	df_new_temp_var=pd.DataFrame(train[train['Class'] == classes[i]].var(numeric_only=True)**0.5,columns=[classes[i]]).T
+	temp_var=df_new_temp_var
+	df_new_var=pd.concat([df_new_var, temp_var], ignore_index=False)
+
+	df_new_temp_prior=(pd.DataFrame(train[train['Class'] == classes[i]].count(numeric_only=True)/len(train["Class"]==classes[i]),columns=[classes[i]])).iloc[-1]
+	temp_prior=df_new_temp_prior
+	df_new_prior=pd.concat([df_new_prior, temp_prior], ignore_index=False)
+
+means=df_new
+stdev=df_new_var
+prior=df_new_prior[0]
+#print(means)
+
+def sayisal_hesap(x, mean, stdev):
+	#sayısal değerlerde olasılık hesabı denklemi
+	exponent = math.exp(-((x-mean)**2 / (2 * stdev**2 )))
+	return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent 
+
+
+def Predict(x_data):
+	Predictions = []
+	
+	for i in x_data.index: # bir verimizi secıyoruz
+	   
+		ClassLikelihood = []
+		instance = x_data.loc[i]
+		
+		for j in classes: #j classların içine giriyor
+			
+			FeatureLikelihoods = []
+			FeatureLikelihoods.append(prior[j]) #ilk olasılığı ekliyoruz
+			
+			for k in x_train.columns: #columnslara girerek hesap yapacagız
+	
+				data = instance[k]
+	
+				mean = means[k].loc[j]  #ortalamayı alıyoruz
+				variance = stdev[k].loc[j] #varyansı alıyoruz
+				
+				Likelihood = sayisal_hesap(data, mean, variance) # sayısal değerlerde hesaplama fonksıyonu
+				
+				if(Likelihood==0):
+
+					Likelihood = 0.05 # sabit olarak almak istedim
+									  # 0.05 means olarak dusunerekten 
+									  # hesaplamayı bozmayacagını tahmın edıyorum
+									  
+				FeatureLikelihoods.append(Likelihood)
+			ClassLikelihood.append(np.prod(FeatureLikelihoods))	
+	    #max olasılıgı seçmek ıcın yazılan kod parcacıgı
+		max_prob=max(ClassLikelihood)
+		count=0
+		for i in ClassLikelihood:
+			if(i==max_prob):
+				max_prob_index=count
+				break
+			count+=1
+		
+		Prediction = classes[max_prob_index]
+
+		Predictions.append(Prediction)
+		
+	return Predictions
+
+def Accuracy(y, y_head):#doğruluk hesabını yaptıgımız bölüm
+	y = list(y)
+	y_head = list(y_head)
+	score = 0
+
+	for i, j in zip(y, y_head):
+		if i == j:
+			score += 1
+
+	return score / len(y)        
+
+PredictTrain = Predict(x_train)
+PredictTest = Predict(x_test)
+
+print("Train sonuç ",round(Accuracy(y_train, PredictTrain), 5))
+print("Test sonuç ",round(Accuracy(y_test, PredictTest), 5))
+