Makine Öğrenmesi - Genel Konular

Fit ve Predict Komutları

Yayın tarihi :12-Oca-22

Makine öğrenmesi temelinde öğrenim/eğtim için "fit" ve tahmin etme/değerlendirme için "predict" komutları yer almaktadır. 

Veri setinde, bir bağımlı hedef veya tahmin edilecek "y" değeri ve bağımsız olarak bulunan "x" değerleri bulunmaktadır. "x" değerlerinin sonucunda "y" değeri oluşur. Örneğin araba özellikleri ve bu özelliklerine karşılık arabanın fiyatının bulunduğu bir veri setinde x değeri arabanın özelliklerini içeren sütunları temsil ederken y değeri de veri setindeki fiyat sütunu temsil eder.  

Makine öğrenmesi algoritmaları bu "x" değerlerine karşılık gelen "y" değerleri arasında bir formül oluşturur ve sonraki girilecek yeni değerlere bu formülü uygular. x ve y değerlerinin çokluğu makine öğrenmesi algoritmaların daha başarılı formüller oluşturmasını sağlamaktadır. (Yani çok veri ile algoritmanın tecrübesi artacaktır diyebiliriz.)

Belirtilen x ve y değerleri direkt olarak makine öğrenmesi algoritmalarına verileceği gibi rastgele olarak 2 gruba ayrılabilir. Bu gruplar;

  • train (öğrenme/eğitim): Makinenin öğrenmesi için veri setinin büyük bir kısmını temsil eder. Genellikle veri setinin %80'ini oluşturur (Kullanıcının oranına göre değişebilir). Ne kadar çok olursa o kadar öğrenim daha iyi olacaktır. Train verileri de kendi arasında 2 gruba ayrılır. Bunlar;
    • x_train: veri setindeki "x" değerlerinin train için ayrılan oranını temsil etmektedir. (Yani veri setindeki %80 oranındaki x değerleri)
    • y_train: veri setindeki "y" değerlerinin train için ayrılan oranını temsil etmektedir. (Yani veri setindeki %80 oranındaki y değerleri)
  • test (değerlendirme) :Makinenin öğrenmesi için veri setinin küçük bir kısmını temsil eder. Genellikle veri setinin %20'ini oluşturur (Kullanıcının oranına göre değişebilir). Train verilerini öğrenen makinenin doğruluk oranını ölçmek için kullanılır. Test verileri de kendi arasında 2 gruba ayrılır. Bunlar;
    • x_test: veri setindeki "x" değerlerinin test için ayrılan oranını temsil etmektedir. (Yani veri setindeki %20 oranındaki x değerleri)
    • y_test: veri setindeki "y" değerlerinin test için ayrılan oranını temsil etmektedir. (Yani veri setindeki %20 oranındaki y değerleri)

Yukarıda da belirtildiği gibi veri seti toplamda 4 parçaya(x_train, x_test, y_train ve y_test) ayrılarak makine öğrenmesi algoritmalarına sunulabilir. Veri setini parçalarına ayırabilmek için daha önceden değinilen train_test_split yapısı kullanılabilir.

1. Fit işlemi

Fit işlemi, train (eğitim veya öğrenme) olarak ayrılan verilerin (x_train ve y_train) değerlerini/yapılarını makine öğrenmesi modelinin algoritmasına öğretme işlemi uygular. Train verisinin satır ve sütun sayısı ne kadar çok olursa (veri sayısı ne kadar çok olursa) öğrenme işleminin başarısı da artacaktır.  

Kullanım şekli: (Makine Öğrenmesi Algoritması).fit(x_train,y_train)

2. Predict işlemi

Predict işlemi, fit işlemi sonrasında makine öğrenmesi algoritmasının öğrenmesi sonucunda girilen yeni bağımsız değerlerin sonuçlarına tahmin etme işlemi uygular. 

Kullanım şekli: (Makine Öğrenmesi Algoritması).predict(x_test)

Sonuç olarak, fit ve predict işlemlerinin ne anlam ifade edildikleri anlatılmış oldu. Burada dikkat edilmişse eğer x_train, y_train ve x_test verileri kullanıldı ama y_test değerleri kullanılmadı. Bunun nedeni y_test değerleri makine öğrenmesi modeline (Regresyon veya Sınıflandırma) göre model değerlendirilmesi işlemlerinde kullanılacaktır.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.