Makine Öğrenmesi - I-Doğrusal İlişkiler (Linear Relationships)

Düzenlileştirme (Regularization)

Yayın tarihi :25-Ara-21

Düzenlileştirme Nedir?

Makine öğrenimi alanında düzenlileştirme, oldukça popüler bir kullanıma sahip ve en önemli süreçlerden sayılabilecek bir teknik olarak ifade edilebilir. Bu teknik sayesinde oluşturulan model yapısına ekstradan bilgiler entegre edilir ve bu entegrasyon sayesinde modelin aşırı uyum(overfitting) durumu önlenmektedir.

Bu bilgilerden hareketle makine öğreniminde düzenlileştirme; makine öğrenmesi modelini eğitim verilerini (örn: x_train ve y_train) son derece iyi modellediği ancak test verilerinde (örn: x_test ve y_test) iyi performans göstermediği, yani başarılı bir model olmasına rağmen test verilerini tahmin etmek istediğinde başarı gösteremediği bir durumu ortadan kaldırmak için kullanılan bir teknik olarak ifade edilebilir. Ayrıca, eğitim verilerinde çok fazla gürültülü (veri kümesindeki alakasız veya rasgele değerler) değerlerin varlığı, tahminsel analizlemelerin başarılı bir şekilde sonuç vermesini engellemektedir. Bu durumun temel nedeni ise, eğitim verilerinde bulunan gürültülü değerler, veri seti içerisinde bulunan keşfedilmemiş verirlerle ilişki içerisine girer ve bunun sonucunda modelin yapması gereken çıktı analizleme işlemi tam anlamıyla gerçekleştirilemez. Bu durumun gerçekleşmesine bağlı olarak kullanılan model, test verileriyle iyi bir performans gösteremez ve bu model aşırı uydurma(overfitting) model olarak tanımlanır. Meydana gelebilecek bu olumsuzluklardan kurtulmak için düzenlileştirme tekniği kullanılarak gürültü değişken katsayılarını sıfıra doğru küçültülür. 

Sonuç olarak makine öğrenimi sürecinde bu tekniğin kullanımına bağlı olarak veri kümelerinde bulunan bazı değişkenlerin büyüklükleri azaltılarak veri kümesinde bulunan tüm değişkenlerin uyum kontrolü altına alınması sağlanır. Böylelikle öznitelik katsayısı sıfıra doğru küçültülür ve bu gelişmelerin sonucunda ise, kullanılan modelin doğruluk oranların gerçeğe en yakın şekilde sonuç vermesi sağlanır. 

Düzenlileştirme Nasıl Çalışır?

Düzenlileştirme tekniğinin temel çalışma prensibi, karmaşık bir formda bulunan model yapısına; Artık Kareler Toplamı (RSS) başta olmak üzere karmaşıklık terimleri, ceza terimleri veya değer düşürücü terimlerin eklenmesini olarak ifade edilebilir. 

Bu tekniğin çalışma sürecini önceki konularda detaylı bir şekilde anlatılan Basit Doğrusal Regresyon denklemini kullanarak inceleyebiliriz.

Basit doğrusal regresyonun evrensel denklemi "Yi​ = β0​ + βiXi​ + ϵ" dir. Bu denklemi genişletmek gerekirse; 

y= β0+β1x1+β2x2+β3x3+β4x4+β5x⋯+βixi +b 

  • Denklem üzerinde ifade edilen "y" terimi tahminsel analizleme yapılacak değerleri,
  • "x1, x2, x3, x4, x5... xi" terimleri ise "y" teriminin bağımsız özelliklerini, 
  • "β0, β1, β2, β3, β4, β5...βi" terimleri, özelliklere(yani: "x1, x2, x3, x4, x5... xi") eklenen ağırlıkları(yani "x" in katsayı tahminleri),
  • "b" ise kesme noktasını,

temsil etmektedir. 

Düzenlileştirme tekniğinin çalışma prensibini anlamak için basit doğrusal regresyonda kullanılan optimizasyon veya kayıp fonksiyonunu ele alalım. Bu fonksiyon düzenlileştirme tekniğinde Artık Kareler Toplamı (RSS) olarak tanımlanır ve standart olarak "β0" ve "b" değerlerinin optimize edilmesinde görev almaktadır. 

Bu fonksiyonun kullanımı dahilinde, eğitim verileri baz alınarak uygun katsayı tahminlemeleri ayarlanır. Ancak, eğitim verileri içerisinde herhangi gürültü değerleri mevcut ise tahminlenen katsayılar oldukça başarılı bir şekilde genellenemez ve bunun sonucunda gelecek zamanda kullanılacak verilerin tahminleme sonuçları başarılı bir şekilde gerçekleştirilemez. Bu olumsuzluktan kurtulmak ve "y" değerinin doğru tahmin edilebilmesi için, bazı paremetreleri optimize edebilecek özelliklerde geliştirilen kayıp veya optimizasyon fonksiyonu eklenerek kullanılan modeller uygun özelliklere göre geliştirilir ve/veya şekillendirilir. Bunun sonucunda ise, öznitelik katsayısı sıfıra doğru küçültülür ve düzenleme işlemi gerçekleştirilir. 

Düzenlileştirme Tekniği Neden Kullanılır?

Yukarıda bahsedildiği üzere makine öğreniminde kullanılan bazı modeller, eğitim verilerini oldukça iyi bir şekilde modelleyebilirken test verilerini aynı performansla modelleyemez. Bunun sonucunda makine öğrenimi tahmin sonuçları sonuçları oldukça olumsuz şekilde etkilenmektedir. Bu durumun meydana gelmesinde ki en temel kriter ise, veri kümeleri içerisinde bulunan gürültü değişkenleridir. Bu değişkenlerin varlığı, modelin doğru oranlardaki çıktı tahminlemelerine engel olmaktadır ve bu aşırı uyumlu model olarak ifade edilmektedir. Bu noktada, doğru tahmin sonuçlarının gözlenmesini engelleyen aşırı uyumlu model ile mücadele edebilmek için düzenlileştirme tekniği uygulanır. Böylelikle aşırı uyumlu modelin öznitelik katsayısı sıfıra doğru küçültülür ve/veya eşitlenir ve istenilen gerçek tahmin sonuçlarının elde edilebilmesi sağlanır.

Düzenlileştirme Teknikleri Nelerdir?

Günümüzde evrensel olarak iki farklı düzenlileştirme tekniği kullanılmaktadır. Bunlar;

Bu tekniklere ek olarak Ridge ve Lasso regresyon tekniklerinin birbirlerine entegrasyonu sonucunda geliştirilen;

düzenlileştirme süreci için başarılı bir şekilde kullanılmaktadır.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.