Makine Öğrenmesi

Sınıflandırma (Classification)

Yayın tarihi :04-Oca-22

Makine Öğreniminde Sınıflandırma Nedir?

Makine öğreniminde sınıflandırma, çalışmalara kaynak olarak kullanılmak istenilen herhangi bir veri kümesini belirli özelliklere göre ayırma ve/veya bölme olarak ifade edilebilir. Bu yaklaşımda genel itibariyle her veri türü(etiketlenmiş veya etiketlenmemiş) kullananılabilinmektedir. Bu sürecin başarılı bir çalışma gösterebilmesi için öncelikli olarak tahminsel süreçler gerçekleştirilmektedir. Böylelikle tahminsel sonuçlara bağlı olarak veriler arasında ortak bir kesişim kümesi tespit edilir, daha sonra bu bilgiler referans alınarak sınıflandırma süreci gerçekleştirilir. 

Makine öğrenimi dahilinde kullanılan bu yaklaşımda geliştirilmiş algoritmalar kullanılmaktadır. Bu algoritmalar sayesinde daha önceden eğitilmiş olan veriler kullanılarak tahminlere dayalı yeni çıktı gözlemleri meydana getirilmektedir. Bu durum denetimli öğrenme süreci olarak bilinmektedir. Yani makine öğreniminde kullanılan sınıflandırma yaklaşımı, temel olarak denetimli öğrenme tekniği olarak ifade edilebilir. Buradan da anlaşılacağı üzere sınıflandırma sürecinde, belirli algoritmalarla oluşturulan bir makine modeli veri kümeleri üzerinde gözlemler gerçekleştirir ve bu gözlemlerin sonuçlarına göre öğrenme işlemini tamamlar. Bu işlemin ardından ise meydana gelebilecek tahminsel yeni gözlemleri belirli kalıplar dahilinde sınıflandırmaktadır. 

Genel olarak oluşturulan sınıflar; etiket veya kategori olarak adlandırılmaktadır. 

Sınıflandırma sürecinde işlem sonuçları genellikle; "Evet/Hayır", "0/1", "Var/Yok" gibi belirli kalıplar üzerinde incelenebilinmektedir. Örneğin; günlük hayatta sıkça kullanmakta olduğumuz elektronik ortam ürünü olan e-posta iletişim aracını ele alalım. Hemen hemen hepimizin dikkatini çektiği üzere e-posta arayüzünde istenmeyen mesaj olarak ifade edilen ve "Spam" olarak adlandırılan bir alan bulunmaktadır. Mail adresinize gelen e-postaların hangilerinin spam veya hangilerinin spam olmadığı otomatik olarak belirlenmektedir. Tam da bu noktada bu sürecin başarılı bir şekilde işleyebilmesi için arka planda makine öğrenimi sınıflandırma yaklaşımı işlem yapmaktadır. Sonuç olarak bu süreçte makine, daha önceden spam olarak belirlenen etiketlenmiş veriler kullanılarak eğitilir, daha sonra da bu bilgileri referans alarak yeni gelen herhangi bir e-posta'nın spam olup-olmadığına karar verir. 

Görüldüğü üzere makine öğreniminde sınıflandırma yaklaşımı oldukça başarılı ve etkili çalışmaların meydana gelmesinde büyük bir rol oynamaktadır. Günümüzde sınıflandırma yukarıda verilen örnek dahil yüzlerce alanda, binlerce farklı çalışmalarda oldukça yaygın bir şekilde kullanılmaktadır. 

Örnek sınıflandırma projesi;

Sitemiz içerisinde bulunan Kalp Hastalığı Tahmini projesi, makine öğrenimi sınıflandırma yaklaşımı kullanılarak geliştirilmiştir. Bu projede anlaşılacağı üzere binlerce veri kaynakları kullanılarak model eğitilmiş ve bu bilgilere bağlı olarak yeni girilecek değerlere göre hastalığın var olup-olmadığı konusunda tahminsel analizleme gerçekleştirmektedir. 

Sınıflandırmada Kullanılan Terminolojiler Nedir?

Hemen hemen her alanda olduğu gibi sınıflandırma yaklaşımında da, bu yaklaşıma özgü bazı terimler yaygın olarak kullanılmaktadır. Önemli olarak ifade edilebilecek bazı terimler;

  • Sınıflandırıcı(Classifier): Sınıflandırıcı temel olarak bir algoritmadır ve bu algoritma sayesinde girdi olarak kullanılan veriler istenilen özelliklerdeki bir kategoriye eşlenir.
  • Sınıflandırma Modeli(Classification Model): Eğitim sürecinde kullanılan girdi verilerin tahminlenmesini, tahminlemeye bağlı meydana gelen sonuçlar referans alınarak sınıf ve/veya kategori tahminlemelerini gerçekleştirir.
  • İkili Sınıflandırma(Binary Classification): Bu sınıflandırma çeşidi "Var/Yok", "Doğru/Yanlış" gibi toplamda iki sonuçtan meydana gelen sınıflandırma çeşididir.
  • Çok Sınıflı Sınıflandırma(Multi-Class Classification): İkiden fazla sınıfın oluşturulduğu çeşittir. Bu sınıflandırma çeşitinde her veri belirli bir etikete atanmaktadır. Örneğin sonucun "Pozitif", "Negatif" veya "Nötr" olmasu gibi 3 farklı sonuç oluşur.
  • Başlat: Sürecin eyleme dönüşebilmesi için kullanılacak uygun sınıflandırıcının atanması.
  • Sınıflandırıcı Eğitimi: Bu süreç "fit komutu" kullanılarak aktifleştirilir.
  • Hedef Tahmini: Bu süreçte genel amaç; "predict komutu" ile önceden eğitilmiş modele girilen değerlerin neticesinde tahmin edilen değeri oluşturmasıdır.
  • Değerlendirme: Tüm sürecin başarılı bir şekilde gerçekleşmesi ardından sonuçlar belirli bir puanlama üzerinden değerlendirilir. Eğer istenilen puanlama elde edilmezse, veri setleri üzerinde tekrardan iyileştirilmeler yapılarak süreç tekrarlanır. 

Bu bilgilerden hareketle sınıflandırma sürecinin gerçekleştirilmesi için belirli algoritmaların kullanıldığı ve bu algoritmaların kısaca sınıflandırıcılar olarak ifade edildikleri anlaşılmaktadır.

Sınıflandırmada Öğrenici(Learner) Türleri

Makine öğrenimi sınıflandırma tekniğinde evrensel olarak 2 farklı öğrenici türü bulunmaktadır. Bunlar;

1. Tembel Öğreniciler (Lazy Learners): Tembel öğreniciler standart olarak eğitim verilerini depolar ve test amaçlı oluşturulan veri setlerini görene kadar beklemede kalırlar. Bu türde standart olarak sınıflandırma işlemi, depolanan eğitim verileri içerisindeki en fazla ilişkiye sahip veriler kullanılarak gerçekleştirilir. Bu durumun sonucunda ise eğitim süresinin oldukça kısa, ancak sınıflandırma için gerekli tahminleme süreci daha fazla zaman almaktadır. Bu öğrenicilere örnek olarak;

  • K-NN algorithm (Yakın Komşu algoritması)
  • Case-based reasoning (Durum tabanlı muhakeme)

2. İstekli Öğreniciler(Eager Learners): İstekli öğreniciler, tembel öğrenicilerim aksine herhangi bir test verisine ihtiyaç duymadan eğitim veri setlerini baz alarak sınıflandırma modelini geliştirir. Bu durumdan dolayı verilerin eğitimi daha uzun zamanda ve tahminleme süreci daha kısa zamanda gerçekleşmektedir. Bu öğrenicilere örnek olarak;

  • Decision Trees (Karar Ağacı)
  • Naïve Bayes
  • Artificial Neural Networks (Yapay Sinir Ağları(ANN))

Sınıflandırma Algoritmaları

Yukarıda bahsedildiği üzere makine öğreniminde sınıflandırma, elde bulunan verilerin uygun bir şekilde belirli sınıflara ayrılmasını sağlayan denetimli öğrenme olarak ifade edilmektedir. Günümüzde yapay zeka temelli bir çok üründe bu yöntem oldukça sıklıkla kullanılmaktadır. Bu yöntem günümüzde yaygın olarak yüz tanıma, ses tanıma, resim tanıma, yazı tanıma vb. uygulamalarda oldukça başarılı bir şekilde kullanılmaktadır. 

Bilindiği üzere sınıflandırma süreci toplamda iki farklı(ikili ve çoklu) şekilde gerçekleştirilmektedir. Bu iki farklı sınıflandırma sürecinin başarılı bir şekilde yönetilebilinmesi için birçok farklı algoritmalar geliştirilmiştir. Günümüzde yaygın olarak kullanılan bu algoritmalar;

Doğrusal Algoritmalar (Linear Models)

  • Logistic Regression
  • Support Vector Machines

Doğrusal olmayan Algoritmalar (Non-linear Models)

  • K-Nearest Neighbours
  • Naïve Bayes
  • Decision Tree Classification
  • Kernel SVM
  • Random Forest Classification

Sınıflandırma Modelinin Değerlendirilmesi

Başarılı bir sınıflandırma modelinin tamamlanması ardından, oluşturulan modelin performansının değerlendirilmesi gerekmektedir. Bu değerlendirme sonucuna göre oluşturulan modelin kullanım için uygun olup-olmadığı yüzdelik ifadeler kapsamında değerlendirilir ve uygun bir başarı oranı yakalandıktan sonra geliştirilen modelin çalışmalarda kullanılmaya hazı hale geldiği anlaşılabilinmektedir. Makine öğrenimi sınıflandırma sürecinde modelllerin değerlendirilmesi için farklı yaklaşımlar kullanılmaktadır. Bunlar;

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.