Makine Öğrenmesi

Kümeleme (Clustering)

Yayın tarihi :04-Oca-22

1. Makine Öğreniminde Kümeleme Nedir?

Makine öğreniminde kümeleme, en basit tanımıyla etiketlenmemiş formda bulunan verileri gruplama tekniğidir ve bu teknik bir çeşit denetimsiz öğrenme yöntemi olarak ifade edilebilir. 

Kümeleme tekniğinde veri kümelerini oluşturan verilerin birbirleriyle olan benzerliği analiz edilir ve benzerlik gösteren veriler ortak bir kümede toplanır. Ayrıca olması umulan benzerlikler gösteren nesnesel yapılar, daha veya hiç benzerlik göstermeyen gruplara alınır. Böylelikle, veri kümeleri içerisinde bulunan veriler benzerlik derecelerine göre gruplandırılır ve bunun sonucunda karmaşıklıktan kurtulunarak makine öğrenim çalışmaları daha spesifik yapılabilir.

Makine öğreniminde kullanılan bu teknik, etiketlenmemiş formda bulunan veri kümelerini analiz eder ve verileri boyutları, şekilleri veya davranışları vb. gibi özelliklere göre belirli kalıplara koyar. Daha sonra oluşturulan bu kalıplar referans alınarak uygun verilerle farklı gruplandırmalar ve/veya kümelemeler gerçekleştirir. Belirli özellikler referans alınarak yapılan bu gruplandırma sürecinin ardından, yeni oluşturulan her bir grup küme kimliği kullanılarak ifade edilir. Bu ifadenin en büyük avantajı ise, makine öğreniminde çalışma yapılacağı zaman devasa karmaşık verilerin basit bir şekilde anlaşılabilmesini sağlamaktadır. Bu durumu daha iyi anlamak için bazı örnekler vermek gerekirse;

  • Türkiye bilindiği üzere 81 farklı ilden oluşmaktadır. Türkiye genelinde herhangi bir ticari, siyasi ve sosyal vb. çalışmaları yapabilmek için oldukça karmaşık bir sistemle uğraşılması gerekmektedir. Bu karmaşıklıktan kurtulmak için Türkiye'yi 81 farklı gruba ayırabilir, karmaşıklığı minimuma indirebilir ve analiz çalışmalarının daha başarılı bir hale dönüştürebiliriz. 
  • Yada, herhangi bir giyim firmasına gittiğiniz zaman, birbirleriyle benzerlik gösteren ürünlerin bir arada olduğunu görmüşsünüzdür(örn; jeanler bir bölümde t shirtler bir bölümde). Bu durum basit bir kümele yöntemi olarak ifade edilebilir ve kümeleme sayesinde istenilen nesnelere ulaşım imkanı kolaylaşmaktadır.

Bahsedilen bu örnekler gibi binlerce farklı kümeleme örnekleri verilebilir. Bu örnekler ile makine öğreniminde kullanılan kümeleme tekniği aynı amaca hizmet etmektedir. Temel amaç birbiri ile benzerlik gösteren verileri(giyim firmasında elbiseleri) bir araya toplamaktır.

Günümüzde kümeleme tekniği farklı sektörlerde farklı hizmetler için oldukça başarılı bir şekilde kullanılmaktadır. Örnek olarak;

  • Kendilerine özgü ürünleri üreten firma veya markaların hedef kitlelerini belirlemede,
  • İstatiksel alanda verisel analizlemelerde,
  • Sosyal ağların hedef kitle analizlerinde,
  • Büyük şirketlerin kullanıcıya öneri oluşturmasında (Örneğin; dijital film ve dizi platformları izleme geçmişine göre bazı film veya dizi önerilerinde bulunur. Yani, eğer sevdiğiniz alan bilim-kurgu ise platform arayüzünde sürekli bilim-kurgu filmleri afişe edilir.),

vb. birçok alanda oldukça yaygın ve başarılı bir şekilde kullanılmaktadır. 

2. Kümeleme Neden Önemlidir?

Yukarıda bahsedildiği üzere kümeleme; karmaşık bir formda bulunan etiketlenmemiş verilerin anlaşılabilirliğini kolaylaştırmak için, benzer özellikleri gösteren verileri tespit ederek ortak bir grupta toplama yöntemi olarak ifade edilmektedir. Bu tanım baz alınarak;

  • Kümeleme tekniği sayesinde çalışma yapılacak verilere kolay erişim,
  • Veri kümeleri içerisinde istenilmeyen aykırı değerlerin(outlier) kolaylıkla tespit edilebilmesi,
  • Verileri homojen bir forma dönüştürmek için veri azaltmaları,
  • Veri kümlerinde karmaşık bir formda bulunan verilerin bilinmeyen özelliklerinin saptanması,

gibi durumlar için kümeleme tekniğinin kullanımı oldukça önem arz etmektedir. Çünkü, bu teknik sayesinde hem zamandan tasurruf sağlanır hem de çalışmaların başarı oranlarında ciddi artışlar yakalanmaktadır.

3. Kümeleme Yönteminin Türleri Nelerdir?

Kümeleme yöntemi temel olarak 2 ana başlık altında incelenebilir. Bunlar;

1. Sert Kümeleme: Bu kümeleme türünde standart olarak, kullanılacak veri kümesinin içerisinde bulunan etiketlenmemiş verilerin her biri sadece bir kümeye atılarak gruplandırma yapılmaktadır. Bu duruma örnek olarak; twitter'daki tüm verileri(buradaki veriler atılan tweetler) okuyabilecek bir algoritma geliştirdiğinizi ve bu algoritmaların tüm tweetleri olumlu veya olumsuz olarak belirleyebildiğini düşünün. Anlaşılacağı üzere her bir veri ya pozitif yorum kümesine ya da negatif yorum kümesine aktarılacaktır. Bu yöntemde en yaygın kullanılan kümeleme algoritması;

  • K-Means

2. Yumuşak Kümeleme: Bu kümeleme türünde, veri kümesi içerisinde bulunan herhangi bir veri, birden çok kümeye atılarak gruplandırma yapılmaktadır. Bu yöntemde en yaygın kullanılan kümeleme algoritması;

  • Fuzzy C-means

Bahsedilen bu yöntemler temel makine öğrenimi kümeleme yöntemleri olarak ifade edilebilir. Ancak, bu yöntemlerin dahilinde kümeleme yönteminin farklı yaklaşımları da mevcuttur. Makine öğrenimi kümeleme yönteminde kullanılan ana yaklaşımlar;

  1. Yoğunluğa Dayalı Kümeleme (Density-Based Clustering)
  2. Bölümlere Ayırarak Kümeleme (Partitioning Clustering),
  3. Dağılım Model Tabanlı Kümeleme (Distribution Model-Based Clustering)
  4. Hiyerarşik Kümeleme (Hierarchical Clustering
  5. Bulanık/Belirsiz Kümeleme (Fuzzy Clustering)
  6. Kılavuz Tabanlı Kümeleme (Grid-based Clustering)

3.1 Yoğunluğa Dayalı Kümeleme (Density-Based Clustering)

Bu kümeleme yönteminde oldukça yüksek yoğunluk gösteren alanlar kümelere bağlanır ve bu bağlantı sonucunda isteklere özgü biçimlendirilmiş dağılımlar meydana getirilir. Bu kümeleme yönteminde kullanılan algoritmalar, veri kümeleri içerisinde bulunan birbirinden farklı kümelerin tanımlanmasını gerçekleştirir ve tanımlamaya bağlı olarak yüksek yoğunluklu alanların kümelere bağlanmasını sağlamaktadır. Ayrıca bu yöntem, oldukça yüksek doğruluk oranlarının meydana gelmesini ve herhangi iki kümenin güçlü bir birleşim oluşturmasını sağlamaktadır. Ancak, kullanılan veri kümesi oldukça değişkenlik gösteren yüksek yoğunluklu ve yüksek boyutlu bir yapıdaysa, bu kümelemede kullanılan algoritmalar verilerin gruplandırılmasında ciddi bir zorluk yaşayabilir. Bu kümeleme türünde en yaygın kullanılan algoritma DBSCAN algoritmasıdır. 

3.2 Bölümlere Ayırarak Kümeleme (Partitioning Clustering)

Bu kümeleme yöntemi; oluşum açısından(hiyerarşi) herhangi bir sıralamaya uymadan, verilerin belirli özellikleri referans alınarak yapılan bir kümeleme türüdür. Bu kümeleme türünde en yaygın kullanılan algoritmalar K-Means'dir ve bu algoritmalar verileri "k" kümeye bölmektedir. Oluşan her bir yeni bölüm ise bir küme oluşturmaktadır. Burada ifade edilen "k" harfi, daha önceden belirtilmiş grupların sayısını ifade etmektedir. 

3.3 Dağılım Model Tabanlı Kümeleme

Bu kümeleme yöntemi; veri kümelerinin genel hatlarıyla nasıl bir dağılım göstereceği olasılığı hesabına göre verilerin gruplandırılma yapıldığı bir kümeleme türüdür. Yani, veri kümesi üzerinde olasılık analizlemeleri yapılır ve hangi verinin nasıl bir gruba dahil edilebileceği hesaplanır. Bu kümeleme türünde en yaygın kullanılan algoritma Beklenti maksimizasyon (Expectation–maximization) algoritmasıdır.

3.4 Hiyerarşik Kümeleme (Hierarchical Clustering

Bu yöntemde, veri kümelerinden kaç farklı yeni kümesinin oluşturulacağı belirtilmeden, hiyerarşik bir sıra dahilinde ağaç formunda kümeler oluşturulur. Oluşturulan bu ağaç formu ise dendrogram olarak tanımlanır. Ayrıca, dendrogram üzerinde herhangi bir yerden kesme işlemi yapılarak küme seçimleri veya analizlemeleri yapılabilinmektedir. Bu yöntemde genel olarak daha önceden meydana getirilen kümeler kullanılarak yeni kümeler meydana getirilebilir. Hiyerarşik kümeleme yaklaşımları genel olarak 2 ye ayrılır. Bunlar;

  1. Agglomerative (aşağıdan yukarı)
  2. Divisive (yukarıda aşağı) 

3.5 Bulanık/Belirsiz Kümeleme (Fuzzy Clustering)

Bu kümeleme yukarıda bahsedildiği üzere yumuşak kümeleme türüdür. Bu türde veri kümesi içerisinde bulunan herhangi bir veri, birden çok kümeye atılarak gruplandırma yapılmaktadır. Bu yöntemde en yaygın kullanılan kümeleme algoritması Fuzzy C-means 'dir.

3.6 Kılavuz Tabanlı Kümeleme (Grid-based Clustering)

Bu kümeleme yönteminde veri alanları, kılavuz benzeri yapı oluşturan sınırlı sayıda hücreyle formülasyon geçirir. Bu durumdan dolayı kümeleme işlemleri oldukça hızlı ve veri sayısının oranı dikkate alınmadan yapılabilinmektedir. 

4. Kümeleme Algoritmaları

Günümüzde birden fazla kümeleme algoritması, farklı kümeleme türlerine göre özelleştirilmiş bir biçimde kullanılmaktadır. Yukarıda bahsedildiği üzere hemen hemen her kümeleme yönteminde kullanılan uygun bir algoritma bulunmaktadır. Yani, kullanılacak algoritmalar veri türlerine göre farklılık göstermektedir. Örneğin; bazı algoritmalar oluşturulan kümelerin sayısını analizlerken, bazılarıda geniş kapsamlı gözlemsel analizlemeler yapmaktadır. 

Günümüzde yaygın olarak birkaç popüler ve/veya önemli kümeleme algoritması yaygın olarak kullanılmaktadır. Bunlar;

  • K-Means algoritması: Bu algoritma; kümeleme algoritmaları arasında en yaygın, en basit ve en popüler denetimsiz öğrenme algoritması olarak ifade edilebilir. Bu algoritma kullanılarak veriler varyans değerleri üzerinden analizlenir ve varyans değerleri eşit olacak şekilde veriler farklı gruplarda kümelenir. Ayrıca, bu algoritmalar kullanılarak kümeleme işlemini gerçekleştirebilmek için önceden oluşacak küme sayısının belirtilmesi gerekmektedir. 
  • Mean-shift algoritması: Bu algoritma, veri kümelerini oluşturan veri noktalarının en yoğun bulunduğu alanları tespit etmek için kullanılmaktadır. Bu algoritma bölümlere ayırarak kümeleme yöntemin tabanlı model örneğidir. 
  • Expectation–maximization algoritması: Bu algoritma K-Means algoritmasına eşil olarak kullanılmaktadır. Bu kullanım genellikle K-Means algoritmasının başarısız olduğu çalışmalarda tercih edilmektedir.
  • Agglomerative Hierarchical algoritması: Bu algoritma standart olarak hiyerarşik kümeleme yönteminde kullanılır. Algoritmanın işlevi; kümelerin hiyerarşik olarak sınıflandırıldığı dendrogram'da, hiyerarşik sıralama gözetilerek aşağıdan yukarıya kümeleme sürecini gerçekleştirir. 
  • Divisive Hierarchical algoritması: Bu algoritma ise Agglomerative Hierarchical algoritması'nın tam tersi olarak yukarıdan aşağıya kümeleme sürecini gerçekleştirir.
  • DBSCAN algoritması: Bu algoritma genellikle yoğunluğa dayalı kümeleme yönteminde kullanılır ve algoritmanın kullanılma amacı, aşırı yoğun alanlar ile düşük yoğunlukta gözlemlenen alanları birbirlerinden ayırmaktır.

5. Makine Öğreniminde Kümelemenin Kullanım Alanları?

Yukarıda bahsedildiği üzere kümeleme yöntemi birçok farklı alanda oldukça yaygın ve başarılı bir şekilde kullanılmaktadır. Günümüzde, kümeleme yönteminin yaygın olarak kullanıldığı bazı önemli alanlar;

  • Biyoloji: Bu alanda kümeleme yöntemi kullanılarak görüntü tanıma tekniği geliştirilmiştir ve bu teknik sayesinde hayvanlar veya bitkilerden oluşan türler oldukça basit bir şekilde sınıflandırılır. Örneğin; makineye birbirinden farklı binlerce kedi ve köpek türlerinin resmi öğretilir. Kedi ve köpek resimlerini detaylı bir şekilde öğrenen makine, hiçbir insan müdehalesi olmadan hayvnaların görüntülerinden hangi hayvan olduğunu tespit eder ve uygun kümeleme işlemini gerçekleştirir.
  • Arama Motorları: Günümüzde kullanılan birçok arama motoru kümeleme yönteminden faydalanmaktadır. Herkesin dikkatini çekeceği üzere arama motorunda herhangi bir belge, müzik, video, film vb. aratılması sonucunda, aratılan girdiyle bağlantılı birçok farklı sonuç görüntülenmektedir. Bu durumun arka planında kümeleme yöntemi çalışmaktadır. Örneğin; arama motoruna "yapay zeka" yazdığınızda arayüzde görüntülenen her safya ortak olarak yapay zeka konusunu içermektedir. Ancak, bazı durumlarda arama motoru arayüzünde arattığınız girdi ile alakasız sonuçlar görüntülenebilir. Bu durumun temel nedeni ise kullanılan algoritmanın yeterince performanslı olmadığıdır.
  • Sağlık: Günümüzde kümeleme yöntemi sağlık alanında oldukça popülerleşmeye başlamıştır. Bunun temel nedeni ise, artık hastalıklara oldukça kısa bir zaman içerisinde teşhis konulma olanağıdır. Örneğin; teşhis konulan kanser hastalarının bulguları makineye öğretilir ve bu öğrenim sonucunda kanser olan ve kanser olmayan isimli iki farklı grup oluşturulabilir. Bu oluşum kullanılarak herhangi bir hasta üzerinde oldukça kısa zamanda ve oldukça başarılı tanılar konulabilir. Günümüzde bahsedilen bu örnek üzerinde gerçek zamanlı uygulamalar yapılmaktadır.
  • Pazar: Firma veya markalar hedef kitlelerini belirlemek için kümeleme yöntemini kullanmaktadır. Bu yöntem sayesinde müşterilerin geçmiş hareketleri incelenir ve bu inceleme sonucuna göre müşterilerin belirli özellikleri baz alınarak alınarak sınıflandırmalar yapılabilinmektedir. 

Verilen bu örnekler gibi alt alta yüzlerce-binlerce farklı örnekler verilebilir. Sonuç olarak makine öğreniminde kümeleme yönteminin, hemen hemen her alanda oldukça başarılı bir şekilde uygulandığı söylenebilir. 

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.