Doğal Dil İşleme (NLP)

Stemmer (Köklendirme)

Yayın tarihi :03-Şub-22

Stemmer (Köklendirme), orijinal ham metni küçük parçalara ayırma işleminden sonra kelimelerin köklerini bulma işlemidir. Kelimelerdeki son birkaç harfi kaldırarak kelimenin kökünü bulmaya çalışır. Bazı durumlarda stemmer işleminden sonra anlamsız kökler oluşabilir.

NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.

Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "stem" modülünün içe aktarılması gerekmektedir.

from nltk import stem

Ayrıca ilgii alt paketleri için de "punkt" paketinin indirilmesi gerekmektedir.

nltk.download("punkt")

Stem modülü altında kullanabileceğimiz bazı moduller de bulunmaktadır. Bunlardan birkaç tanesin örnek verirsek;

  • ARLSTem
  • ARLSTem2
  • Cistem
  • ISRIStemmer
  • LancasterStemmer
  • PorterStemmer
  • RSLPStemmer
  • RegexpStemmer
  • SnowballStemmer

Bu liste haricinde daha da fazla çeşitle Stemmer yöntemleri bulunmaktadır. Bu bölümde temel olarak kullanabileceğimiz birkaç tanesini detaylandıracağız.

Yukarıda listelenen Stemmer modülleri Türkçe kelimeleri köklerine ayıramamaktadır(Türkçe desteği bulunmamaktadır). Bunun için ayrca "nltk" modülüne bağlı olmadan TurkishStemmer modülünü indirerek kullanabiliriz.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.