Stemmer (Köklendirme), orijinal ham metni küçük parçalara ayırma işleminden sonra kelimelerin köklerini bulma işlemidir. Kelimelerdeki son birkaç harfi kaldırarak kelimenin kökünü bulmaya çalışır. Bazı durumlarda stemmer işleminden sonra anlamsız kökler oluşabilir.
NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.
Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "stem" modülünün içe aktarılması gerekmektedir.
from nltk import stem
Ayrıca ilgii alt paketleri için de "punkt" paketinin indirilmesi gerekmektedir.
nltk.download("punkt")
Stem modülü altında kullanabileceğimiz bazı moduller de bulunmaktadır. Bunlardan birkaç tanesin örnek verirsek;
- ARLSTem
- ARLSTem2
- Cistem
- ISRIStemmer
- LancasterStemmer
- PorterStemmer
- RSLPStemmer
- RegexpStemmer
- SnowballStemmer
Bu liste haricinde daha da fazla çeşitle Stemmer yöntemleri bulunmaktadır. Bu bölümde temel olarak kullanabileceğimiz birkaç tanesini detaylandıracağız.
Yukarıda listelenen Stemmer modülleri Türkçe kelimeleri köklerine ayıramamaktadır(Türkçe desteği bulunmamaktadır). Bunun için ayrca "nltk" modülüne bağlı olmadan TurkishStemmer modülünü indirerek kullanabiliriz.