Doğal Dil İşleme (NLP)

Lemmatizer

Yayın tarihi :06-Şub-22

Lemmatizer, orijinal ham metni küçük parçalara ayırma işleminden sonra kelimelerin köklerini bulma işlemidir. Kelimenin köklerini Lemma adı verilen anlamlı köklerine dönüştürür.

LemmatizerStemmer(köklendirme) işlemi ile karıştırılabilinmektedir, farklı olarak stemmer sonucunda anlamsız kelimeler çıkabilirken lemmatizer sonucunda anlamlı kelimeler elde edilir. Eğer ilgili veri seti çok büyük ve performans açısından sıkıntı yaşanıyorsa stemmer seçilebilecekken, kelimelerin doğru olması çok önemli ve performans ile ilgili sorun bulunmuyorsa lemmatizer seçilebilir. Ayrıca lemmatizer işlemi yaparken kelimenin isim, sıfat, fiil vb. gibi durumları da belirtilerek daha doğru sonuçlar da elde edilebilecektir.

Örnek olarak; eğer önemseme anlamına gelen "caring" kelimesine stemmer işlemi yapılırsa araba anlamına gelen "car" kelimesi dönerken, lemmatizer işlemi sonrasında kelimenin anlamıyla da alakalı olarak "caring" kelimesi geri dönecektir.

NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.

Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "stem" modülünün içe aktarılması gerekmektedir.

from nltk import stem

Ayrıca ilgii alt paketleri için de "wordnet" in indirilmesi gerekmektedir. Wordnet, kelimeler arasında yapılandırılmış anlamsal ilişkiler kurmayı amaçlayan İngilizce dili için ücretsiz ve herkese açık bir sözlüksel veritabanıdır. 

nltk.download("wordnet")

Stem modülü altında lemmatizer modülü olarak WordNetLemmatizer  kullanılabilmektedir.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.