Yapay Zeka Dersleri ve Projeleri

Doğal Dil İşleme (NLP)

Tokenize (Tokenize etmek)

Yazar: Enes ASAN

Yayın tarihi :03-Şub-22

Tokenize (Tokenize etmek), orijinal ham metni küçük parçalara ayırma işlemidir. Genellikle duygu analizi, dil çervirisi, sohbet robotları gibi yapılarda kullanılmakla birlikte ileride de göreceğimiz stemming and lemmatization konularının da temelini oluşturmaktadır. NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.

Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "tokenize" modülünün içe aktarılması gerekmektedir.

from nltk import tokenize

Ayrıca ilgii alt paketleri için de "punkt" paketinin indirilmesi gerekmektedir.

nltk.download("punkt")

Tokenize modülü altında kullanabileceğimiz bazı moduller de bulunmaktadır. Bunlardan birkaç tanesin örnek verirsek;

word_tokenize
sent_tokenize
BlanklineTokenizer
LegalitySyllableTokenizer
LineTokenizer
MWETokenizer
NLTKWordTokenizer
PunktSentenceTokenizer
RegexpTokenizer
ReppTokenizer
SExprTokenizer
SpaceTokenizer
StanfordSegmenter
SyllableTokenizer
TabTokenizer
TextTilingTokenizer
ToktokTokenizer
TreebankWordTokenizer
TweetTokenizer
WhitespaceTokenizer
WordPunctTokenizer

Bu liste haricinde daha da fazla çeşitle Tokenizer yöntemleri bulunmaktadır. Bu bölümde temel olarak kullanabileceğimiz birkaç tanesini detaylandıracağız.

Paylaş:

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.

Doğal Dil İşleme (NLP)

I. Temel İşlemler - I

II. Tokenize (Tokenize etmek)

III. Stemmer (Köklendirme)

IV. Lemmatizer

V. Temel İşlemler - II

VI. Metinleri Vektörleştirme

VII. Model Eğitim İşlemleri

Doğal Dil İşleme (NLP)

Tokenize (Tokenize etmek)

Yorumlar