Tokenize (Tokenize etmek), orijinal ham metni küçük parçalara ayırma işlemidir. Genellikle duygu analizi, dil çervirisi, sohbet robotları gibi yapılarda kullanılmakla birlikte ileride de göreceğimiz stemming and lemmatization konularının da temelini oluşturmaktadır. NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.
Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "tokenize" modülünün içe aktarılması gerekmektedir.
from nltk import tokenize
Ayrıca ilgii alt paketleri için de "punkt" paketinin indirilmesi gerekmektedir.
nltk.download("punkt")
Tokenize modülü altında kullanabileceğimiz bazı moduller de bulunmaktadır. Bunlardan birkaç tanesin örnek verirsek;
- word_tokenize
- sent_tokenize
- BlanklineTokenizer
- LegalitySyllableTokenizer
- LineTokenizer
- MWETokenizer
- NLTKWordTokenizer
- PunktSentenceTokenizer
- RegexpTokenizer
- ReppTokenizer
- SExprTokenizer
- SpaceTokenizer
- StanfordSegmenter
- SyllableTokenizer
- TabTokenizer
- TextTilingTokenizer
- ToktokTokenizer
- TreebankWordTokenizer
- TweetTokenizer
- WhitespaceTokenizer
- WordPunctTokenizer
Bu liste haricinde daha da fazla çeşitle Tokenizer yöntemleri bulunmaktadır. Bu bölümde temel olarak kullanabileceğimiz birkaç tanesini detaylandıracağız.