Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)
Diğer Tokenize Modülleri
Önceki derslerimizde de belirttiğimiz gibi nltk.tokenize altında birçok tokenize modülü bulunmaktadır. Bunlardan hangisinin kullanılacağına karar vermek için metnin yapısına bakmak ve uygun olan tokenize işlemini seçmek gerekecektir.
Bazı modüllerde büyük harfle başladığı zaman kelime ayırma işlemi yapıyorken, bazılarında noktalama işaretlerine göre veya kelimeler arasında olan boşluklara göre ayrım yapmaktadır.
Bu dersimizde en çok kullanılan bazı modülleri örnekler üzerinden inceleyelim;
Tüm örneklerde kullanacağımız metin "Televisions say that it won't snow in Ankara today. It is indeed sunny today." olsun ve bu metin üzerinden incelemelerde bulunalım.
text="Televisions say that it won't snow in Ankara today. It is indeed sunny today."
1.PunktSentenceTokenizer
Kullanımı için;
from nltk.tokenize import PunktSentenceTokenizer
P=PunktSentenceTokenizer()
P.tokenize(text)
Çıktı:
["Televisions say that it won't snow in Ankara today.", 'It is indeed sunny today.']
2.WordPunctTokenizer
Kullanımı için;
from nltk.tokenize import WordPunctTokenizer
WP=WordPunctTokenizer()
WP.tokenize(text)
Çıktı:
['Televisions', 'say', 'that', 'it', 'won', "'", 't', 'snow', 'in', 'Ankara', 'today', '.', 'It', 'is', 'indeed', 'sunny', 'today', '.']
3.RegexpTokenizer
Kullanımı için;
from nltk.tokenize import RegexpTokenizer
RT=RegexpTokenizer(pattern="\w+")
RT.tokenize(text)
Çıktı:
['Televisions', 'say', 'that', 'it', 'won', 't', 'snow', 'in', 'Ankara', 'today', 'It', 'is', 'indeed', 'sunny', 'today']
4.TreebankWordTokenizer
Kullanımı için;
from nltk.tokenize import TreebankWordTokenizer
TWT=TreebankWordTokenizer()
TWT.tokenize(text)
Çıktı:
['Televisions', 'say', 'that', 'it', 'wo', "n't", 'snow', 'in', 'Ankara', 'today.', 'It', 'is', 'indeed', 'sunny', 'today', '.']
5.MWETokenizer
Kullanımı için;
from nltk.tokenize import MWETokenizer,word_tokenize,sent_tokenize
MWET=MWETokenizer()
#kelime ayrımı
#MWET.tokenize(word_tokenize(text))
#cümle ayrımı
MWET.tokenize(sent_tokenize(text))
Çıktı:
["Televisions say that it won't snow in Ankara today.", 'It is indeed sunny today.']
6.TweetTokenizer
Kullanımı için;
from nltk.tokenize import TweetTokenizer
T=TweetTokenizer()
T.tokenize(text)
Çıktı:
['Televisions', 'say', 'that', 'it', "won't", 'snow', 'in', 'Ankara', 'today', '.', 'It', 'is', 'indeed', 'sunny', 'today', '.']