Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Diğer Tokenize Modülleri

Yayın tarihi :03-Şub-22
Bölüm kodlarını ve/veya veri setlerini indir.

Önceki derslerimizde de belirttiğimiz gibi nltk.tokenize altında birçok tokenize modülü bulunmaktadır. Bunlardan hangisinin kullanılacağına karar vermek için metnin yapısına bakmak ve uygun olan tokenize işlemini seçmek gerekecektir.

Bazı modüllerde büyük harfle başladığı zaman kelime ayırma işlemi yapıyorken, bazılarında noktalama işaretlerine göre veya kelimeler arasında olan boşluklara göre ayrım yapmaktadır. 

Bu dersimizde en çok kullanılan bazı modülleri örnekler üzerinden inceleyelim;

Tüm örneklerde kullanacağımız metin "Televisions say that it won't snow in Ankara today. It is indeed sunny today." olsun ve bu metin üzerinden incelemelerde bulunalım.

text="Televisions say that it won't snow in Ankara today. It is indeed sunny today."

1.PunktSentenceTokenizer

Kullanımı için;

from nltk.tokenize import PunktSentenceTokenizer
P=PunktSentenceTokenizer()
P.tokenize(text)

Çıktı:

["Televisions say that it won't snow in Ankara today.",
 'It is indeed sunny today.']

2.WordPunctTokenizer

Kullanımı için;

from nltk.tokenize import WordPunctTokenizer
WP=WordPunctTokenizer()
WP.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'won',
 "'",
 't',
 'snow',
 'in',
 'Ankara',
 'today',
 '.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']

3.RegexpTokenizer

Kullanımı için;

from nltk.tokenize import RegexpTokenizer
RT=RegexpTokenizer(pattern="\w+")
RT.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'won',
 't',
 'snow',
 'in',
 'Ankara',
 'today',
 'It',
 'is',
 'indeed',
 'sunny',
 'today']

4.TreebankWordTokenizer

Kullanımı için;

from nltk.tokenize import TreebankWordTokenizer
TWT=TreebankWordTokenizer()
TWT.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'wo',
 "n't",
 'snow',
 'in',
 'Ankara',
 'today.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']

5.MWETokenizer

Kullanımı için;

from nltk.tokenize import MWETokenizer,word_tokenize,sent_tokenize
MWET=MWETokenizer()
#kelime ayrımı
#MWET.tokenize(word_tokenize(text))
#cümle ayrımı
MWET.tokenize(sent_tokenize(text))

Çıktı:

["Televisions say that it won't snow in Ankara today.",
 'It is indeed sunny today.']

6.TweetTokenizer

Kullanımı için;

from nltk.tokenize import TweetTokenizer
T=TweetTokenizer()
T.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 "won't",
 'snow',
 'in',
 'Ankara',
 'today',
 '.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']
Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.