Yapay Zeka Dersleri ve Projeleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Diğer Tokenize Modülleri

Yazar: Enes ASAN

Yayın tarihi :03-Şub-22

Bölüm kodlarını ve/veya veri setlerini indir.

Önceki derslerimizde de belirttiğimiz gibi nltk.tokenize altında birçok tokenize modülü bulunmaktadır. Bunlardan hangisinin kullanılacağına karar vermek için metnin yapısına bakmak ve uygun olan tokenize işlemini seçmek gerekecektir.

Bazı modüllerde büyük harfle başladığı zaman kelime ayırma işlemi yapıyorken, bazılarında noktalama işaretlerine göre veya kelimeler arasında olan boşluklara göre ayrım yapmaktadır.

Bu dersimizde en çok kullanılan bazı modülleri örnekler üzerinden inceleyelim;

Tüm örneklerde kullanacağımız metin "Televisions say that it won't snow in Ankara today. It is indeed sunny today." olsun ve bu metin üzerinden incelemelerde bulunalım.

text="Televisions say that it won't snow in Ankara today. It is indeed sunny today."

1.PunktSentenceTokenizer

Kullanımı için;

from nltk.tokenize import PunktSentenceTokenizer

P=PunktSentenceTokenizer()
P.tokenize(text)

Çıktı:

["Televisions say that it won't snow in Ankara today.",
 'It is indeed sunny today.']

2.WordPunctTokenizer

Kullanımı için;

from nltk.tokenize import WordPunctTokenizer

WP=WordPunctTokenizer()
WP.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'won',
 "'",
 't',
 'snow',
 'in',
 'Ankara',
 'today',
 '.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']

3.RegexpTokenizer

Kullanımı için;

from nltk.tokenize import RegexpTokenizer

RT=RegexpTokenizer(pattern="\w+")
RT.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'won',
 't',
 'snow',
 'in',
 'Ankara',
 'today',
 'It',
 'is',
 'indeed',
 'sunny',
 'today']

4.TreebankWordTokenizer

Kullanımı için;

from nltk.tokenize import TreebankWordTokenizer

TWT=TreebankWordTokenizer()
TWT.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 'wo',
 "n't",
 'snow',
 'in',
 'Ankara',
 'today.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']

5.MWETokenizer

Kullanımı için;

from nltk.tokenize import MWETokenizer,word_tokenize,sent_tokenize

MWET=MWETokenizer()
#kelime ayrımı
#MWET.tokenize(word_tokenize(text))
#cümle ayrımı
MWET.tokenize(sent_tokenize(text))

Çıktı:

["Televisions say that it won't snow in Ankara today.",
 'It is indeed sunny today.']

6.TweetTokenizer

Kullanımı için;

from nltk.tokenize import TweetTokenizer

T=TweetTokenizer()
T.tokenize(text)

Çıktı:

['Televisions',
 'say',
 'that',
 'it',
 "won't",
 'snow',
 'in',
 'Ankara',
 'today',
 '.',
 'It',
 'is',
 'indeed',
 'sunny',
 'today',
 '.']

Cümle Tokenize (sent_tokenize)

Paylaş:

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.

Doğal Dil İşleme (NLP)

I. Temel İşlemler - I

II. Tokenize (Tokenize etmek)

III. Stemmer (Köklendirme)

IV. Lemmatizer

V. Temel İşlemler - II

VI. Metinleri Vektörleştirme

VII. Model Eğitim İşlemleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Diğer Tokenize Modülleri

Yorumlar