Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Kelime Tokenize (word_tokenize)

Yayın tarihi :03-Şub-22

Kelime Tokenize (word_tokenize), isminden de anlaşılacağı gibi cümleyi kelime kelime ayırmak için kullanılan bir kütüphanedir. 

Kullanılabilmesi için "nltk.tokenize" paketi altından  "word_tokenize" modülünün içe aktarılması gerekmektedir.

from nltk.tokenize import word_tokenize

Temel olarak word_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu. split() ve word_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.

#Bir cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)

Çıktı:

NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.

1. split() kodu ile cümleyi parçalama işlemi

text.split()

Çıktı:

['NLP',
 'yapay',
 'zekanın',
 'en',
 'önemli',
 'konularından',
 'biridir.',
 'Metinsel',
 'verileri',
 'alarak',
 'onları',
 'analiz',
 'eder',
 've',
 'her',
 'alanda',
 'kullanıma',
 'imkan',
 'sağlar.']

2. word_tokenize() ile cümleyi parçalama işlemi

from nltk.tokenize import word_tokenize
word_tokenize(text,language="turkish")

Çıktı:

['NLP',
 'yapay',
 'zekanın',
 'en',
 'önemli',
 'konularından',
 'biridir',
 '.',
 'Metinsel',
 'verileri',
 'alarak',
 'onları',
 'analiz',
 'eder',
 've',
 'her',
 'alanda',
 'kullanıma',
 'imkan',
 'sağlar',
 '.']

word_tokenize ile split işlemleri sonrasında elde edilen sonuçta dikkat edilirse word_tokenize işleminde noktalama işaretlerini de bir liste ögesi olarak almış oldu.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.