Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)
Kelime Tokenize (word_tokenize)
Kelime Tokenize (word_tokenize), isminden de anlaşılacağı gibi cümleyi kelime kelime ayırmak için kullanılan bir kütüphanedir.
Kullanılabilmesi için "nltk.tokenize" paketi altından "word_tokenize" modülünün içe aktarılması gerekmektedir.
from nltk.tokenize import word_tokenize
Temel olarak word_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu. split() ve word_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.
#Bir cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)
Çıktı:
NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.
1. split() kodu ile cümleyi parçalama işlemi
text.split()
Çıktı:
['NLP', 'yapay', 'zekanın', 'en', 'önemli', 'konularından', 'biridir.', 'Metinsel', 'verileri', 'alarak', 'onları', 'analiz', 'eder', 've', 'her', 'alanda', 'kullanıma', 'imkan', 'sağlar.']
2. word_tokenize() ile cümleyi parçalama işlemi
from nltk.tokenize import word_tokenize
word_tokenize(text,language="turkish")
Çıktı:
['NLP', 'yapay', 'zekanın', 'en', 'önemli', 'konularından', 'biridir', '.', 'Metinsel', 'verileri', 'alarak', 'onları', 'analiz', 'eder', 've', 'her', 'alanda', 'kullanıma', 'imkan', 'sağlar', '.']
word_tokenize ile split işlemleri sonrasında elde edilen sonuçta dikkat edilirse word_tokenize işleminde noktalama işaretlerini de bir liste ögesi olarak almış oldu.