Yapay Zeka Dersleri ve Projeleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Kelime Tokenize (word_tokenize)

Yazar: Enes ASAN

Yayın tarihi :03-Şub-22

Kelime Tokenize (word_tokenize), isminden de anlaşılacağı gibi cümleyi kelime kelime ayırmak için kullanılan bir kütüphanedir.

Kullanılabilmesi için "nltk.tokenize" paketi altından "word_tokenize" modülünün içe aktarılması gerekmektedir.

from nltk.tokenize import word_tokenize

Temel olarak word_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu. split() ve word_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.

#Bir cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)

Çıktı:

NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.

1. split() kodu ile cümleyi parçalama işlemi

text.split()

Çıktı:

['NLP',
 'yapay',
 'zekanın',
 'en',
 'önemli',
 'konularından',
 'biridir.',
 'Metinsel',
 'verileri',
 'alarak',
 'onları',
 'analiz',
 'eder',
 've',
 'her',
 'alanda',
 'kullanıma',
 'imkan',
 'sağlar.']

2. word_tokenize() ile cümleyi parçalama işlemi

from nltk.tokenize import word_tokenize

word_tokenize(text,language="turkish")

Çıktı:

['NLP',
 'yapay',
 'zekanın',
 'en',
 'önemli',
 'konularından',
 'biridir',
 '.',
 'Metinsel',
 'verileri',
 'alarak',
 'onları',
 'analiz',
 'eder',
 've',
 'her',
 'alanda',
 'kullanıma',
 'imkan',
 'sağlar',
 '.']

word_tokenize ile split işlemleri sonrasında elde edilen sonuçta dikkat edilirse word_tokenize işleminde noktalama işaretlerini de bir liste ögesi olarak almış oldu.

Cümle Tokenize (sent_tokenize)

Paylaş:

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.

Doğal Dil İşleme (NLP)

I. Temel İşlemler - I

II. Tokenize (Tokenize etmek)

III. Stemmer (Köklendirme)

IV. Lemmatizer

V. Temel İşlemler - II

VI. Metinleri Vektörleştirme

VII. Model Eğitim İşlemleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Kelime Tokenize (word_tokenize)

Yorumlar