Yapay Zeka Dersleri ve Projeleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Cümle Tokenize (sent_tokenize)

Yazar: Enes ASAN

Yayın tarihi :03-Şub-22

Cümle Tokenize (sent_tokenize), isminden de anlaşılacağı gibi verilen metni cümle cümle ayırmak için kullanılan bir kütüphanedir. Her cümle sonuna konulan nokta ile ayrım yapmaktadır.

Kullanılabilmesi için "nltk.tokenize" paketi altından "sent_tokenize" modülünün içe aktarılması gerekmektedir.

from nltk.tokenize import sent_tokenize

Temel olarak sent_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu(burada nokta işareti gösterilerek ayrım yapılabilir). split() ve sent_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.

#İki cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)

Çıktı:

NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.

1. split() kodu ile cümleyi parçalama işlemi

text.split(".")

Çıktı:

['NLP yapay zekanın en önemli konularından biridir',
 ' Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar',
 '']

2. sent_tokenize() ile cümleyi parçalama işlemi

from nltk.tokenize import sent_tokenize

sent_tokenize(text,language="turkish")

Çıktı:

['NLP yapay zekanın en önemli konularından biridir.',
 'Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.']

sent_tokenize() ile split() işlemleri sonrasında elde edilen sonuçta dikkat edilirse yaklaşık olarak birbirleri ile aynı ama split() işleminden sonra boş bir liste elemanı fazladan oluşmuş oldu.

Kelime Tokenize (word_tokenize)

Diğer Tokenize Modülleri

Paylaş:

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.

Doğal Dil İşleme (NLP)

I. Temel İşlemler - I

II. Tokenize (Tokenize etmek)

III. Stemmer (Köklendirme)

IV. Lemmatizer

V. Temel İşlemler - II

VI. Metinleri Vektörleştirme

VII. Model Eğitim İşlemleri

Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Cümle Tokenize (sent_tokenize)

Yorumlar