Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)

Cümle Tokenize (sent_tokenize)

Yayın tarihi :03-Şub-22

Cümle Tokenize (sent_tokenize), isminden de anlaşılacağı gibi verilen metni cümle cümle ayırmak için kullanılan bir kütüphanedir. Her cümle sonuna konulan nokta ile ayrım yapmaktadır.

Kullanılabilmesi için "nltk.tokenize" paketi altından  "sent_tokenize" modülünün içe aktarılması gerekmektedir.

from nltk.tokenize import sent_tokenize

Temel olarak sent_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu(burada nokta işareti gösterilerek ayrım yapılabilir). split() ve sent_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.

#İki cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)

Çıktı:

NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.

1. split() kodu ile cümleyi parçalama işlemi

text.split(".")

Çıktı:

['NLP yapay zekanın en önemli konularından biridir',
 ' Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar',
 '']

2. sent_tokenize() ile cümleyi parçalama işlemi

from nltk.tokenize import sent_tokenize
sent_tokenize(text,language="turkish")

Çıktı:

['NLP yapay zekanın en önemli konularından biridir.',
 'Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.']

sent_tokenize() ile split() işlemleri sonrasında elde edilen sonuçta dikkat edilirse yaklaşık olarak birbirleri ile aynı ama split() işleminden sonra boş bir liste elemanı fazladan oluşmuş oldu.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.