Doğal Dil İşleme (NLP) - Tokenize (Tokenize etmek)
Cümle Tokenize (sent_tokenize)
Cümle Tokenize (sent_tokenize), isminden de anlaşılacağı gibi verilen metni cümle cümle ayırmak için kullanılan bir kütüphanedir. Her cümle sonuna konulan nokta ile ayrım yapmaktadır.
Kullanılabilmesi için "nltk.tokenize" paketi altından "sent_tokenize" modülünün içe aktarılması gerekmektedir.
from nltk.tokenize import sent_tokenize
Temel olarak sent_tokenize işlemi daha önceden de görmüş olduğumuz .split() yapısına benzer şekilde çalışmaktadır. split() yapısında istenilen cümle istenilen yerden parçalarına ayrılabiliyordu(burada nokta işareti gösterilerek ayrım yapılabilir). split() ve sent_tokenize() yapısı arasındaki farkı örnek üzerinden inceleyelim.
#İki cümleyi text değişkenine atayalım
text="NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar."
print(text)
Çıktı:
NLP yapay zekanın en önemli konularından biridir. Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.
1. split() kodu ile cümleyi parçalama işlemi
text.split(".")
Çıktı:
['NLP yapay zekanın en önemli konularından biridir', ' Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar', '']
2. sent_tokenize() ile cümleyi parçalama işlemi
from nltk.tokenize import sent_tokenize
sent_tokenize(text,language="turkish")
Çıktı:
['NLP yapay zekanın en önemli konularından biridir.', 'Metinsel verileri alarak onları analiz eder ve her alanda kullanıma imkan sağlar.']
sent_tokenize() ile split() işlemleri sonrasında elde edilen sonuçta dikkat edilirse yaklaşık olarak birbirleri ile aynı ama split() işleminden sonra boş bir liste elemanı fazladan oluşmuş oldu.