Doğal Dil İşleme (NLP)

Tokenize (Tokenize etmek)

Yayın tarihi :03-Şub-22

Tokenize (Tokenize etmek), orijinal ham metni küçük parçalara ayırma işlemidir. Genellikle duygu analizi, dil çervirisi, sohbet robotları gibi yapılarda kullanılmakla birlikte ileride de göreceğimiz stemming and lemmatization konularının da temelini oluşturmaktadır. NLP konularında genellikle verilen metinleri anlamak çok önemli bir adımdır. Bu da önemli adımlardan biridir diyebiliriz.

Kullanılabilmesi için "nltk" kütüphanesi altında bulunan "tokenize" modülünün içe aktarılması gerekmektedir.

from nltk import tokenize

Ayrıca ilgii alt paketleri için de "punkt" paketinin indirilmesi gerekmektedir.

nltk.download("punkt")

Tokenize modülü altında kullanabileceğimiz bazı moduller de bulunmaktadır. Bunlardan birkaç tanesin örnek verirsek;

  • word_tokenize
  • sent_tokenize
  • BlanklineTokenizer
  • LegalitySyllableTokenizer
  • LineTokenizer
  • MWETokenizer
  • NLTKWordTokenizer
  • PunktSentenceTokenizer
  • RegexpTokenizer
  • ReppTokenizer
  • SExprTokenizer
  • SpaceTokenizer
  • StanfordSegmenter
  • SyllableTokenizer
  • TabTokenizer
  • TextTilingTokenizer
  • ToktokTokenizer
  • TreebankWordTokenizer
  • TweetTokenizer
  • WhitespaceTokenizer
  • WordPunctTokenizer

Bu liste haricinde daha da fazla çeşitle Tokenizer yöntemleri bulunmaktadır. Bu bölümde temel olarak kullanabileceğimiz birkaç tanesini detaylandıracağız.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.