Doğal Dil İşleme (NLP) - Temel İşlemler - I

Sayısal İşaretleri Kaldırma

Yayın tarihi :02-Şub-22
Bölüm kodlarını ve/veya veri setlerini indir.

Tüm verilerin içinde bulunan sayılsal ifadelerden kurtulma işlemi Doğal Dil İşleme (NLP) işlemlerinde ve sonrasında yapılacak işlemlerde çokça kullanılacak bir işlemdir. 

Bunun için meta karakterlerden olan "\d" veya "\D" harfi kullanılabilmektedir.

  • \d : [0-9] sayılarını temsil eder. Aranan kelimedeki sayısal değerleri alır.
  • \D: [0-9] sayıları haricindeki karakterlerle eşlenir. Aranan kelimedeki sayısal olmayan değerleri alır.

Büyük veri setleri üzerinden "/d" veya "/D" harfleri ile sayısal ifadeleri kaldırma işlemini örnekler üzerinden inceleyelim.

Örnek-1: ABD'de bulunan Yelp şirketi üzerinden yapılan restorant yorumlarını içeren veri seti olan "yelp.csv" veri seti üzerinden küçük harfe çevirme işlemleri yapalım.

import pandas as pd
import warnings
warnings.filterwarnings("ignore")
#Veri seti okunur
df=pd.read_csv("yelp.csv")
#İlk 5 satır
df.head()

Çıktı:

#Veri setinde sadece "text" sütunu üzerinde çalışma yapalım
df[["text"]].sample(5)

Çıktı:

Yukarıdaki resimdeki "text" sütununda da görüldüğü gibi sayısal ifadeler yer almaktadır. Bu değerlerin tamamını kaldıralım.

df["text"]=df["text"].str.replace("\d","")
df[["text"]].sample(5)

Çıktı:

Önceki grafilte incelemiş olduğumuz 7270. satırdaki değerlerin tamamına bakacak olursak;

df["text"][7270]

Çıktı:

'Scale of - (multiple visits):\n Food\n Service\n Atmosphere\n Value'
Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.