Doğal Dil İşleme (NLP) - Temel İşlemler - I
Fazla Boşlukları Kaldırma
Tüm verilerin içinde bulunan fazla boşluklardan kurtulma işlemi Doğal Dil İşleme (NLP) işlemlerinde ve sonrasında yapılacak işlemlerde yine çokça kullanılacak bir işlemdir.
Yazı içerisinde alt satıra geçilmişse veya satır sonunda boşluk varsa "\n" ve "\r" ifadeleri kaldırılarak veri setindeki fazla boşluklardan kurtulunabilir.
Büyük veri setleri üzerinden fazla boşlukları kaldırma işlemini örnekler üzerinden inceleyelim.
Örnek-1: ABD'de bulunan Yelp şirketi üzerinden yapılan restorant yorumlarını içeren veri seti olan "yelp.csv" veri seti üzerinden küçük harfe çevirme işlemleri yapalım.
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
#Veri seti okunur
df=pd.read_csv("yelp.csv")
#İlk 5 satır
df.head()
Çıktı:
#Veri setinde sadece "text" sütunu üzerinde çalışma yapalım
df[["text"]].sample(5)
Çıktı:
Veri seti içerisindeki fazla boşlukları bir tane boşlukla yer değiştirelim.
df["text"]=df["text"].str.replace("\n"," ").replace("\r"," ")
df[["text"]].sample(5)
Çıktı:
Veri seti üzerindeki tüm fazla boşluklar kaldırılmış oldu. 556. satırda bulunan boşluk "\n" ifadesinin son durumunu inceleyecek olursak;
df["text"][556]
Çıktı:
'Tandoori Times Volume 1, Issue 1, Number 1. Limited run. Copyright 2009....'