Doğal Dil İşleme (NLP) - Temel İşlemler - I

Fazla Boşlukları Kaldırma

Yayın tarihi :02-Şub-22
Bölüm kodlarını ve/veya veri setlerini indir.

Tüm verilerin içinde bulunan fazla boşluklardan kurtulma işlemi Doğal Dil İşleme (NLP) işlemlerinde ve sonrasında yapılacak işlemlerde yine çokça kullanılacak bir işlemdir.

Yazı içerisinde alt satıra geçilmişse veya satır sonunda boşluk varsa "\n" ve "\r" ifadeleri kaldırılarak veri setindeki fazla boşluklardan kurtulunabilir.

Büyük veri setleri üzerinden fazla boşlukları kaldırma işlemini örnekler üzerinden inceleyelim.

Örnek-1: ABD'de bulunan Yelp şirketi üzerinden yapılan restorant yorumlarını içeren veri seti olan "yelp.csv" veri seti üzerinden küçük harfe çevirme işlemleri yapalım.

import pandas as pd
import warnings
warnings.filterwarnings("ignore")
#Veri seti okunur
df=pd.read_csv("yelp.csv")
#İlk 5 satır
df.head()

Çıktı:

#Veri setinde sadece "text" sütunu üzerinde çalışma yapalım
df[["text"]].sample(5)

Çıktı:

Veri seti içerisindeki fazla boşlukları bir tane boşlukla yer değiştirelim.

df["text"]=df["text"].str.replace("\n"," ").replace("\r"," ")
df[["text"]].sample(5)

Çıktı:

Veri seti üzerindeki tüm fazla boşluklar kaldırılmış oldu. 556. satırda bulunan boşluk "\n" ifadesinin son durumunu inceleyecek olursak;

df["text"][556]

Çıktı:

'Tandoori Times  Volume 1, Issue 1, Number 1.  Limited run.  Copyright 2009....'
Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.