Veri Bilimi & Veri Manipülasyonu - Pandas
Dış Kaynaklı Veri Seti Okuma-2
Dış Kaynaklı Veri Seti Okuma-1 alanında görülen veri okuma yöntemlerinde genellikle veriler arasında aralarında virgül "," bulunmaktaydı. Bu bölümde de verileri ayırmak için virgül haricinde başka karakterler olan veri setlerininin nasıl okunacağı anlatılacaktır.
İlgili karakteri belirtmek için "sep" özelliğinden faydalanabiliriz. "pd.read_DosyaTürü("dosya_İsmi", sep="ayrım işareti")"
Örnek-1: Noktalı virgülle birbirinden ayrılan verileri okuyalım.
import pandas as pd
df=pd.read_table("client_list.table")
df.head()
Çıktı:
Yukarıda gördüğünüz gibi veri seti okunduğuda ilgili değerler ilgili sütun altında yer almadı ve karışık bir DataFrame oluştu. Bunu veriler aralarında ";" ile ayrıldığını DataFrame oluşturma aşamasında belirterek tekrar okuma işlemi yapalım;
df=pd.read_table("client_list.table",sep=";")
df.head()
Çıktı:
Örnek-2: Boşluk (\s+ ile gösterilir) ile birbirinden ayrılan verileri okuyalım.
import pandas as pd
df=pd.read_csv('client_list.txt')
df.head()
Çıktı:
#Bu veri setinde de öğeler boşluk ile ayrılmıştır. Boşluk "\s+" olarak ifade edilir.
df=pd.read_csv('client_list.txt',sep="\s+")
df.head()
Çıktı:
Yukarıda bulunan 2 örnekte birinde noktalı virgül ";" diğerinde ise boşluk ile birbirinden ayrılan verilere okuma işlemi yapıldı. Bunların haricinde herhangi bir karakter olması durumunda yine aynı yöntemler kullanılabilecektir.