Veri Bilimi & Veri Manipülasyonu - Pandas
DataFrame Oluşturma
DataFrame(veri çerçevesi), satırlar ve sütünlardan oluşan iki boyutlu (boyut değişebilir), potansiyel olarak heterojen tablo veri yapısıdır.
Yukarıdaki şekilde de görüldüğü gibi bir DataFrame; Satırlar, Sütunlar, Verier, Index Değerlerinden oluşmaktadır.
Pandas kütüphanesinden DataFrame oluşturmak için "pd.DataFrame()" komutu kullanılır.
Söz dizimi: pd.DataFrame(data=None,index: 'Optional[Axes]' = None, columns: 'Optional[Axes]' = None, dtype: 'Optional[Dtype]' = None, copy: 'bool' = False)
- data, verileri temsil etmektedir, liste,tuple gibi yapılardan oluşturulabilir.
- index, default olarak sayısal olarak 0'dan başlayarak sıralanır, istenirse sayısal değerler yerine string ifadeler de yazılabilir.
- columns, sütun isimlerini temsil eder. Yeni bir DataFrame oluştururken "[ ]" içerisinde sütun isimleri yazılabilir, yazılmadığı taktirde 0'dan başlayan sayısal ifadelerle isimlendirilirler.
- dtype, tüm DataFrame'nin veri tipini belirtmek için kullanılır.
Tek sütunlu DataFrame Oluşturma
Örnek-1: Sehirler adlı sütun değişkeni olan bir DataFrame oluşturalım.
import pandas as pd
myList=["Ankara","İstanbul","İzmir","Bursa"]
myColumns=["Sehirler"]
df=pd.DataFrame(data=myList,columns=myColumns)
df
#DataFrame'ler genel olarak baş harflerinden oluşan df olarak isimlendirilir.
Çıktı:
Örnek-2: Sehirler adlı sütun değişkeni olan bir DataFrame oluşturalım ve index değerlerini kendimiz atayalım.
import pandas as pd
myList=["Ankara","İstanbul","İzmir","Bursa"]
myColumns=["Sehirler"]
myIndex=["a","b","c","d"]
df=pd.DataFrame(data=myList,columns=myColumns,index=myIndex)
df
Çıktı:
Çok sütunlu DataFrame Oluşturma
Çok sütunda bir DataFrame oluşturmak için sütundaki satır sayılarının eşit olması gerekmektedir.
Örnek-3: Sehir ve Plaka adlı iki tane sütun değişkeni olan bir DataFrame oluşturalım.
import pandas as pd
myDict={"Sehir":["Ankara","İstanbul","İzmir","Bursa"],
"Plaka":["06","34","35","16"]}
df=pd.DataFrame(data=myDict)
df
Çıktı:
Örnek-4: Çoklu değişken isimlerinden oluşan rasgele bir DataFrame oluşturalım.
import numpy as np
myArray=np.random.randint(-20,20,(10,10))
df=pd.DataFrame(data=myArray)
df
Çıktı: