Veri Bilimi & Veri Manipülasyonu - Pandas
Gözlem ve Değişken Seçimi
1. DataFrame içerisinden tek bir değişkeni görüntüleme işlemi
Sütun verilerine erişebilmek için df["sütun_adı"] yazılır veya eğer sütun adı arasında boşluk bulunmuyorsa df.sütun_adı şeklinde de yazılır. Bu gösterim şekilleri tek boyutlu biçimde geri dönüş yapar.
import pandas as pd
df = pd.DataFrame({'sehir':['Ankara', 'İstanbul', 'İzmir',"Bursa","Antalya"],
'plaka':["06","34","35","16","07"],
"nufus":[5663000,15460000,4367000,3101833,2548308],
"bolge":["İç Anadolu","Marmara","Ege","Marmara","Akdeniz"]})
df
Çıktı:
Örnek-1: DataFrame içerisinden sadece "sehir" sütununu değerlerini görüntüleyelim.
I.Yöntem:
df["sehir"]
Çıktı:
0 Ankara 1 İstanbul 2 İzmir 3 Bursa 4 Antalya Name: sehir, dtype: object
II.Yöntem:
df.sehir
Çıktı:
0 Ankara 1 İstanbul 2 İzmir 3 Bursa 4 Antalya Name: sehir, dtype: object
Örnek-2: Şehir sütunu boyutunu görüntüleyelim.
df.sehir.shape
Çıktı:
(5,)
2. DataFrame içerisinden birden fazla değişkeni görüntüleme işlemi
Sütun verilerine çoklu olarak erişebilmek için df[["sütun1_adı","sütun2_adı","...."]] şeklinde yazım yapılılır. Bu gösterim şekli iki boyutlu biçimde geri dönüş yapar.
Örnek-3: Tablodan sadece "şehir" ve "nüfus" değişkenlerini görüntüleyelim.
df[["sehir","nufus"]]
Çıktı:
**Not: Görüntülenmek istenen değişken bir köşeli parantez "[ değişken adı ]" içersinde yazılırsa tek boyutlu olarak görüntülenirken (Örnek-1 de gösterildiği gibi), iki köşeli parantez "[[ değişken adı ]]"içersinde yazılırsa 2 boyutlu tablo halinde görünür.
Örnek-4: Bölge değişkenini 2 boyutlu olarak görüntüleyelim ve boyut bilgisini de görüntüleyelim.
df[["bolge"]]
Çıktı:
df[["bolge"]].shape
Çıktı:
(5, 1)
3. loc ve iloc ifadeleri
Gözlem ve değişken seçimlerinde kullanabileceğimiz diğer yöntemlerdir. Bir tane DataFrame oluşturalım ve loc ve iloc ifadelerinin tam olarak nasıl kullanıldığına ve aralarındaki farklarına bakalım.
import numpy as np
df=pd.DataFrame(data=np.random.randint(-10,20,(10,4)),columns=["S1","S2","S3","S4"])
df
Çıktı:
3.1. loc komutu: loc[a:b,c:d] şeklinde ifade edilir. a satır isminden b satır ismine kadar (b dahil) ve c sütun isminden d sütun ismine kadar (d dahil) anlamına gelir. loc satır veya sütun ismine bağımlı olarak çalışmaktadır.
Örnek-5: Tablodan 0-2 satır aralığındaki değerleri görüntüleyelim.
df.loc[0:2]
Çıktı:
Örnek-6: Tablodan 4-6 satır ve "S1-S3" sütun aralığındaki değerleri görüntüleyelim.
df.loc[4:6,"S1":"S3"]
Çıktı:
3.2. iloc komutu: iloc[a:b,c:d] şeklinde ifade edilir. a satır numarasından b satır numarasına kadar (b hariç) ve c sütun numarasından d sütun numarasına kadar (d hariç) anlamına gelir. iloc satır veya sütun numarasına(index değerine) bağımlı olarak çalışmaktadır.
Örnek-7: Tablodan 1-2 satır aralığındaki değerleri görüntüleyelim.
df.iloc[1:2]
Çıktı:
Örnek-8: Tablodan 2-8. satır ve 2-4 sütun aralığındaki değerleri görüntüleyelim. ("iloc" filtrelemesinde sütun ismi yerine sütun numarası yazıldığına dikkat ediniz.)
df.iloc[2:8,2:4]
Çıktı: