Veri Bilimi & Veri Manipülasyonu - Pandas

Gözlem ve Değişken Seçimi

Yayın tarihi :19-Ara-21
Bölüm kodlarını ve/veya veri setlerini indir.

1. DataFrame içerisinden tek bir değişkeni görüntüleme işlemi

Sütun verilerine erişebilmek için df["sütun_adı"] yazılır veya eğer sütun adı arasında boşluk bulunmuyorsa df.sütun_adı şeklinde de yazılır. Bu gösterim şekilleri tek boyutlu biçimde geri dönüş yapar.

import pandas as pd

df = pd.DataFrame({'sehir':['Ankara', 'İstanbul', 'İzmir',"Bursa","Antalya"],
                  'plaka':["06","34","35","16","07"],
                  "nufus":[5663000,15460000,4367000,3101833,2548308],
                  "bolge":["İç Anadolu","Marmara","Ege","Marmara","Akdeniz"]})
df

Çıktı:

Örnek-1: DataFrame içerisinden sadece "sehir" sütununu değerlerini görüntüleyelim.

I.Yöntem:

df["sehir"]

Çıktı:

0      Ankara
1    İstanbul
2       İzmir
3       Bursa
4     Antalya
Name: sehir, dtype: object

II.Yöntem:

df.sehir

Çıktı:

0      Ankara
1    İstanbul
2       İzmir
3       Bursa
4     Antalya
Name: sehir, dtype: object

Örnek-2: Şehir sütunu boyutunu görüntüleyelim.

df.sehir.shape

Çıktı:

(5,)

2. DataFrame içerisinden birden fazla değişkeni görüntüleme işlemi

Sütun verilerine çoklu olarak erişebilmek için df[["sütun1_adı","sütun2_adı","...."]] şeklinde yazım yapılılır. Bu gösterim şekli iki boyutlu biçimde geri dönüş yapar. 

Örnek-3: Tablodan sadece "şehir" ve "nüfus" değişkenlerini görüntüleyelim.

df[["sehir","nufus"]]

Çıktı:

**Not: Görüntülenmek istenen değişken bir köşeli parantez "[ değişken adı ]" içersinde yazılırsa tek boyutlu olarak görüntülenirken (Örnek-1 de gösterildiği gibi), iki köşeli parantez "[[ değişken adı ]]"içersinde yazılırsa 2 boyutlu tablo halinde görünür. 

Örnek-4: Bölge değişkenini 2 boyutlu olarak görüntüleyelim ve boyut bilgisini de görüntüleyelim.

df[["bolge"]]

Çıktı:

df[["bolge"]].shape

Çıktı:

(5, 1)

3. loc ve iloc ifadeleri

Gözlem ve değişken seçimlerinde kullanabileceğimiz diğer yöntemlerdir. Bir tane DataFrame oluşturalım ve loc ve iloc ifadelerinin tam olarak nasıl kullanıldığına ve aralarındaki farklarına bakalım.

import numpy as np
df=pd.DataFrame(data=np.random.randint(-10,20,(10,4)),columns=["S1","S2","S3","S4"])
df

Çıktı:

3.1. loc komutu: loc[a:b,c:d] şeklinde ifade edilir. a satır isminden b satır ismine kadar (b dahil) ve c sütun isminden d sütun ismine kadar (d dahil) anlamına gelir. loc satır veya sütun ismine bağımlı olarak çalışmaktadır.

Örnek-5: Tablodan 0-2 satır aralığındaki değerleri görüntüleyelim.

df.loc[0:2]

Çıktı:

Örnek-6: Tablodan 4-6 satır ve "S1-S3" sütun aralığındaki değerleri görüntüleyelim.

df.loc[4:6,"S1":"S3"]

Çıktı:


3.2. iloc komutu: iloc[a:b,c:d] şeklinde ifade edilir. a satır numarasından b satır numarasına kadar (b hariç) ve c sütun numarasından d sütun numarasına kadar (d hariç) anlamına gelir. iloc satır veya sütun numarasına(index değerine) bağımlı olarak çalışmaktadır.

Örnek-7: Tablodan 1-2 satır aralığındaki değerleri görüntüleyelim.

df.iloc[1:2]

Çıktı:

Örnek-8: Tablodan 2-8. satır ve 2-4 sütun aralığındaki değerleri görüntüleyelim. ("iloc" filtrelemesinde sütun ismi yerine sütun numarası yazıldığına dikkat ediniz.)

df.iloc[2:8,2:4]

Çıktı:

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.