İstatistik - Değişkenlik Ölçüleri

Variance (Varyans)

Yayın tarihi :08-Ara-21

Variance (Varyans), veri seti içerisinde bulunan bütün verilerin, veri ortalamasına olan uzaklıklarının karelerinin ortalaması olarak tanımlanmaktadır. Bu tanımı göz önünde bulundurarak varyans kısaca, stardart sapmanın karesi olarak ifade edilebilir. Bu değişkenlik ölçüsü sayesinde, farklı veri kümelerinin tek taraflı karşılaştırma testlemelerinin (ANOVA) hesaplamaları kolaylıkla yapılmaktadır. Ayrıca, varyans değişkenlik ölçüsü veri kümelerinin yayılım derecesi hakkında bilgi edinebilmeyi sağlamaktadır. Bu durum kısaca, verinin yayılmasına bağlı olarak varyansın ortalamaya göre büyüklüğünde değişimler yaşanmaktadır.

Varyans ölçümü için toplamda iki farklı durumlar için farklılaşmış formüller geliştirilmiştir. Bunlar;

  1. Örnek( sample) varyansı
  2. Popülasyonlar(populations) varyansı

1. Örnek( sample) için varyans: Örnek varyansı kısaca, herhangi bir veri setinden elde edilen toplam veri ortalamalarının karelerinin ortalamaları olarak  sembolüyle tanımlanmaktadır. Bu varyans çeşidinde evrensel olarak aşağıdaki formül kullanılmaktadır.

  • = Örnek varyansı
  • Σ= Toplam
  • Χ = Her değer
  • = Örnek ortalama
  • n = Örnekteki değer sayısı

2. Popülasyonlar(populations) için varyans: Popülasyon varyansı, verilerden oluşturulmuş herhangi bir veri popülasyonunda verilerin değer noktalarının nasıl bir dağılım gösterdiğinin tespiti için kullanılır ve σ² (sigma) sembolüyle tanımlanmaktadır. Bu varyans çeşidinde evrensel olarak aşağıdaki formül kullanılmaktadır. Bu varyans çeşidinde evrensel olarak aşağıdaki formül kullanılmaktadır.

  • σ²= Popülasyon varyansı
  • Σ = Toplam
  • Χ = Her değer
  • μ = Popülasyon ortalaması
  • Ν = Popülasyondaki değerlerin sayısı

Varyans Ölçüm Kullanımı

Veri kümelerinde varyans hesaplamaları standart sapma hesaplamalarında olduğu gibi hem manuel olarak hem de otomatik olarak(program kullanılarak) hesaplanabilmektedir. Manuel olarak yapılan hesaplamalar karmaşık, zor ve uzun süreceği için, genel olarak varyabs hesaplamaları Python programlama dili kütüphanelerinden birisi olan ve matematiksel uzantılardan oluşturulan "NumPy" kütüphanesi kullanılarak oldukça kısa bir zamanda ve kolay bir şekilde hesaplanmaktadır. İlgili kütüphane altında bulunan standart sapma için kullanılan "var()" komutundan faydalanılır.

Örnek-1: Bir X sındavından öğrencilerin almış olduğu puanlar 60, 75, 92, 25, 48, 80, 55 olsun. Bu sınav notlarının varyansını ve standart sapmalarını hesaplayalım.

#NumPy kütüphanesi import edildi.
import numpy as np

#Sınav notları listesi
exam_score=[60, 75, 92, 25, 48, 80, 55]

result_std=np.std(exam_score)
result_var=np.var(exam_score)
print(f"Sınav notlarının standart sapması: {result_std}")
print(f"Sınav notlarının varyansı: {result_var}")

Çıktı:

Sınav notlarının standart sapması: 20.73939365023944
Sınav notlarının varyansı: 430.1224489795919

Yukarıdaki çıktıda görüldüğü üzere sınav notlarının varyans değeri 430.12 olarak elde edildi. Standart sapma değeri de varyansın karekökü 20.74 olarak sonuçlanmış oldu.

Örnek-2: Bir Y sındavından öğrencilerin almış olduğu puanlar 90, 88, 92, 95, 89, 91, 100 olsun.(Örnek-1 de verilen sayılara göre birbiri arasında daha az değişkenlik gösterdi.) Bu sınav notlarının varyansını ve standart sapmalarını hesaplayalım ve Örnek-1 deki değerlerle karşılaştıralım.

#NumPy kütüphanesi import edildi.
import numpy as np

#Sınav notları listesi
exam_score=[90, 88, 92, 95, 89, 91, 100 ]

result_std=np.std(exam_score)
result_var=np.var(exam_score)
print(f"Sınav notlarının standart sapması: {result_std}")
print(f"Sınav notlarının varyansı: {result_var}")

Çıktı:

Sınav notlarının standart sapması: 3.833259389999639
Sınav notlarının varyansı: 14.693877551020407

Yukarıdaki çıktıda da görüldüğü üzere sınav notları arasında Örnek-1'e göre daha az değişkenlik olduğundan dolayı varyans değeri 14.69 olarak bulunurken standart sapma değeri de varyansın karekökü 3.83 olarak sonuçlanmış oldu.

Örnek-3: Örnek-2 üzerinden verilen değerleri NumPy kütüphanesi kullanmadan matematiksel formül yolu ile hesaplama işlemi yapalım.

#Sınav notları listesi
exam_score=[90, 88, 92, 95, 89, 91, 100 ]

#Ortalama Sınav notları
exam_ort=sum(exam_score)/len(exam_score)
print(f"Sınavların ortalama değeri: {exam_ort}")

#Tüm sınav değerleri gezinilerek varyans değerini hesaplayalım
result_var=sum([(score-exam_ort)**2 for score in exam_score])/len(exam_score)
result_std=result_var**0.5
print(f"Sınav notlarının standart sapması: {result_std}")
print(f"Sınav notlarının varyansı: {result_var}")

Çıktı:

Sınavların ortalama değeri: 92.14285714285714
Sınav notlarının standart sapması: 3.833259389999639
Sınav notlarının varyansı: 14.693877551020407

**Not: NumPy kütüphanesi kullanarak hesaplanmak istenen varyans değerleri için sadece ".var()" veya standart sapma işlemleri için sadece ".std()" komutları yerine yukarıdaki gibi daha karışık olan yöntemlerle de hesaplama işlemleri yapılabilir. 

Sonuç olarak; görüldüğü üzere veri kümesini oluşturan girdilerin birbirlerine ve ortalama değere yakınlıkları, varyans ve standart sapma oranında azalma ve başarı oranında da artış olarak ifade edilebilinmektedir.

Paylaş:

Yorum Yap (*Yorumunuza kod eklemek isterseniz Kod Parçacığı Ekle butonuna tıklayarak ekleyebilirsiniz.)

Yorumlar

Henüz hiç yorum yapılmamış, ilk yorum yapan sen ol.