Temel İstatistik İşlemleri

Bu yazımda makine örenme algoritmalarında sıklıkla kullanılan temel istatistiksel yöntemlere değineceğim.

1. Standart Sapma(Standart Deviation)

Standart sapma bir verin topluluğunun dağılımını gösteren bir ölçüttür. Standart sapması yüksek bir veri topluluğu, düşük olana göre daha fazla dağılım göstermektedir. Standart sapmanın formülü aşağıdaki gibidir.

Standart sapma bulma işlemi bilgisayarlar ile kolaylıkla yapılabilmektedir. Ancak yapılan işlemleri anlamak adına el ile basit örnekler yapmakta fayda vardır.

Örnek 1.  X=[6 2 3 1 5  9]  elimizde X adında bir vektör olsun ve bu vektör 6 adet veri saklıyor olsun. Bu vektördeki verilerin standart sapması aşağıdaki gibi hesaplanır.

İlk olarak tüm verilerin ortalaması bulunur.

2. Varyans(Variance)

Varyans standart sapmanın karesine eşittir. Yine verilerin dağılımı hakkımda bilgi verir. Uygulamalarda çoğunlukla standart sapma değil, varyans kullanılır.

3. Kovaryans(Covariance)

Kovaryans 2 veri arasındaki artış-azalış ilişkisini ortaya koyar. Eğer iki veri arasında hesaplanan kovaryans pozitif ise bu veriler birbirleriyle doğru orantılıdır. Yani bir veri artarken diğeri de artmaktadır. Negatif ise biri artarken diğeri azalmaktadır. Yani ters orantı vardır. Eğer kovaryans sıfır veya sıfıra yakın ise bu veriler arasında herhangi bir lineer ilişki söz konusu değildir yorumu yapılır. Kovaryans’ın büyüklüğünden çok işareti önemlidir. Kovaryans’ın formülü aşağıdaki şekildedir.

Burada  ,

x’:  x vektörüne ait verilerin ortalaması,

y’: y vektörüne ait verilerin ortalamasını ifade etmektedir.

Örnek 2.  X=[6 5 3 1]  ve Y=[1 4 7 9 ]

İlk olarak ortamalar hesaplanır ise;

 

Elde edilen kovaryans sonucu negatif çıktığı için bu iki vektöre ait verilerin birbirleriyle ters orantılı olarak değiştikleri söylenebilir. Vektörlere bakılacak olur ise X vektörü azalarak giderken, Y vektörünün artarak gittiği görülebilmektedir.

Uygulamada kovaryans işlemi sadece 2 veri vektörü arasında uygulanmıştır. 2 den fazla veri vektörü olduğunda vektörlerin 2’ li kombinasyonları şeklinde kovaryans  tüm ikililer arasında bulunur. İşlem kolaylığı ve açık gösterimi nedeniyle yapılan tüm kovaryans kombinasyonları bir matris içerisinde gösterσilir. Bu matrise kovaryans matrisi denir.

Örneğin elimizde 3 adet X,Y ve Z veri vektörleri varsa bu vektörlerin kovaryans matrisi aşağıdaki gibi olur.

Kovaryans matrisinin diagonal elemanları her bir vektörün varyansına eşittir(Cov(n,n)=Var(n)). Ayrıca Cov(n,m)=Cov(m,n) olduğu için diagonalin altında ve üstünde kalan üçgenler birbirleriyle aynıdır. Yani kovaryans matrisi simetrik bir matristir.

4. Korelasyon Matrisi(Correlation Matrix)

Korelasyon matrisi kovaryans matrisine benzer bir şekilde değişkenlerin birbirleri ile olan ilişkilerini ortaya koymaktadır. Kovaryans matrisinden farklı olarak korelasyon matrisinde işaretlerin yanında sayıların büyüklükleri önem kazanmaktadır. Yani kovaryans matrisindeki sayı değerleri yorumlanamamakta, ancak işarete bakılarak değişkenler arasındaki orantının ters mi yoksa doğru mu olduğuna karar verilmektedir. Korelasyon matrisinde ise her bir 2’li vektör ilişkisi için -1 ile 1 arasında değer verilmektedir. Bu değer 1’e yakınsa korelasyonuna bakılan 2 veri vektörü arasında güçlü bir doğru orantı, -1’ e yakınsa güçlü bir ters orantı vardır denilir. Eğer korelasyon değeri 0’ a yakın ise veriler arasında  lineer bir ilişkiden söz edilemez.

Korelasyon formülü aşağıdaki gibidir;

Denklemde Sxy x ve y vektörleri arasındaki kovaryansı, Sxx ve Syy sırası ile x ve y vektörlerinin varyansına eşittir.

Örnek 3.  X=[6 5 3 1]  ve Y=[1 4 7 9 ]  daha önce kovaryansları hesaplanan veri vektörlerinin korelasyon değerleri hesaplanacak olur ise;

Korelasyon sonucuna bakıldığında verilen 2 vektör arasında çok güçlü bir ters orantı olduğu sonucuna varılmaktadır.