SPSS Eğitimleri 13- Normallik Varsayımının Test Edilmesi – I
Merhabalar,
Spss eğitimimize kaldığımız yerden devam ediyoruz. Bu yazımda;

Normallik varsayımı nedir?

Nasıl test edilir ve çeşitleri nelerdir?  Hep beraber inceleyelim.

İlk olarak normallik varsayımlarının neler olduğuna bakıp daha sonra bir örnek üzerinde daha iyi kavramış oluruz.
İstatistiksel araştırmalarda yapılan birçok testin uygulanabilmesi için, ölçüm verilerinin dağılıma normal veya normale yakın oması gerekir.

Normal Dağılım Varsayımı Neden Önemli?
Bu varsayımın bazı işlemleri ve sonuçları yorumlamayı kolaylaştırmanın yanı sıra, dağılım teorisi açısından da gereklidir. Eğer normallik varsayımından sapmalar anlamalı ise, t ve f istatistiklerinin elde edilmesinde bu varsayımın gerekli olduğundan, elde edilen testler geçerliliğini yitirmektedir.
*Tek değişkenli ve çok değişkenli teknikler tek değişkenli normallik varsayımına; çok değişkenli teknikler ayrıca çoklu normallik varsayımına dayanmaktadır.

Veriler Normal Dağılmazsa Ne Olur?
*Araştırmalar tek değişkenli (Örn: ANOVA) ve çok değişkenli (Örn: Diskriminant Analizi, MANOVA) analizlerinde normallik varsayımında sapmalar alfa hatası(1. Tip Hata) üzerinde önemli bir etkisi olmadığını göstermiştir.
*Normallik varsayımından sapmalar sınıflandırma oranını ve istatistik testlerin gücünü etkilemektedir.
*Basit olarak çoklu normal dağılım, her bir değişkenin tek değişkenli normal dağılıma uyduğunu ve ilgili değişkenlerin kombinasyonlarının da normal olduğunu varsaymaktadır.
*Bir değişken çoklu normal dağılıma uyuyorsa aynı zamanda tek değişkenli normal dağılıma da uyuyor demektir. Tersi her zaman geçerli olmayabilir ancak çok değişkenli normal dağılımı sağlamaya yardım edecektir. Her ne kadar büyük örnekler normal dağılımdan sapmanın etkisini azaltsa da analize dahil edilecek tüm değişkenler için normallik varsayımı sağlamalıdır.

Normallik Nasıl İncelenir?
Grafiksel Testler
1-P-P Grafiği
Amaç elde edilen doğrusal çizginin altındaki ve üstündeki noktaların değişkenin birim değerlerinin kuramsal dağılımından (Normal) hangi düzeyde bir sapma gösterdiğini belirlemektir. Aşırı sapma yoksa “Dağılım Normaldir” denir.

2-Q-Q Grafiği
Kuramsal normal dağılım değerleri ile gözlenen gerçek değerler arasındaki ilişkiyi gösterir. Gerçekleşen değerler kuramsal dağılımın değerleriyle örtüştüğünde, ortaya yatayla 45 derecelik açı yapan bir doğru çıkar.

3-Eğilimden Arındırılmış Q-Q Grafiği
Beklenen ve gerçek dağılımın arasındaki fark değerleriyle çizilen bu grafikte, yatay 0 doğrusu etrafında rastgele dağılım sergilenmesi gerekir.

4-Histogram Grafiği
Frekansları temsil eden çubukların orta noktaları birleştirildiğinde dağılım normal ise simetrik bir çan eğrisi oluşacaktır.


5-Box Plot Grafiği
Merkezi eğilim ölçülerinin yanı sıra çeyrek dağılımlarını da dikkate alarak çizilir. Oluşa grafikte; Kurumun üst ve alttaki dikey çizgilerin boylarının birbirine yakın olması Kutudaki yatay çizginin kutuyu ortalaması >> Normalliğe işarettir.

6-Gövde – Yaprak (Stem- And- Leaf) Grafiği
Üç sütundan oluşur. Bunlar; Frequency( Frekans), Stem( Gövde) ve Leaf(Yaprak) dır. Aşağıdaki verimizi incelediğimizde ve değerlerine baktığımızda verimiz, 39 değerden başlayıp 110 değerine kadar değişim göstermektedir. Gövde kısmı ondalık haneyi ifade ederken yaprak kısmı verinin geriye kalan kısmından oluşmaktadır. Yine aşağıdaki örnekte olduğu gibi verimizde 1 adet 39 değeri bulunmakta olup 5 ile 9 arasında bir yığılma söz konusudur. Ayrıca yaprak kısmını grafik şeklinde çizdiğimiz zaman çan yapısına benzer bir yapı elde ediyorsak bu verilerin yapısı normal dağılımın yapısına benzemektedir deriz.

Analitik Testler
1-Shapiro- Wilk Testi
*Testler arasında en güçlü olanlardan biridir.
*0<W<=1 arasında değerler alır. 1’e yakın olması verinin normal dağıldığını ifade eder.
*Veride uçlarda sapan değerlerin olaması gerekir. Sapan değerlere aşırı duyarlıdır.
2-Anderson- Darling Testi
*Fonksiyonları bilinen dağılımlara uygulanabilir. (Normal, Weibull, Lognormal vb.)
*Ancak KS testinnin küçük ve büyük uç değerlere karşı duyarsızlığı nedeniyle geliştirilmiştir.
*Çok güçlğ bir testir. KS testinin bir modifikasyonudur.
3-Kolmogrov – Smirnov Testi
*Teorik Birikimli normal yoğunluk fonksiyonu ile deneysel birikimli normal yoğunluk fonksiyonu arasındaki farka dayanır.
*Uç değerlere karşı duyarsızdır.
*n>30 (bazı kaynaklarda n>50) olduğunda kullanılmalıdır.
4-Lilliefors Düzeltmeli Kolmogrov Smirnov Testi
*Verideki tekrarlama sayısı az, birim sayısı az ve türdeşlik düşük düzeyde ise uygulaması daha uygun olur.
*Yani öngörülen normal dağılımın parametreleri bilinmiyorken buna uygunluğu araştırılıyorsa kullanılmalıdır.
*KS testinin bir modifikasyonudur. KS testi teorik dağılım fonksiyununun belirli olduğu durumlarda uygulanır. Ancak örnekten dağılım fonksiyonu elde edilecekse KS’nin gücü düşer; bu nedenle lilliefors düzeltmesi uygulanır.
5-Ryan -Joiner Testi
*Örnek hacmi fazla, sapan değer içermeyen homojen veriler herhangi bir testin yanı sıra bu test de kullanılabilir.
6-Ki- Kare Uyum İyiliği Testi
*Örneklem grubundaki değerlerin dağılımın (normal dağılım vb.) hipotezde ileri sürülen anakitle dağılımıyla uyumlu olup olmadığını ölçmektedir.
7-Merkezi Eğilim Ölçüleri ile Normalliğin Kontrolü
*İdeal bir normal dağılımdaki ortalama, mod ve medyan çakışıktır. Dolayısıyla bu değerlerin birbirine yakınlıkları ölçüsünde verinin dağılımı Normal’dir diyebiliriz.
8-Çarpıklık ve Basıklık Değerleriyle Normalliğin Kontrolü
*İdeal bir normal dağılımda çarpıklık ve basıklık katsayısı 0’dır. Dolayısıyla; Çarpıklık ve Basıklık katsayılarının z-skorla yani kendi standart sapmalarına oranla [-1.96, 1.96] aralığından ise dağılım Normaldir. Çarpıklık ve Basıklık katsayıları [-1, 1] aralığında olması sa dağılımın Normal olduğuna dair bir ipucudur.
9-Uç Değerlerin Kontrolü
*Uç değerlerin sayıca çok olması Normalliği bozan bir etki olarak yorumlanır. Dikkatle incelenmelidir.
10-Kartiller Arasından Değişim Aralığı [(Q3- Q1)/S]
*Kartiller arası değişim aralığının, verinin standart sapmasına oranı eğer 1.3 civarında bir değerse, bu verinin normalliğine dair bir ipucudur.

Sonuç Olarak:
Bir verinin normalliği test edilirken,
Adım-1: Merkezi Eğilim Ölçüleri, Çarpıklık-Basıklık Değerleri ve Kartiller Arası Değişim Aralığı ölçüleriyle verinin dağılımı hakkında ön fikir edinilir.
Adım-2: Veri sayısı >=30 ise Kolmogrov-Smirnov Testi ile, Veri sayısı <30 ise Shapiro-Wilks Testi ile yorum yapılır.
Adım-3: Eğer Normallikten sapma çok az ise bu sapmanın göz ardı edilip edilemeyeceği grafiksel yaklaşımlarla incelenerek kesin karar veriler.

Genel olarak grafiksel ve analitik testleri gördük. Sonuçlar analitik testler ile incelenir. Eğer analitik testlerde şüpheye düştüğümüz bir nokta varsa grafiksel testlere dönüşmektedir.
Bir sonraki yazımızda bu testlerin nasıl uygulandığını inceleyeceğiz.

Bir dahaki yazımda görüşmek üzere.