Testovanie normality rozdelenia dát

Normálne rozdelenie je jednou z dôležitých podmienok realizácie viacerých štatistických procedúr s kardinálnou/kardinálnymi premennými (napr. parametrických testov, regresnej analýzy a i.). 

Premenná je normálne rozdelená v prípade, ak má podobu zvonovej (Gaussovej) krivky, ktorá je symetrická okolo strednej osy (viď graf). Najvhodnejším spôsobom vizualizácie je histogram.

Normálne rozdelenie je charakteristické nasledujúcimi znakmi (Rabušic, Soukup, Mareš, 2019):

  • väčšina hodnôt sa sústredí okolo priemeru a ich distribúcia je symetrická – polovica hodnôt je väčšia ako priemer a polovica hodnôt je menšia ako priemer;
  • normálne rozdelenie má jeden vrchol, má tvar zvonu, jeho ľavá strana je zrkadlovým obrazom pravej strany a naopak;
  • platí, že do jednej štandardnej odchýlky na každú stranu spadne 68,26 % prípadov, do dvoch štandardných odchýlok na každú stranu spadne 95,34 % prípadov – to znamená, že je 95 % pravdepodobnosť, že prípad bude ležať v intervale ± 2 štandardné odchýlky (ơ) okolo priemeru. Do troch štandardných odchýlok na každú stranu spadne 99,7 % prípadov.

Na testovanie normálneho rozdelenia používame v programe SPSS dva druhy testov:

  • Kolmogorov-Smirnov test (používame, ak je v súbore viac ako 50 respondentov),
  • Shapiro-Wilkov test (používame, ak je v súbore menej ako 50 respondentov ).
    Výsledkom testu je p hodnota. Ak ide o výsledok p < 0,05, tak dáta nevykazujú normálne rozdelenie. V prípade, ak je p ˃ 0,05, dáta sú normálne rozdelené. K týmto testom je nižšie na stránke vytvorený videonávod realizácie v programe SPSS i Excel.

Ako upozorňuje Rimarčík (2007) „testy normality je potrebné používať opatrne, pretože pri malých vzorkách, ktoré sa aj vizuálne odlišujú od normálneho rozdelenia, sa hypotéza o normalite, dôsledkom nízkej sily, nezamietne. Naopak, pri veľkých vzorkách dôsledkom priveľkej sily testov sa normalita často zamietne, aj keď má premenná rozdelenie veľmi blízke normálnemu.

Testy normality nie je vhodné používať na slepé rozhodnutie, či použiť parametrickú, alebo neparametrickú metódu, o tom treba rozhodnúť na základe poznania základného súboru a kontroly histogramu vytvoreného zo vzorky.“

Okrem použitia testov normality je vhodné poznať štatistické ukazovatele (priemer, medián, modus, štandardnú odchýlku, šikmosť, strmosť) a posúdiť tvar Gaussovej krivky v histograme (tvorba histogramu v SPSS).

Dôležitým pojmom v súvislosti s normalitou rozloženia je tzv. centrálna limitná veta, ktorú ako prvý sformuloval Pierre Simon Laplace v roku 1810. Táto veta hovorí o tom, že súčet (a teda aj priemer) veľkého počtu nezávislých náhodných premenných s rovnakým rozdelením má normálne rozdelenie. Táto veta vysvetľuje, prečo sa s normálnym rozdelením tak často stretávame takmer všade okolo nás – v prírode, ale aj u ľudí (napr. výška IQ, hmotnosť, …).

Dôsledkom platnosti centrálnej limitnej vety má normálne rozdelenie v induktívnej štatistike dominantné postavenie. Ak zo základného súboru s ľubovoľným rozdelením budeme vyberať dostatočne veľké náhodné vzorky, výberové rozdelenie priemeru bude normálne.

Videonávod: SPSS Videonávod: EXCEL