Centrálna tendencia verzus disperzia
V deskriptívnej a inferenčnej štatistike sa na opis súboru údajov, ktorý zodpovedá jeho centrálnej tendencii, rozptylu a skresleniu, používa niekoľko ukazovateľov: tri najdôležitejšie vlastnosti, ktoré určujú relatívny tvar distribúcie súboru údajov.
Aká je hlavná tendencia?
Centrálna tendencia sa týka a lokalizuje stred distribúcie hodnôt. Priemer, režim a medián sú najbežnejšie používané indexy pri opise centrálnej tendencie súboru údajov. Ak je súbor údajov symetrický, potom sa medián aj priemer súboru údajov zhodujú.
Pri dátovom súbore sa priemer vypočíta tak, že sa spočíta súčet všetkých hodnôt údajov a potom sa vydelí počtom údajov. Napríklad sa meria hmotnosť 10 osôb (v kilogramoch) na 70, 62, 65, 72, 80, 70, 63, 72, 77 a 79. Potom môže byť priemerná hmotnosť desiatich ľudí (v kilogramoch) vypočítané nasledovne. Súčet hmotností je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Priemer = (súčet) / (počet údajov) = 710/10 = 71 (v kilogramoch). Rozumie sa, že extrémne hodnoty (údajové body, ktoré sa líšia od normálneho trendu) majú tendenciu ovplyvňovať priemer. Znamená to, že v prítomnosti odľahlých hodnôt samotný nedá správny obraz o strede súboru údajov.
Medián je dátový bod nájdený v presnom strede súboru údajov. Jedným zo spôsobov, ako vypočítať strednú hodnotu, je zoradiť dátové body vo vzostupnom poradí a potom vyhľadať dátový bod v strede. Napríklad, ak sa raz objedná predchádzajúca množina údajov vyzerá, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. (70 + 72) / 2 = 71 je preto v strede. Z toho vyplýva, že stredná hodnota nemusí byť v súbore údajov. Medián nie je ovplyvnený prítomnosťou odľahlých hodnôt. Medián preto bude slúžiť ako lepšia miera centrálnej tendencie v prípade odľahlých hodnôt.
Režim je najčastejšie sa vyskytujúcou hodnotou v súbore údajov. V predchádzajúcom príklade sa hodnota 70 a 72 vyskytujú dvakrát, a teda sú to režimy. To ukazuje, že v niektorých distribúciách existuje viac ako jedna modálna hodnota. Ak existuje iba jeden režim, údajový súbor sa považuje za unimodálny, v tomto prípade je dátový súbor bimodálny.
Čo je rozptyl?
Disperzia je množstvo šírenia údajov o centre distribúcie. Rozsah a štandardná odchýlka sú najčastejšie používanými mierami rozptylu.
Rozsah je jednoducho najvyššia hodnota mínus najnižšia hodnota. V predchádzajúcom príklade je najvyššia hodnota 80 a najnižšia hodnota 62, takže rozsah je 80 - 62 = 18. Rozsah však neposkytuje dostatočný obraz o rozptyle..
Na výpočet smerodajnej odchýlky sa najprv spočítajú odchýlky hodnôt údajov od priemeru. Stredný štvorcový priemer odchýlok sa nazýva štandardná odchýlka. V predchádzajúcom príklade sú príslušné odchýlky od priemeru (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 a (79 - 71) = 8. Súčet štvorce odchýlky sú (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Štandardná odchýlka je √ (366/10) = 6,05 (v kilogramoch). Pokiaľ nie je súbor údajov výrazne skreslený, z toho možno vyvodiť záver, že väčšina údajov je v intervale 71 ± 6,05, a je to skutočne tak v tomto konkrétnom príklade..
Aký je rozdiel medzi centrálnou tendenciou a rozptylom? • Centrálna tendencia sa týka a lokalizuje stred distribúcie hodnôt • Disperzia je množstvo šírenia údajov o centre množiny údajov.
|