Štandardná odchýlka a odchýlka sú štatistické miery rozptylu
Vzorec pre štandardnú odchýlku a rozptyl sa často vyjadruje pomocou:
Rozptyl súboru n rovnako pravdepodobné hodnoty možno zapísať ako:
Štandardná odchýlka je druhá odmocnina rozptylu:
Vzorce s gréckymi písmenami vyzerajú skľučujúco, ale menej komplikované, ako sa zdá. V jednoduchých krokoch:
To dáva rozptyl. Vezmite druhú odmocninu variancie a zistite smerodajnú odchýlku.
Toto vynikajúce video z Chánskej akadémie vysvetľuje pojmy rozptyl a štandardná odchýlka:
Povedzme, že množina údajov obsahuje výšku šiestich púpav: 3 palce, 4 palce, 5 palcov, 4 palce, 11 palcov a 6 palcov.
Najprv nájdite stred dátových bodov: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Priemerná výška je 5,5 palca. Teraz potrebujeme odchýlky, takže zistíme rozdiel každej rastliny od priemeru: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Teraz za každú hranicu odchýlky nájdite ich súčet: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Teraz vydelte súčet druhých mocnín počtom dátových bodov, v tomto prípade rastliny: 43,5 / 6 = 7,25
Rozptyl tohto súboru údajov je teda 7,25, čo je pomerne svojvoľné číslo. Ak ju chcete previesť na meranie v reálnom svete, odčítajte druhú odmocninu 7.25 a zistite smerodajnú odchýlku v palcoch.
Štandardná odchýlka je asi 2,69 palca. To znamená, že pre vzorku je každý púpava v rozmedzí 2,69 palca od priemeru (5,5 palca) „normálny“..
Odchýlky sú vyjadrené na druhú mocninu, aby zabránili negatívnym hodnotám (odchýlkam pod priemerom) zrušiť pozitívne hodnoty. Funguje to preto, že záporné číslo na druhú sa stáva kladnou hodnotou. Ak by ste mali jednoduchý súbor údajov s odchýlkami od priemeru +5, +2, -1 a -6, súčet odchýlok vyjde ako nula, ak hodnoty nebudú na druhú mocninu (tj 5 + 2 - 1 - 6 = 0).
Odchýlka je vyjadrená ako matematická disperzia. Keďže ide o ľubovoľné číslo v porovnaní s pôvodnými meraniami súboru údajov, je ťažké ho vizualizovať a použiť v reálnom svete. Nájdenie odchýlky je zvyčajne len posledným krokom pred nájdením smerodajnej odchýlky. Hodnoty odchýlok sa niekedy používajú vo finančných a štatistických vzorcoch.
Štandardná odchýlka, ktorá je vyjadrená v pôvodných jednotkách sady údajov, je oveľa intuitívnejšia a bližšie k hodnotám pôvodného súboru údajov. Najčastejšie sa používa na analýzu demografických údajov alebo vzoriek populácie, aby sa získal pocit, čo je v populácii bežné.
V normálnom rozdelení spadá približne 68% populácie (alebo hodnôt) do 1 štandardnej odchýlky (1σ) od priemeru a približne 94% spadá do 2σ. Hodnoty, ktoré sa líšia od priemeru o 1,7σ alebo viac, sa zvyčajne považujú za odľahlé hodnoty.
V praxi sa systémy kvality, ako je Six Sigma, snažia znížiť mieru chýb tak, aby sa chyby stali otvorenými. Pojem „proces so šiestimi sigma“ vychádza z myšlienky, že ak má človek šesť štandardných odchýlok medzi strednou hodnotou procesu a najbližším limitom špecifikácie, prakticky žiadne položky nespĺňajú špecifikácie..[1]
V aplikáciách v reálnom svete použité súbory údajov zvyčajne reprezentujú vzorky populácie, nie celé populácie. Mierne upravený vzorec sa používa, ak sa majú závery z celej populácie vyvodiť z čiastočnej vzorky.
„Štandardná odchýlka vzorky“ sa používa, ak všetko, čo máte, je vzorka, ale chcete urobiť vyhlásenie o štandardnej odchýlke populácie, z ktorej sa vzorka čerpá.
Jediný spôsob, ako sa vzorec štandardnej odchýlky vzorky líši od vzorca štandardnej odchýlky, je v menovateli „-1“.
Ak použijeme príklad púpavy, tento vzorec by bol potrebný, ak by sme vzorkovali iba 6 púpav, ale chceli by sme použiť túto vzorku na stanovenie smerodajnej odchýlky pre celé pole so stovkami púpav..
Súčet štvorcov by sa teraz delil 5 namiesto 6 (n - 1), čo dáva rozptyl 8,7 (namiesto 7,25) a vzorovú štandardnú odchýlku 2,95 palca namiesto 2,69 palca pre pôvodnú štandardnú odchýlku. Táto zmena sa používa na nájdenie miery chyby vo vzorke (v tomto prípade 9%).