Szórásjelző

A statisztikákban egy diszperziós mutató egy statisztikai sorozat értékeinek változékonyságát méri . Mindig pozitív és annál nagyobb, mivel a sorozat értékei eloszlanak. A leggyakoribbak a variancia , a szórás és az interkvartilis tartomány .

Ezek a mutatók kiegészítik a pozíció vagy központi tendencia indikátorok által szolgáltatott információkat , átlaggal vagy mediánnal mérve .

A gyakorlatban ez azt az iparban , laboratóriumokban vagy metrológia , ahol a méréseket , a diszperzió által becsült szórás .

Hatály

A tartomány a statisztikai karakter maximális és minimális értéke közötti különbség: $x max - x min$ .

Példa: vagy egy sor intézkedés: {8, 1, 2, 3, 7, 10, 9}; az $x max$ maximális értéke 10, a minimális $x min$ értéke 1. Ezért ennek a statisztikai sorozatnak a tartománya 10-1 = 9 .

Interquartilis tartomány

Az interkvartilis tartomány a különbség a harmadik és az első kvartilis között .

Interkvartilis tartomány = Q 3 - Q 1

Ez megfelel a statisztikai sorozat terjedelmének, miután eltávolította a legalacsonyabb értékek 25% -át és a legmagasabb értékek 25% -át. Ez a mutató robusztusabb, mint a szélső értékekre érzékeny tartomány.

Szétszóródás az átlag körül

Az átlag kiszámítása után megtudhatjuk, hogy az értékek hogyan távolodnak el tőle. Ezután új statisztikai sorozat jön létre: az eltérések sora. ${\ bar x}$

e_ {i} = x_ {i} - {\ bar x}

Közepes különbség

Ezen eltérések átlaga jó mutatónak tűnhet, de az átlag tulajdonságai nullává teszik. Valójában ezen eltérések egy része negatív, mások pozitívak, a pozitív eltérések összege pontosan ellensúlyozza a negatív eltérések összegét. A jeltől elvonatkoztatva kiszámoljuk az eltérések abszolút értékének átlagát , vagyis az átlagos eltérést .

Variancia

Az abszolút értékek nem differenciálhatók , nem kompatibilisek bizonyos elemzésekkel. Ahhoz, hogy a különbségek pozitívak legyenek , ezután négyzetre állunk. Az így kiszámított eltérések négyzetének átlaga a szórás , amelyet a következőképpen fejezünk ki:

${\ displaystyle V = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} ^ {2} = {\ frac {1} {n}} \ sum _ { i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}$ válogatás nélküli diszkrét sorozat esetén ;
${\ displaystyle V = {\ frac {\ sum _ {i = 1} ^ {n} n_ {i} (x_ {i} - {\ bar {x}}) ^ {2}} {\ sum _ {i = 1} ^ {n} n_ {i}}} = \ sum _ {i = 1} ^ {n} f_ {i} (x_ {i} - {\ bar {x}}) ^ {2}}$ csoportosított diszkrét sorozat esetén;
${\ displaystyle V = {\ frac {\ sum _ {i = 1} ^ {n} n_ {i} (m_ {i} - {\ bar {x}}) ^ {2}} {\ sum _ {i = 1} ^ {n} n_ {i}}} = \ sum _ {i = 1} ^ {n} f_ {i} (m_ {i} - {\ bar {x}}) ^ {2}}$ folytonos sorozat esetén .

Az abszolút értékek eltűnése egyszerűbb számításokat tesz lehetővé. Megmutatjuk, hogy a variancia egyszerűbben kiszámítható a következő képletekkel:

$V = {\ frac 1n} \ sum _ {{i = 1}} ^ {n} x_ {i} ^ {2} - {\ bar x} ^ {2}$ válogatás nélküli diszkrét sorozat esetén;
$V = {\ frac {\ sum _ {{i = 1}} ^ {n} n_ {i} x_ {i} ^ {2}} {\ sum _ {{i = 1}} ^ {n} n_ { i}}} - {\ bar x} ^ {2} = \ sum _ {{i = 1}} ^ {n} f_ {i} x_ {i} ^ {2} - {\ bar x} ^ {2 }$ csoportosított diszkrét sorozat esetén;
$V = {\ frac {\ sum _ {{i = 1}} ^ {n} n_ {i} m_ {i} ^ {2}} {\ sum _ {{i = 1}} ^ {n} n_ { i}}} - {\ bar x} ^ {2} = \ sum _ {{i = 1}} ^ {n} f_ {i} m_ {i} ^ {2} - {\ bar x} ^ {2 }$ folytonos sorozat esetén.

Szórás

A négyzetes eltérések miatt a variancia egysége a karakterisztika négyzete ( pl. Ha a jellemző kg-ban van , akkor az átlaga kg-ban van , de szórása kg 2-ben van ), d 'ahol az összeadás lehetetlen az átlag és a variancia. Ezért definiáljuk a szórást , amelyet $σ$ jelölünk , mint a variancia gyökerét; egysége tehát megegyezik az átlagéval. Az átlag és a szórás hozzáadásának lehetősége alapvető, különösen a konfidencia intervallumok kiszámításához (lásd alább).

$\ sigma = {\ sqrt {{\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} (x_ {i} - \ overline {x}) ^ {2}}}$ válogatás nélküli diszkrét sorozat esetén;
$\ sigma = {\ sqrt {{\ dfrac {\ sum _ {{i = 1}} ^ {n} n_ {i} (x_ {i} - \ overline {x}) ^ {2}} {\ sum _ {{i = 1}} ^ {n} n_ {i}}}}} = {\ sqrt {\ sum _ {{i = 1}} ^ {n} f_ {i} (x_ {i} - \ overline {x}) ^ {2}}}$ csoportosított diszkrét sorozat esetén;
$\ sigma = {\ sqrt {{\ dfrac {\ sum _ {{i = 1}} ^ {n} n_ {i} (m_ {i} - \ overline {x}) ^ {2}} {\ sum _ {{i = 1}} ^ {n} n_ {i}}}}} = {\ sqrt {\ sum _ {{i = 1}} ^ {n} f_ {i} (m_ {i} - \ overline {x}) ^ {2}}}$ folytonos sorozat esetén.

A szórás tulajdonságai Invariáció fordítással A szórás nem változik, ha a statisztikai sorból egy konstans hozzáadódik vagy kivonásra kerül. Ha

y i = x i + C,

akkor

σ y = σ x

. Stabilitás állandóval szorozva Ha egy sort pozitív konstanssal szorzunk, akkor a szórást megszorozzuk ugyanazzal az állandóval. Ha

y i = K x i,

akkor

σ y = K σ x

. Pozitivitás A szórás mindig pozitív; csak akkor nulla, ha a statisztikai sorozat állandó. Érzékenység a szélsőséges értékekre Az átlaghoz hasonlóan a szórás is érzékeny a szélsőségekre vagy a kiugró értékekre, és néha szükséges ezeket az értékeket kiküszöbölni a szórás kiszámítása előtt. Relatív szórás

Két olyan statisztikai sorozat összehasonlításához, amelyek nagyságrendje nem azonos, néha jó összehasonlítani a szórást és az átlagot a hányados felvételével, ekkor megkapjuk a relatív szórást. . $\ sigma / \ overline {x}$

Megjegyzés: a relatív szórást variációs együtthatónak is nevezzük .

Bizalomintervallum vagy a normalitás tartománya

Amikor a statisztikai karakter Gauss- normális eloszlású, nagyjából harang alakú, akkor a szórásnak van értelme:

addig a lakosság 68% -át találjuk; $[{\ bar x} - \ sigma, {\ bar x} + \ sigma]$
addig a lakosság 95% -át megtaláljuk; $[{\ bar x} -2 \ sigma, {\ bar x} +2 \ sigma]$
addig a lakosság 99,7% -át találjuk. $[{\ bar x} -3 \ sigma, {\ bar x} +3 \ sigma]$

Ezek az intervallumok a 68% -os, 95% -os, 99,7% -os konfidenciaszint normális tartományok (lásd a 68-95-99,7 szabályt ).

R sorrend átmérõi

Ha ponthalmazunk van , például a síkban, akkor megmérhetjük a pontok diszperzióját a különböző pontok párjai közötti távolságok felhasználásával . Ezután az r sorrend átmérőjét (ahol r nem nulla valós) hívjuk az együtthatónak . Az átmérője érdekében 0 definiáljuk, mint a határérték, ha a $d$ $i$ $,$ $j$ minden nem nulla, a $D$ $r$ , a $r$ hajló 0. $(M_ {i}) _ {{i = 1, ..., n}}$ $d _ {{i, j}}$ ${\ displaystyle D_ {r} = \ balra ({\ frac {2} {n (n-1)}} \ sum _ {i <j} {d_ {i, j}} ^ {r} \ jobbra) ^ {\ frac {1} {r}}}$

Nicolas Gauvrit és Jean-Paul Delahaye kimutatták, hogy a diszperzió intuitív fogalmának megragadásához a lehető legjobb érték (az r sorrend átmérője között ) a 0 sorrend átmérője: ez felel meg a legjobban annak, amit felnőtt alanyoknak kérnek diszperziós becslésekhez.

Minimális kérdés

A medián az az érték, amely minimalizálja az f által definiált függvényt

$f (X) = {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} | x_ {i} -X |$ abban az esetben a sorozat diszkrét válogatni nem konszolidált .

Az átlag az az érték, amely minimalizálja az g által definiált függvényt

$g (X) = {\ sqrt {{\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} (x_ {i} -X) ^ {2}}}$ válogatatlan diszkrét sorozat esetén.
$g (X) = {\ sqrt {{\ dfrac {\ sum _ {{i = 1}} ^ {n} n_ {i} (x_ {i} -X) ^ {2}} {\ sum _ {{ i = 1}} ^ {n} n_ {i}}}}} = {\ sqrt {\ sum _ {{i = 1}} ^ {n} f_ {i} (x_ {i} -X) ^ { 2}}}$ csoportosított diszkrét sorozat esetén.
$g (X) = {\ sqrt {{\ dfrac {\ sum _ {{i = 1}} ^ {n} n_ {i} (m_ {i} -X) ^ {2}} {\ sum _ {{ i = 1}} ^ {n} n_ {i}}}}} = {\ sqrt {\ sum _ {{i = 1}} ^ {n} f_ {i} (m_ {i} -X) ^ { 2}}}$ folytonos sorozat esetén .

Megjegyzések és hivatkozások

N. GAUVRIT és J.-P. Delahaye, „ A átmérője érdekében 0, egy természetes intézkedés elterjesztésének ”, Matematika és humán tudományok , n o 175,2006, P. 41–51 ( online olvasás ).