Medián (statisztika)

A valószínűségelméletben és a statisztikában a medián az az érték, amely elválasztja a halmaz alsó felét a halmaz felső felétől ( minta , populáció , valószínűségeloszlás ). Intuitív módon a medián tehát az egész középpontja. A sorozat központi tendencia mutatója . Meghatározhatunk egy mediánt egy nem numerikus érték halmazához, amennyiben választhatunk egy kritériumot ezeknek az értékeknek a rendezéséhez.

Számítási módszer

Általános megközelítés

Az értékkészlet mediánjának meghatározásához elegendő az értékeket növekvő listában rendezni, és kiválasztani azt az értéket, amely a lista közepén található. Az n elem rendezett listája esetén, n értéke páratlan, az elem értéke (n + 1) / 2 a medián. Ha az elemek n száma páros, akkor az (n-1) / 2 és (n + 1) / 2 pozícióban lévő elemek közötti bármely érték medián; a gyakorlatban egy számlista esetén ennek a két központi értéknek a számtani átlaga a leggyakrabban használt .

A összetettsége az algoritmus kiszámításához a medián ezért bonyolítja a rendezési algoritmus alkalmazható, nevezetesen a O ( n log n ) a legjobb .

Példák

7 egész szám halmaza : {12; 5; 6; 89; 5; 2390; 1}. A válogatás után, a sorozat 1, 5, 5, 6, 12, 89, 2390. A medián a 4 -én eleme a sorozat, így 6: négy értéket a beállított kevesebb vagy egyenlő, mint 6, és a négy nagyobb, mint vagy egyenlő 6-tal.
6 egészből álló készlet: {12; 5; 6; 89; 5; 1}. A válogatás után, a sorozat 1, 5, 5, 6, 12, 89. Bármely közötti érték a 3 rd , és a 4 -én elemeit ebben a sorozatban, tehát 5 és 6 közötti, lehet választani, mint a medián. Három elem kisebb vagy egyenlő, mint 5,6, három pedig nagyobb, mint az, tehát az 5,6 egy medián, de ugyanígy az 5,141, az 5,9 vagy az 5,5 is. Ezt az utolsó értéket általában mediánnak vesszük, mivel ez a két központi 5 és 6 számtani átlaga.
Tegyük fel, hogy 21 ember van egy szobában. Mindegyik előveszi a pénzt a zsebéből, és egy asztalra teszi: 20 ember letesz 5 eurót, az utolsó pedig 10 000 eurót. A medián az elrendezett 5, 5, 5, 5,…, 5, 10 000 lista központi eleme, a tizenegyedik. Ezért 5: egyenként tizenegy ember legalább 5 eurót, tizenegy pedig legfeljebb 5 eurót tarthat. Észrevesszük, hogy ha a leggazdagabb ember nem vett volna részt rajta, akkor a medián azonos lett volna (5 €), de az átlag gyökeresen megváltozott (5 € 480,95 € helyett ).
A Wikipédia 50 felhasználójának kifejezett felméréséből kiderül, hogy a megkérdezettek közül 12-en azt mondják, hogy nagyon elégedettek, 7-en nagyon elégedetlenek, 20-an kissé elégedettek, a többiek pedig szerintük kissé elégedetlenek. Ez a válaszkészlet az elégedettség növelésével rendezhető, és ötven tételből álló listát kapunk ebben a sorrendben: 7 nagyon elégedetlen, 11 kissé elégedetlen, 20 kissé elégedett, 12 nagyon elégedett. A két központi eleme, a 25 -én , és a 26 -én , ugyanaz az érték: „inkább elégedett”. Ez az érték tehát az összes válasz mediánértéke.

Egyéb megközelítés

Az értékkészlet mediánjának meghatározásához elegendő kiszámítani a növekvő kumulatív százalékokat, és annak a sorozatnak az első értékét vesszük, amelynek kumulatív százaléka meghaladja az 50% -ot.

Ez a módszer praktikusabb, ha nagy számú értéke van.

Az algoritmusok hatékonysága

Vannak lineáris komplexitású algoritmusok (O ( n ) -ben ), ezért hatékonyabbak. Ezek olyan algoritmusok, amelyek általában lehetővé teszik n elem listájának k- edik elemének meghatározását (lásd: Kiválasztási algoritmus ); k = n / 2 a mediánra. Ezek a rendezési algoritmusok adaptációi, de hatékonyabbak, mert nem minden érték érdekel minket. Például az osztás és meghódítás algoritmust csak O ( n ) műveletekben használhatjuk; a QuickSelect algoritmus esetén módosítsa a gyors rendezést ( quicksort ), amely általában O ( n ) -ben van, de a legrosszabb esetben O ( n 2 ) -ben is lehet .

A gyakorlatban, ha n egész számból álló lista mediánját keressük , és ha szerencsénk van arra, hogy az m maximális érték kisebb, mint n 2 (ez a megállapítás O ( n ) költségbe kerül ), akkor a számlálás rendezése , végrehajtása nagyon könnyű, és amelynek költsége ebben az esetben az O ( m ) műveletek lehetővé teszik a medián megszerzését kevesebb, mint O ( n 2 ) műveleteknél. Ez az eset különösen az 5-nél több tanulóból álló osztályzatok (tizedesjegyek nélkül) 20 osztályából áll (5 négyzet nagyobb, mint 20).

Statisztikai diszperzió mérés

Amikor a medián segítségével az értékeket megkeresik a leíró statisztikákban, a változékonyság kifejezésére különböző lehetőségek állnak rendelkezésre: tartomány , interkvartilis tartomány és abszolút tartomány . Mivel a medián értéke megegyezik a második kvartilis értékével , kiszámítását a kvartilisekről szóló cikk részletezi .

Mediánok a valószínűségi eloszlásokban

Minden valós valószínűségeloszlás esetén az m medián kielégíti az egyenlőséget:

{\ displaystyle \ operátornév {P} (X \ leq m) \ geq {\ frac {1} {2}} {\ text {et}} \ operatorname {P} (X \ geq m) \ geq {\ frac { 1} {2}} \, \!}

azaz az eloszlás függvényében :

F_ {X} (m) = 1- \ lim _ {{x \ m-ig {-}}} F_ {X} (x).

Tehát diffúz valószínűségi eloszláshoz (folyamatos eloszlásfüggvény):

F_ {X} (m) = {\ frac {1} {2}}.

Egyes eloszlások mediánjai

Minden szimmetrikus eloszlás esetén a medián egyenlő az elvárással.

A várakozás μ és a σ 2 variancia normális eloszlásának mediánja μ. Ehhez az eloszláshoz az elvárás = medián = mód .
Az [ a , b ] intervallumban a folyamatos egyenletes eloszlás mediánja ( a + b ) / 2, ami szintén elvárás .
A medián Cauchy-törvény a helyzetét kritérium x 0 és skálaparaméter y jelentése x 0 , a helyzet kritériumot.
Az exponenciális törvény mediánja a λ léptéktényezővel a 2 természetes logaritmusának osztása a skála faktorral, azaz (ln 2) / λ.
A Weibull-eloszlás mediánja a k alaktényezővel és a λ léptéktényezővel λ (log 2) 1 / k .

Mediánok a leíró statisztikákban

A mediánt elsősorban torz eloszlásokra használják, mert jobban képviseli őket, mint a számtani átlag. Tekintsük az {1, 2, 2, 2, 3, 9} halmazt. A medián 2, csakúgy, mint a mód, amely jobban méri a központi tendenciát, mint a 3,166 számtani középértéke .

A medián kiszámítása általában a különböző eloszlások ábrázolására szolgál, és könnyen érthető és kiszámítható. Szélsőséges értékek jelenlétében az átlagosnál is robusztusabb.

Elméleti tulajdonságok

Optimális tulajdonság

A medián az a központi érték is, amely minimalizálja az abszolút eltérések átlagértékét. A korábban megadott {1, 2, 2, 2, 3, 9} sorozatban ez az (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 lenne, és nem 1,944 az átlagtól, ami például részéről minimalizálja a másodfokú eltéréseket. A valószínűségelméletben a c érték minimalizálja

E (\ bal | Xc \ jobb |) \,

az X véletlen változó valószínűségi eloszlásának mediánja .

Az eszközök és a mediánok közötti egyenlőtlenség

Folyamatos valószínűségi eloszlások esetén a medián és az elvárás közötti különbség legfeljebb egy szórás .

Megjegyzések és hivatkozások

"A medián kiszámítása" , Kanadai Statisztika .
Fabrice Mazerolle, " Medián " ,2012(megtekintés : 2012. február 13. ) .
[ (en) Szelekció (determinisztikus és randomizált): a medián megtalálása lineáris időben ]