Medián (statisztika)

A valószínűségelméletben és a statisztikában a medián az az érték, amely elválasztja a halmaz alsó felét a halmaz felső felétől ( minta , populáció , valószínűségeloszlás ). Intuitív módon a medián tehát az egész középpontja. A sorozat központi tendencia mutatója . Meghatározhatunk egy mediánt egy nem numerikus érték halmazához, amennyiben választhatunk egy kritériumot ezeknek az értékeknek a rendezéséhez.

Számítási módszer

Általános megközelítés

Az értékkészlet mediánjának meghatározásához elegendő az értékeket növekvő listában rendezni, és kiválasztani azt az értéket, amely a lista közepén található. Az n elem rendezett listája esetén, n értéke páratlan, az elem értéke (n + 1) / 2 a medián. Ha az elemek n száma páros, akkor az (n-1) / 2 és (n + 1) / 2 pozícióban lévő elemek közötti bármely érték medián; a gyakorlatban egy számlista esetén ennek a két központi értéknek a számtani átlaga a leggyakrabban használt .

A összetettsége az algoritmus kiszámításához a medián ezért bonyolítja a rendezési algoritmus alkalmazható, nevezetesen a O ( n log n ) a legjobb .

Példák

Egyéb megközelítés

Az értékkészlet mediánjának meghatározásához elegendő kiszámítani a növekvő kumulatív százalékokat, és annak a sorozatnak az első értékét vesszük, amelynek kumulatív százaléka meghaladja az 50% -ot.

Ez a módszer praktikusabb, ha nagy számú értéke van.

Az algoritmusok hatékonysága

Vannak lineáris komplexitású algoritmusok (O ( n ) -ben ), ezért hatékonyabbak. Ezek olyan algoritmusok, amelyek általában lehetővé teszik n elem listájának k- edik elemének meghatározását (lásd: Kiválasztási algoritmus ); k = n / 2 a mediánra. Ezek a rendezési algoritmusok adaptációi, de hatékonyabbak, mert nem minden érték érdekel minket. Például az osztás és meghódítás algoritmust csak O ( n ) műveletekben használhatjuk; a QuickSelect algoritmus esetén módosítsa a gyors rendezést ( quicksort ), amely általában O ( n ) -ben van, de a legrosszabb esetben O ( n 2 ) -ben is lehet .

A gyakorlatban, ha n egész számból álló lista mediánját keressük , és ha szerencsénk van arra, hogy az m maximális érték kisebb, mint n 2 (ez a megállapítás O ( n ) költségbe kerül ), akkor a számlálás rendezése , végrehajtása nagyon könnyű, és amelynek költsége ebben az esetben az O ( m ) műveletek lehetővé teszik a medián megszerzését kevesebb, mint O ( n 2 ) műveleteknél. Ez az eset különösen az 5-nél több tanulóból álló osztályzatok (tizedesjegyek nélkül) 20 osztályából áll (5 négyzet nagyobb, mint 20).

Statisztikai diszperzió mérés

Amikor a medián segítségével az értékeket megkeresik a leíró statisztikákban, a változékonyság kifejezésére különböző lehetőségek állnak rendelkezésre: tartomány , interkvartilis tartomány és abszolút tartomány . Mivel a medián értéke megegyezik a második kvartilis értékével , kiszámítását a kvartilisekről szóló cikk részletezi .

Mediánok a valószínűségi eloszlásokban

Minden valós valószínűségeloszlás esetén az m medián kielégíti az egyenlőséget:

azaz az eloszlás függvényében  :

Tehát diffúz valószínűségi eloszláshoz (folyamatos eloszlásfüggvény):

Egyes eloszlások mediánjai

Minden szimmetrikus eloszlás esetén a medián egyenlő az elvárással.

Mediánok a leíró statisztikákban

A mediánt elsősorban torz eloszlásokra használják, mert jobban képviseli őket, mint a számtani átlag. Tekintsük az {1, 2, 2, 2, 3, 9} halmazt. A medián 2, csakúgy, mint a mód, amely jobban méri a központi tendenciát, mint a 3,166 számtani középértéke .

A medián kiszámítása általában a különböző eloszlások ábrázolására szolgál, és könnyen érthető és kiszámítható. Szélsőséges értékek jelenlétében az átlagosnál is robusztusabb.

Elméleti tulajdonságok

Optimális tulajdonság

A medián az a központi érték is, amely minimalizálja az abszolút eltérések átlagértékét. A korábban megadott {1, 2, 2, 2, 3, 9} sorozatban ez az (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 lenne, és nem 1,944 az átlagtól, ami például részéről minimalizálja a másodfokú eltéréseket. A valószínűségelméletben a c érték minimalizálja

az X véletlen változó valószínűségi eloszlásának mediánja .

Az eszközök és a mediánok közötti egyenlőtlenség

Folyamatos valószínűségi eloszlások esetén a medián és az elvárás közötti különbség legfeljebb egy szórás .

Megjegyzések és hivatkozások

  1. "A medián kiszámítása" , Kanadai Statisztika .
  2. Fabrice Mazerolle, "  Medián  " ,2012(megtekintés : 2012. február 13. ) .
  3. [ (en)  Szelekció (determinisztikus és randomizált): a medián megtalálása lineáris időben ]

Lásd is

Kapcsolódó cikkek

Külső linkek