A valószínűségelméletben és a statisztikában a medián az az érték, amely elválasztja a halmaz alsó felét a halmaz felső felétől ( minta , populáció , valószínűségeloszlás ). Intuitív módon a medián tehát az egész középpontja. A sorozat központi tendencia mutatója . Meghatározhatunk egy mediánt egy nem numerikus érték halmazához, amennyiben választhatunk egy kritériumot ezeknek az értékeknek a rendezéséhez.
Az értékkészlet mediánjának meghatározásához elegendő az értékeket növekvő listában rendezni, és kiválasztani azt az értéket, amely a lista közepén található. Az n elem rendezett listája esetén, n értéke páratlan, az elem értéke (n + 1) / 2 a medián. Ha az elemek n száma páros, akkor az (n-1) / 2 és (n + 1) / 2 pozícióban lévő elemek közötti bármely érték medián; a gyakorlatban egy számlista esetén ennek a két központi értéknek a számtani átlaga a leggyakrabban használt .
A összetettsége az algoritmus kiszámításához a medián ezért bonyolítja a rendezési algoritmus alkalmazható, nevezetesen a O ( n log n ) a legjobb .
Példák
Az értékkészlet mediánjának meghatározásához elegendő kiszámítani a növekvő kumulatív százalékokat, és annak a sorozatnak az első értékét vesszük, amelynek kumulatív százaléka meghaladja az 50% -ot.
Ez a módszer praktikusabb, ha nagy számú értéke van.
Vannak lineáris komplexitású algoritmusok (O ( n ) -ben ), ezért hatékonyabbak. Ezek olyan algoritmusok, amelyek általában lehetővé teszik n elem listájának k- edik elemének meghatározását (lásd: Kiválasztási algoritmus ); k = n / 2 a mediánra. Ezek a rendezési algoritmusok adaptációi, de hatékonyabbak, mert nem minden érték érdekel minket. Például az osztás és meghódítás algoritmust csak O ( n ) műveletekben használhatjuk; a QuickSelect algoritmus esetén módosítsa a gyors rendezést ( quicksort ), amely általában O ( n ) -ben van, de a legrosszabb esetben O ( n 2 ) -ben is lehet .
A gyakorlatban, ha n egész számból álló lista mediánját keressük , és ha szerencsénk van arra, hogy az m maximális érték kisebb, mint n 2 (ez a megállapítás O ( n ) költségbe kerül ), akkor a számlálás rendezése , végrehajtása nagyon könnyű, és amelynek költsége ebben az esetben az O ( m ) műveletek lehetővé teszik a medián megszerzését kevesebb, mint O ( n 2 ) műveleteknél. Ez az eset különösen az 5-nél több tanulóból álló osztályzatok (tizedesjegyek nélkül) 20 osztályából áll (5 négyzet nagyobb, mint 20).
Amikor a medián segítségével az értékeket megkeresik a leíró statisztikákban, a változékonyság kifejezésére különböző lehetőségek állnak rendelkezésre: tartomány , interkvartilis tartomány és abszolút tartomány . Mivel a medián értéke megegyezik a második kvartilis értékével , kiszámítását a kvartilisekről szóló cikk részletezi .
Minden valós valószínűségeloszlás esetén az m medián kielégíti az egyenlőséget:
azaz az eloszlás függvényében :
Tehát diffúz valószínűségi eloszláshoz (folyamatos eloszlásfüggvény):
Minden szimmetrikus eloszlás esetén a medián egyenlő az elvárással.
A mediánt elsősorban torz eloszlásokra használják, mert jobban képviseli őket, mint a számtani átlag. Tekintsük az {1, 2, 2, 2, 3, 9} halmazt. A medián 2, csakúgy, mint a mód, amely jobban méri a központi tendenciát, mint a 3,166 számtani középértéke .
A medián kiszámítása általában a különböző eloszlások ábrázolására szolgál, és könnyen érthető és kiszámítható. Szélsőséges értékek jelenlétében az átlagosnál is robusztusabb.
A medián az a központi érték is, amely minimalizálja az abszolút eltérések átlagértékét. A korábban megadott {1, 2, 2, 2, 3, 9} sorozatban ez az (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 lenne, és nem 1,944 az átlagtól, ami például részéről minimalizálja a másodfokú eltéréseket. A valószínűségelméletben a c érték minimalizálja
az X véletlen változó valószínűségi eloszlásának mediánja .
Folyamatos valószínűségi eloszlások esetén a medián és az elvárás közötti különbség legfeljebb egy szórás .