Matematikai statisztika

A statisztika, a kifejezés köznapi értelmében, a matematikával foglalkozik a populáció csoportos vizsgálatában. A leíró statisztikákban megelégszünk egy minta megadásával olyan mennyiségekből, mint az átlag, a medián, a szórás, az arány, a korreláció stb. A népszámlálásoknál gyakran ezt a technikát alkalmazzák.

Tágabb értelemben a statisztikai elméletet a kutatás során következtetési célokra használják. A statisztikai következtetés célja egy adott populáció portréjának megrajzolása a többé-kevésbé homályos képből, amely e populációból vett minta felhasználásával készült.

Egy másik megjegyzés, hogy léteznek „matematikai” statisztikák is, ahol a kihívás az ésszerű (elfogulatlan és hatékony) becslések megtalálása. Ezen becslések matematikai tulajdonságainak elemzése áll a statisztikára szakosodott matematikus munkájának középpontjában.

Statisztikai

A matematikai statisztikák a valószínűségelméleten alapulnak . Az olyan fogalmakat, mint a mérhetőség vagy a jogi konvergencia, gyakran használják ott. De meg kell különböztetnünk a statisztikát mint tudományágat és a statisztikát az adatok függvényében.

Miután megszerezték a valószínűségelmélet alapjait , argumentumokkal meg lehet határozni a statisztikát egy mérhető függvényből . Amikor az értékek ugyanazon véletlen változó realizációi , akkor megjegyezzük: $S$ $nem$ $x_ {1}, \ ldots, x_ {n}$ $x$

$S (X) = S (x_ {1}, \ ldots, x_ {n})$

A törvény csak a törvény törvényétől és formájától függ . $S (X)$ $x$ $S$

Elosztási funkciók

Egy valós véletlen változó eloszlásfüggvénye (ez a meghatározás természetesen kiterjed a véletlen változókra is, amelyek értéke bármilyen dimenziós térben található), egy olyan értékkel társítja annak a valószínűségét, hogy a megvalósítása kisebb, mint : $x$ $x$ $x$ $x$

$F (x) = {{\ rm {Prob}}} (X \ leq x)$

Ha van megvalósításai , tudjuk építeni a empirikus eloszlásfüggvény a következőképpen (mi jelöljük a e rendelt értékét , és mi önkényesen és ): $nem$ $x$ $x$ $x _ {{(k)}}$ $k$ $x_ {1}, \ ldots, x_ {n}$ $x _ {{0}} = - \ infty$ $x _ {{n + 1}} = + \ infty$

$F_ {n} ^ {*} (x) = {k \ over n}, \, \ forall x \ in] x _ {{(k)}}, x _ {{(k + 1)}}]$

hasonlóképpen az empirikus eloszlás meghatározható (bármely boréliai esetében ): $B$

${\ mathbf {P}} _ {n} ^ {*} (B) = {1 \ felett n} \ összeg _ {{k = 1}} ^ {n} {\ mathbf {1}} _ {{x_ {k}}} (B)$

A Glivenko-Cantelli tétel biztosítja az empirikus eloszlásfüggvény konvergenciáját az eredeti eloszlásfüggvényhez, mivel a minta mérete a végtelenségig növekszik. $nem$

Mivel ez a két empirikus függvény nem folytonos, gyakran előnyben részesítjük a kernelbecslőket , amelyek azonos konvergencia tulajdonságokkal rendelkeznek.

A statisztikák típusai

Általában többféle statisztikát határozunk meg az alábbiak szerint : $S$

az L-statisztikák, amelyek a megbízások statisztikai kombinációi,
az M-statisztikák, amelyeket egy véletlen változó megvalósításának függvényeként adunk meg,
az U-statisztikák , amelyeket integrálok formájában fejeznek ki .

Ennek a megkülönböztetésnek az az előnye, hogy a statisztikák minden kategóriájának megvannak a maga jellemzői.

A magbecslők és az eloszlás empirikus mozzanatai az M-statisztikák.

A mintából számított törvény empirikus rendezési mozzanata $k$ : $x_ {1}, \ ldots, x_ {n}$

$\ mu _ {n} ^ {{(k)}} (X) = {1 \ n felett} \ sum _ {{i = 1}} ^ {n} x_ {i} ^ {k}$

Ez a . A rend centrikus momentuma az . A variancia a 2. rend középpontja. $E (X ^ {k})$ $k$ $E ((XE (X)) ^ {k})$

Példa statisztikákra: átlag és szórás

Vegyünk egy populációt, amelyből tisztán véletlenszerű módon n méretű mintát vonunk ki, amelynek elemei vannak . Ebben az esetben a populáció átlagát becslő leíró statisztika az empirikus átlag $x_ {i}$

m = {1 \ felett n} \ összeg _ {{i = 1}} ^ {n} x_ {i}

Az átlag körüli diszperziót becslő statisztika az empirikus variancia

s ^ {2} = {1 \ n-1 felett \ \ _ _ {{i = 1}} ^ {n} (x_ {i} -m) ^ {2}

Annak a valószínűsége törvény ezzel kapcsolatos népesség átlagos μ és σ szórás 2 , amely a becslések szerint , és . A probléma az, hogy ha másik mintát választottunk volna, akkor ezekre a becslésekre más értékeket találtunk volna. $m$ ${\ displaystyle s ^ {2}}$

Ez ahhoz vezet, hogy az elemeket, az empirikus átlagot és az empirikus varianciát véletlenszerű változóknak tekintjük. Ezek a változók egy adott valószínűségi törvényt követnek. Amint megismerjük ezeket a valószínűségi törvényeket, meg lehet építeni a statisztikai teszteket, amelyek szükségesek az érdekes paraméterek tanulmányozásához (μ és σ 2 ebben a példában).

A megfigyelések közötti függetlenség feltétele mellett kiszámíthatjuk az átlagot (vagy várakozást) és az empirikus átlag varianciáját. Azt kapjuk :

E [m] = \ mu \ qquad \ qquad V [m] = \ sigma ^ {2} / n

Az empirikus átlag szórása σ / √n. Ha n nagy lesz, a Központi Határ Tétel azt tanítja, hogy az empirikus átlag normál eloszlást követ, amelyet az μ átlag és ez a szórás jellemez. Ez az eredmény a minta nagyságától függetlenül érvényes marad, ha a populációhoz rendelt valószínűségi eloszlás normális. Ez utóbbi esetben, amely a gyakorlatban különösen fontos, megmutatjuk azt is, hogy (n-1) s 2 / σ 2 n-1 szabadságfokú χ 2 törvényt követ .

Becslés

Ezek az eredmények a becslés szempontjából közvetlenül értelmezhetők.

Az empirikus átlag és az empirikus variancia becslést ad a populáció átlagára és szórására.
Ezek a becslések azért közelítenek egymáshoz, mert szórásaik nulla felé hajlanak, mivel a minta nagysága a végtelenségig növekszik.
Elfogulatlanok, mert határuk megegyezik a becsülendő értékkel.

A becslési probléma a konfidencia intervallumokkal függ össze. Az elképzelés célja egy paraméter becslése, amelyhez a minta ingadozásához kapcsolódó pontosságra vonatkozó elképzelés társul.

Itt van egy nagyon konkrét példa az átlag konfidencia intervallumára.

Az elv ismertetéséhez vegyünk egy meglehetősen mesterséges példát, amelynek az egyszerűsége az előnye: egy állítólag normális populáció átlagának ( ) becslése , amelynek a szórását ( ) ismernénk . Az előző bekezdés szerint az empirikus átlag normális eloszlást is követ, amelynek szórását elosztjuk a faktorral . $m$ $\ sigma$ ${\ sqrt n}$

Mivel a normális eloszlás valószínűségi táblázatai ismertek, meghatározhatjuk, hogy az empirikus átlag köré centrált intervallum % -os eséllyel tartalmazza a valódi átlagot. A gyakorlatban gyakran 95-nél rögzítik. Ha rögzít (például 95-nél), akkor a normál eloszlás ismeretében határozza meg a konfidencia intervallum hosszát. Itt van ennek a nagyon konkrét esetnek a 95% -os konfidencia intervalluma. $x$ $x$ $x$

$[m - {{1,96 \ sigma} \ felett {\ sqrt n}} \; m + {{1,96 \ sigma} \ felett {\ sqrt n}}]$

lásd még a Student törvényét .

Hipotézis tesztek

A statisztikai hipotézis tesztelés általános koncepciója

A statisztikai hipotézis egy vagy több populáció paramétereit érinti. Nem tudjuk ellenőrizni, csak akkor utasíthatjuk el, ha a megfigyelések ellentmondani látszanak vele. Arra a következtetésre jutunk, hogy a hipotézis (amely a populációt érinti) alapján a megfigyelt érték nagyon valószínűtlen.

Az első lépés a nullhipotézis megvalósítása . Gyakran ez a feltételezés az, amit hamisnak vélnek.

Példa a nullhipotézisekre:

Két populáció két jelentése egyenlő,
Két változó közötti korreláció nulla,
Nincs összefüggés az életkor és a látásélesség stb.

A nullhipotézis a populáció paramétereire (valódi értékeire) vonatkozik.

Minden statisztikai teszthez van egy pontos mérték vagy statisztika (a minket érdeklő paramétertől függően), amely egy ismert valószínűségi törvényt követ. Ez a statisztika a mintában megfigyelt és a populációban posztulált adatok közötti különbség mértékének tekinthető (nullhipotézis). Minél nagyobb ez a mérték, annál kisebb a bekövetkezés valószínűsége. Ha ez az előfordulás valószínűsége túl kicsi, hajlamosak vagyunk elutasítani a nullhipotézist, és ezért arra a következtetésre jutunk, hogy a nullhipotézis hamis.

Parametrikus teszt

Olyan tesztekre vonatkozik, amelyek feltételezik, hogy a vizsgálandó változók egy bizonyos, paraméterekkel leírt eloszlást követnek. Sok paraméteres teszt olyan változókat érint, amelyek követik a normális eloszlást. A t teszt független vagy párosított mintákhoz, ANOVA , többszörös regresszió , Wald-teszt stb.

Test² teszt

Itt van egy példa egy tesztre, amely a law² törvényt használja . A tesztek sokasága használja azonban ezt a valószínűségi törvényt: Mc Nemar, modell illesztési tesztek, elosztási illesztési tesztek stb.

Példa:

Azon gondolkodunk, vajon a populációból vett minta megfelel-e egy hipotetikus valószínűség-eloszlásnak.

A méret szerinti mintát oszlik méret osztályok , mint az építkezés egy hisztogram, egy különbséggel: ez lehet használni osztályok változó szélességű, még azt is ajánlott elkerülni, hogy túlságosan nagy. Kicsi. Ezzel az elővigyázatossággal a Központi Határ Tétele többdimenziós változatában azt jelzi, hogy a populációs vektor megközelítőleg Gauss-vektorként viselkedik. $nem$ $k$ $vagy$ $(n_ {1}, ..., n_ {k})$

A valószínűség törvénye viszont megadja az egyes osztályokhoz valószínőséget . Ilyen körülmények között a kifejezés $p_ {i}$

\ sum _ {{i = 1}} ^ {k} {{(n_ {i} -np_ {i}) ^ {2}} \ felett {np_ {i}}}

amely oly módon reprezentálja a távolságot az empirikus adatokat, a feltételezett valószínűsége jog követi a valószínűsége törvény χ 2 a szabadsági fokkal. $k-1$

A χ 2 táblázatai lehetővé teszik annak eldöntését, hogy el kell-e utasítani a hipotézist azáltal, hogy előzetesen rögzítjük a tévedés kockázatát.

Ha egy valószínűségi törvény esetét vesszük figyelembe, amelynek paraméterei (általában az átlag és a szórás) ismeretlenek, akkor a χ 2 minimalizálása ezekre a paraméterekre vonatkozóan becslést ad rájuk.

Lásd is

Bibliográfia

Denis Bosq, Matematikai és statisztikai folyamatstatisztika . Hermes / Lavoisier, 2012.
Benoît Cadre, Céline Vial, Matematikai statisztika, korrigált órák és gyakorlatok , Ellipszisek, 2012.
Gilles Stoltz, Vincent Rivoirard, Matematikai statisztika akcióban , Vuibert, 2012.
Jean-Pierre Favre , Vezetési matematika , Digilex, 2009 ( ISBN 978-2-940404-01-8 ) .
Borokov, AA (1999), Matematikai statisztika . Taylor és Francis ( ISBN 90-5699-018-7 ) .
Didier Pelat , Bruits et Signaux (bevezetés az adatfeldolgozási módszerekbe): a véletlen változók statisztikája .
PE Greenwood és MS Nikulin, Útmutató a chi-négyzet teszteléséhez , John Wiley és Sons, 1996.
en) George Casella és Roger Berger , statisztikai következtetés , Brooks / Cole,2001, 2 nd ed.