A statisztika, a kifejezés köznapi értelmében, a matematikával foglalkozik a populáció csoportos vizsgálatában. A leíró statisztikákban megelégszünk egy minta megadásával olyan mennyiségekből, mint az átlag, a medián, a szórás, az arány, a korreláció stb. A népszámlálásoknál gyakran ezt a technikát alkalmazzák.
Tágabb értelemben a statisztikai elméletet a kutatás során következtetési célokra használják. A statisztikai következtetés célja egy adott populáció portréjának megrajzolása a többé-kevésbé homályos képből, amely e populációból vett minta felhasználásával készült.
Egy másik megjegyzés, hogy léteznek „matematikai” statisztikák is, ahol a kihívás az ésszerű (elfogulatlan és hatékony) becslések megtalálása. Ezen becslések matematikai tulajdonságainak elemzése áll a statisztikára szakosodott matematikus munkájának középpontjában.
A matematikai statisztikák a valószínűségelméleten alapulnak . Az olyan fogalmakat, mint a mérhetőség vagy a jogi konvergencia, gyakran használják ott. De meg kell különböztetnünk a statisztikát mint tudományágat és a statisztikát az adatok függvényében.
Miután megszerezték a valószínűségelmélet alapjait , argumentumokkal meg lehet határozni a statisztikát egy mérhető függvényből . Amikor az értékek ugyanazon véletlen változó realizációi , akkor megjegyezzük:
A törvény csak a törvény törvényétől és formájától függ .
Egy valós véletlen változó eloszlásfüggvénye (ez a meghatározás természetesen kiterjed a véletlen változókra is, amelyek értéke bármilyen dimenziós térben található), egy olyan értékkel társítja annak a valószínűségét, hogy a megvalósítása kisebb, mint :
Ha van megvalósításai , tudjuk építeni a empirikus eloszlásfüggvény a következőképpen (mi jelöljük a e rendelt értékét , és mi önkényesen és ):
hasonlóképpen az empirikus eloszlás meghatározható (bármely boréliai esetében ):
A Glivenko-Cantelli tétel biztosítja az empirikus eloszlásfüggvény konvergenciáját az eredeti eloszlásfüggvényhez, mivel a minta mérete a végtelenségig növekszik.
Mivel ez a két empirikus függvény nem folytonos, gyakran előnyben részesítjük a kernelbecslőket , amelyek azonos konvergencia tulajdonságokkal rendelkeznek.
Általában többféle statisztikát határozunk meg az alábbiak szerint :
Ennek a megkülönböztetésnek az az előnye, hogy a statisztikák minden kategóriájának megvannak a maga jellemzői.
A magbecslők és az eloszlás empirikus mozzanatai az M-statisztikák.
A mintából számított törvény empirikus rendezési mozzanata :
Ez a . A rend centrikus momentuma az . A variancia a 2. rend középpontja.
Vegyünk egy populációt, amelyből tisztán véletlenszerű módon n méretű mintát vonunk ki, amelynek elemei vannak . Ebben az esetben a populáció átlagát becslő leíró statisztika az empirikus átlag
Az átlag körüli diszperziót becslő statisztika az empirikus variancia
Annak a valószínűsége törvény ezzel kapcsolatos népesség átlagos μ és σ szórás 2 , amely a becslések szerint , és . A probléma az, hogy ha másik mintát választottunk volna, akkor ezekre a becslésekre más értékeket találtunk volna.
Ez ahhoz vezet, hogy az elemeket, az empirikus átlagot és az empirikus varianciát véletlenszerű változóknak tekintjük. Ezek a változók egy adott valószínűségi törvényt követnek. Amint megismerjük ezeket a valószínűségi törvényeket, meg lehet építeni a statisztikai teszteket, amelyek szükségesek az érdekes paraméterek tanulmányozásához (μ és σ 2 ebben a példában).
A megfigyelések közötti függetlenség feltétele mellett kiszámíthatjuk az átlagot (vagy várakozást) és az empirikus átlag varianciáját. Azt kapjuk :
Az empirikus átlag szórása σ / √n. Ha n nagy lesz, a Központi Határ Tétel azt tanítja, hogy az empirikus átlag normál eloszlást követ, amelyet az μ átlag és ez a szórás jellemez. Ez az eredmény a minta nagyságától függetlenül érvényes marad, ha a populációhoz rendelt valószínűségi eloszlás normális. Ez utóbbi esetben, amely a gyakorlatban különösen fontos, megmutatjuk azt is, hogy (n-1) s 2 / σ 2 n-1 szabadságfokú χ 2 törvényt követ .
Ezek az eredmények a becslés szempontjából közvetlenül értelmezhetők.
A becslési probléma a konfidencia intervallumokkal függ össze. Az elképzelés célja egy paraméter becslése, amelyhez a minta ingadozásához kapcsolódó pontosságra vonatkozó elképzelés társul.
Itt van egy nagyon konkrét példa az átlag konfidencia intervallumára.
Az elv ismertetéséhez vegyünk egy meglehetősen mesterséges példát, amelynek az egyszerűsége az előnye: egy állítólag normális populáció átlagának ( ) becslése , amelynek a szórását ( ) ismernénk . Az előző bekezdés szerint az empirikus átlag normális eloszlást is követ, amelynek szórását elosztjuk a faktorral .
Mivel a normális eloszlás valószínűségi táblázatai ismertek, meghatározhatjuk, hogy az empirikus átlag köré centrált intervallum % -os eséllyel tartalmazza a valódi átlagot. A gyakorlatban gyakran 95-nél rögzítik. Ha rögzít (például 95-nél), akkor a normál eloszlás ismeretében határozza meg a konfidencia intervallum hosszát. Itt van ennek a nagyon konkrét esetnek a 95% -os konfidencia intervalluma.
lásd még a Student törvényét .
A statisztikai hipotézis egy vagy több populáció paramétereit érinti. Nem tudjuk ellenőrizni, csak akkor utasíthatjuk el, ha a megfigyelések ellentmondani látszanak vele. Arra a következtetésre jutunk, hogy a hipotézis (amely a populációt érinti) alapján a megfigyelt érték nagyon valószínűtlen.
Az első lépés a nullhipotézis megvalósítása . Gyakran ez a feltételezés az, amit hamisnak vélnek.
Példa a nullhipotézisekre:
A nullhipotézis a populáció paramétereire (valódi értékeire) vonatkozik.
Minden statisztikai teszthez van egy pontos mérték vagy statisztika (a minket érdeklő paramétertől függően), amely egy ismert valószínűségi törvényt követ. Ez a statisztika a mintában megfigyelt és a populációban posztulált adatok közötti különbség mértékének tekinthető (nullhipotézis). Minél nagyobb ez a mérték, annál kisebb a bekövetkezés valószínűsége. Ha ez az előfordulás valószínűsége túl kicsi, hajlamosak vagyunk elutasítani a nullhipotézist, és ezért arra a következtetésre jutunk, hogy a nullhipotézis hamis.
Olyan tesztekre vonatkozik, amelyek feltételezik, hogy a vizsgálandó változók egy bizonyos, paraméterekkel leírt eloszlást követnek. Sok paraméteres teszt olyan változókat érint, amelyek követik a normális eloszlást. A t teszt független vagy párosított mintákhoz, ANOVA , többszörös regresszió , Wald-teszt stb.
Itt van egy példa egy tesztre, amely a law² törvényt használja . A tesztek sokasága használja azonban ezt a valószínűségi törvényt: Mc Nemar, modell illesztési tesztek, elosztási illesztési tesztek stb.
Példa:
Azon gondolkodunk, vajon a populációból vett minta megfelel-e egy hipotetikus valószínűség-eloszlásnak.
A méret szerinti mintát oszlik méret osztályok , mint az építkezés egy hisztogram, egy különbséggel: ez lehet használni osztályok változó szélességű, még azt is ajánlott elkerülni, hogy túlságosan nagy. Kicsi. Ezzel az elővigyázatossággal a Központi Határ Tétele többdimenziós változatában azt jelzi, hogy a populációs vektor megközelítőleg Gauss-vektorként viselkedik.
A valószínűség törvénye viszont megadja az egyes osztályokhoz valószínőséget . Ilyen körülmények között a kifejezés
amely oly módon reprezentálja a távolságot az empirikus adatokat, a feltételezett valószínűsége jog követi a valószínűsége törvény χ 2 a szabadsági fokkal.
A χ 2 táblázatai lehetővé teszik annak eldöntését, hogy el kell-e utasítani a hipotézist azáltal, hogy előzetesen rögzítjük a tévedés kockázatát.
Ha egy valószínűségi törvény esetét vesszük figyelembe, amelynek paraméterei (általában az átlag és a szórás) ismeretlenek, akkor a χ 2 minimalizálása ezekre a paraméterekre vonatkozóan becslést ad rájuk.