Egy statisztikai tesztben a p-érték (angolul p-érték a valószínűségi értékre ), amelyet néha p-értéknek is neveznek , annak valószínűsége, hogy egy nullhipotézis szerint egy adott statisztikai modell megkapja ugyanazt az értéket vagy egy további értéket. a megfigyeltnél szélsőségesebb.
A p-érték használata számos kutatási területen általános, mint például a fizika , a pszichológia , a közgazdaságtan és az élettudományok .
A p-érték az eredmények statisztikai szignifikanciájának nullhipotézis alapján történő számszerűsítésére szolgál . Az általános elképzelés annak meghatározása, hogy a nullhipotézis igaz-e vagy sem, mert ha mégis, akkor a megfigyelt eredmény nagyon valószínűtlen lenne. Mint ilyen, ez a bizonyítás elvének kiterjesztése abszurditás útján .
Statisztikailag szignifikáns eredmény valószínűtlen, ha a nullhipotézis (amely általában a normát képviseli) igaz lenne. Ebből következik, hogy a nullhipotézis nem vonatkozik a megfigyelt eredményre, és ezért a vizsgált eset jelentősen eltér a standardtól, és így különösen érdekes.
Erkölcsileg példaként képzelje el, hogy ismerjük a törvényt, amely elosztja az emberek súlyát a túlsúlyos népességben, és hogy egy "karcsúsító" kezelést tesztelünk egy embercsoporton. Értékeljük a csoport átlagos súlyát a kezelés után, és a kezdeti törvény alapján ellenőrizzük, hogy az eredmény valószínű-e vagy valószínűtlen. Ha "valószínűtlen", akkor a kezelés hatékony.
Statisztikai értelemben a p-értéket úgy értelmezzük, hogy az eredmény valószínűsége legalább olyan "szélsőséges", mint a megfigyelt eredmény, "a nullhipotézis ismeretében", vagy ha a standard valószínűségi jelölést úgy vesszük, hogy x megkapjuk a megfigyelt eredményt és H 0 a nullhipotézist naivan definiálhatjuk a p-értéket:
A „valószínűtlen” p-érték eredménye (az elfogadandó konvenciók szerint) azt jelenti, hogy a megfigyelt kísérlet nem követi a nullhipotézist, de nem engedi, hogy a stricto sensu tovább tolja az értelmezést. A p-érték nem értelmezhető a nullhipotézis valószínűségeként, és nem felel meg az előző jelölés alapján a P ( H 0 | x ) -nek, ellentétben az olykor adott téves értelmezéssel.
Egy farok teszt, ha X a véletlen változó, és a megfigyelt értéknek az adatokat, akkor a p-érték: .
Az egyoldalú teszt a bal oldalon, ha X a véletlen változó, és a megfigyelt értéknek az adatokat, akkor a p-érték: .
Egy két-farkú tesztet, ha X a véletlen változó, és a megfigyelt értéknek az adatokat, akkor a p-érték: . Az X sűrűségfüggvényének adott esetben egyszerűen írhatunk, ahogyan az ábrán látható.
Ezt a számot használják az inferenciális statisztikákban a statisztikai teszt eredményének következtetésére. Az általánosan alkalmazott eljárás abból áll, hogy összehasonlítjuk a p-értéket egy előre meghatározott küszöbértékkel (hagyományosan 5%). Ha a p-érték kisebb, mint ez a küszöb, akkor a nullhipotézist elutasítják az alternatív hipotézis mellett, és a teszt eredményét "statisztikailag szignifikánsnak" nyilvánítják. Ellenkező esetben, ha a p-érték nagyobb, mint a küszöb, akkor nem utasítjuk el a nullhipotézist, és semmit sem vonhatunk le a megfogalmazott hipotézisekről.
A p-érték ilyen használata megkérdőjeleződik, lásd ennek az oldalnak a kritikáit tartalmazó szakaszát, mert ez nem engedi megválaszolni azt a kérdést, amelyre állítólag választ ad, és tanácsos lenne legalább felhagyni a használatával. ebben az összefüggésben.
Ronald Fisher statisztikus bevezette a jelentőség, a nullhipotézis és a p-érték használatát. A statisztikai hatalom fogalmát azonban elutasította : szerinte a nullhipotézist soha nem lehet elfogadni, csak a statisztikai teszt utasíthatja el. Ebben a megközelítésben a p-értéket annak mérésére vesszük, hogy az adatok mennyire érvelnek a nullhipotézissel szemben. Általában a következő küszöbértékeket vesszük figyelembe:
Ha ezek az értékek klasszikusak és általános használatban vannak, akkor is teljesen önkényesek maradnak, és így olyan megállapodást alkotnak, amelyet bizonyos területeken nem fogadnak el, amelyek nagyon nagy pontosságot igényelnek.
A egzakt tudományok , a tudósok már régóta szükséges egy statisztikai szignifikancia megfelelő eltérést legalább 3 standard deviáció vizsgálni egy kísérleti eredményt, mint egy lehetséges felfedezés, amely megfelel a p-érték legfeljebb egyenlő 2,7 × 10 -3 , vagy megközelítőleg -25,7 decibán ). De a hamis pozitív eredmények nagy száma , vagyis a fenti meghatározás szerint az első típusú hibák nagy száma arra késztette a tudományos közösséget, hogy statisztikai szignifikanciát követeljen meg, amely megfelel legalább 5 szórás különbségének , ami legfeljebb 5,7 × 10 −7 , azaz megközelítőleg -62,5 decibánnak felel meg egy p-értéknek (abban az esetben, ha az eltérés mindkét oldalon lehetséges, azaz - mondjuk nem nulla hatás pozitív vagy negatív) vagy 2,9 × 10 −7 (csak az egyik oldalon).
Érdeklődéssel konzultálunk a témával kapcsolatos legutóbbi feljegyzésről, különös tekintettel az 1. táblázatban bemutatott tapasztalati visszajelzésekre. A szerző az egyszerű statisztikai szignifikancia tárgyalását kiterjeszti a feltételezett felfedezés „meglepetésszintjére” és a „hatására” is (táblázat 2), vagy ahogy Laplace már mondta : "Minél rendkívülibb tény, annál inkább erős bizonyítékokkal kell alátámasztani". Ebben találunk kockázatértékelési fogalmakat , ahol a kriticitási mátrix egyesíti az előfordulás valószínűségét és a figyelembe vett jelenség súlyosságát.
Jerzy Neyman lengyel matematikus és Egon Sharpe Pearson brit statisztikus alternatív elméleti keretet dolgoztak ki.
Megközelítésükben az adatgyűjtés előtt meg kell határozni a hibaarányokat:
A teszt statisztikai erejét , amely egyenlő 1 - β-val, előzetesen szabályozunk és meghatározunk. Ezután ki kell számolni az ilyen statisztikai teljesítmény eléréséhez begyűjtendő adatok számát, amelyhez meg kell becsülni az adatok varianciáját: ehhez korábbi tanulmányokat vagy kísérleti tanulmányt használunk.
Az adatok összegyűjtésekor kiszámítják a p-értéket, és a következő döntést hozzák:
A döntést az adatgyűjtés végén mechanikusan kell meghozni. A szignifikancia fogalma elutasításra kerül: ha az előre meghatározott küszöbérték 0,05, akkor a 0,001 p-érték nem tekinthető jelentősebbnek, mint a 0,049-es p-érték, mindkét esetben a meghozott döntés ugyanaz.
Ez az eljárás elméletileg lehetővé teszi, hogy döntéseket hozzanak az adatok értelmezéséről, miközben hosszú távon megfelelően ellenőrzik a hibaarányokat. Ezen hibaarányok érvényessége azonban az eljárás szigorú betartásától függ: új adatok gyűjtésétől, ha a p-érték "majdnem jelentős", vagy pedig a p-érték kiszámításától az egész összegyűjtése előtt. a kísérlet leállítása, ha azt jelentősnek találják, érvényteleníti a hibaarányokat. Így a hibaarányok hatékony ellenőrzése attól függ, hogy a kutatók mit tennének valójában, ha olyan eredményekkel szembesülnének, amelyekre nem számítottak, és nem attól, hogy mit mondanának, vagy akár azt mondanák, hogy tennének. Másrészt, ha ismertek a hosszú távú hibaarányok, akkor az adott kísérlet statisztikai tesztje eredményeként a téves hipotézis védelmének valószínűsége nem ismert. Ezek a korlátozások vezettek a bayesi megközelítés kialakulásához .
A p-érték nem annak valószínűsége, hogy a teszthipotézis igaz. A p-érték azt jelzi, hogy az adatok mennyire felelnek meg a teszt hipotézisének és hipotéziseinek (azaz az alapul szolgáló statisztikai modellnek).
Tegyük fel, hogy érme dobáló játék . A H 0 nullhipotézis az, hogy az érme kiegyensúlyozott, vagyis hogy egy adott sorsolás valószínűsége a verem megszerzéséhez megegyezik a farok megszerzésének valószínűségével :12. Egy megfigyelő kísérleti nyomatokat hajt végre annak megállapítására, hogy a használt alkatrész elfogult-e vagy sem.
4 'verem' 4 nyomtatáshozTegyük fel, hogy a megfigyelő 4 döntetlent és 4 farkat kap .
A megfigyelő elvégzi ennek az eredménynek a valószínűségszámítását. Ha az érme kiegyensúlyozott ( H 0 hipotézis ), akkor 4 egymást követő ütés valószínűsége megegyezik12 4vagy 0,0625 vagy 6,25%. Ha a megfigyelő megtartotta a klasszikus 5% -os küszöbértéket, akkor a kísérlet arra a következtetésre jut, hogy az elvégzett kísérlethez szükséges elemek aránya nem szignifikánsan nagyobb, mint a várt arány, és nem teszi lehetővé azt a következtetést, hogy az alkatrész elfogult a választottnál keretrendszer. Ez az eredmény azonban nem teszi lehetővé azt a következtetést, hogy fordítva: a rész nem elfogult.
5 'verem' 5 nyomtatáshozTegyük fel, hogy a megfigyelő folytatja felhívja és kap 5 eredmény farka ki 5 döntetlen.
A megfigyelő újra elvégzi az elméleti valószínűségszámítást, ha a H 0 hipotézis teljesül. Ebben az összefüggésben 5 egymást követő halom megszerzésének valószínűsége megegyezik12 5vagy 0,03125 vagy 3,125%. Ha a megfigyelő megtartotta a klasszikus 5% -os küszöbértéket, akkor a kísérlet arra a következtetésre jut, hogy az akkumulátor aránya az elvégzett kísérlethez képest lényegesen nagyobb, mint a várt arány, és valószínű, hogy a H 0 hipotézis nem vagy nem fog igazolni 5% -os szignifikancia szinten, mert ha a H 0- t ellenőriznék, ez az eredmény valószínűtlen lenne (kevesebb, mint 5% az esély az alkalmazott szokásos küszöbérték szerint). Ez az eredmény azonban nem jelenti azt, hogy 95% az esély arra, hogy az alkatrész elfogult legyen.
17 'verem' 36 nyomathozTegyük fel, hogy a megfigyelő új érmével kezdi , és 36 húzásból 17 farkat kap .
A megközelítés megegyezik az előző példákéval, a fő különbség az eredmény valószínűségének kiszámításában van.
A kísérletező ezt követően n -szer dobja fel az érmét, és X- szel jelöljük a hozzá tartozó véletlen változót , amely ezért B ( n , p ) binomiális eloszlást követ . Az érme nem ferdén, ha a valószínűsége, hogy egy farok egyenlő a valószínűsége, hogy egy farok, vagyis a nullhipotézis jelentése H 0 : p =12az alternatív H 1 hipotézissel szemben : p >12(választhattuk a H 1-et is : p ≠12vagy H 1 : p <12). Ehhez a hipotézishez tesztet tehetünk a binomiális eloszlás arányáról . Ezután kapjunk vizsgálati statisztika Z amelyek aszimptotikusan következőképpen egy csökkentett központú normális eloszlás . Az érték p annak valószínűsége, hogy a modellt, hogy az imént megadott a null hipotézist, az amelynek értéke szélsőségesebb, mint amit megfigyeltünk (a vizsgálati statisztika), vagyis annak, P ( Y > Z ) és Y egy csökkentette a közepes normál változót és z a tesztstatisztika elérését.
Numerikus példa a fenti példával: tegyük fel, hogy az ember 17 próbálkozást (vagy sikert) szerez 36 próbálkozással. A teszt tesztstatisztikájának megvalósítása a binomiális eloszlás arányára a következő lesz:
.A p-érték Y -vel van , csökkent középpontos normális eloszlást követve.
A p-érték nagyobb, mint 0,05, így a nullhipotézist nem utasítják el.
A statisztikai teszt eredményeként a p-érték felhasználása nagyon okos kérdés, több okból is. Először formális szempontból a p értéke a H 0 hipotézis (P ( x | H 0 )) alapján egy adatkészlet megfigyelésének valószínűségét jelöli , míg a teszt elvégzésével arra törekszünk, hogy mi annak a valószínűsége, hogy H 0 igaz az adatok (P ( H 0 | x )) alapján. Most Bayes-tételből nyilvánvaló , hogy P ( x | H 0 ) ≠ P ( H 0 | x ), ebben az esetben, mivel:
Tehát David Colquhoun azt a következtetést vonja le: "Arra a következtetésre jutottak, hogy ha hamis felfedezési arányát 5% alatt akarja tartani, akkor a 68-95-99,7 szabályt vagy 0,001-nél kisebb p-értéket kell használnia " .
Tehát az értéket soha nem szabad felhasználni egy hipotézis adatokból történő hitelesítésére, mivel nem ezt számítják ki.