Varianciaelemzés
Varianciaelemzés
A statisztikák , az elemzést variancia (kifejezés gyakran rövidítve a angol kifejezés ANOVA : egy ELEMZÉSE o f va riance ) egy sor statisztikai modellek segítségével ellenőrizhető, hogy az eszköz a csoportok érkeznek ugyanabból a populációból. A csoportok megfelelnek a kvalitatív változó módszereinek (pl. Változó: kezelés; módok: sportedzési program , étrend-kiegészítők ; placebo ), és az átlagokat egy folyamatos változóból (pl. Izomgyarapodás) számolják.
Ezt a tesztet akkor alkalmazzuk, amikor egy vagy több kategorikus magyarázó változót mérünk (akkor variációs tényezőknek nevezzük, amelyek különböző módozatait néha „szinteknek” nevezik), amelyek befolyásolják a magyarázandó folyamatos változó törvényét. Egyfaktoros elemzésről akkor beszélünk, amikor az elemzés egyetlen variabilitási faktor, kétfaktoros elemzés vagy egyébként többtényezős elemzés által leírt modellhez kapcsolódik.
Történelem
Ronald Aylmer Fisher először mutatja be a variancia kifejezést, és formális elemzését javasolja egy 1918-as cikkben: A rokonok közötti összefüggés a mendeli öröklés feltételezésével . A varianciaanalízis első alkalmazását 1921-ben tették közzé. A variancia-elemzés széles körben ismertté vált, miután bekerült Fisher 1925-ben megjelent Statisztikai módszerek kutatómunkákhoz című könyvébe .
Elv
A varianciaanalízis lehetővé teszi a kvantitatív változó viselkedésének tanulmányozását egy vagy több kvalitatív változó függvényében, más néven kategorikus névlegesnek. Amikor egyszerre több kvalitatív változó magyarázó erejét akarjuk tanulmányozni, akkor többszörös varianciaanalízist ( MANOVA ) fogunk használni . Ha egy modell kategorikus és folyamatos magyarázó változót tartalmaz, és tanulmányozni kívánja azokat a törvényeket, amelyek a folyamatos magyarázó változókat összekapcsolják a magyarázandó kvantitatív változóval a kategorikus változók egyes kategóriái szerint, akkor a kovariancia elemzését ( ANCOVA ) kell használni.
Modell
A varianciaanalízis első lépése az elméleti modell megírása a vizsgálandó probléma szerint. Gyakran lehet több modellt írni ugyanarra a problémára, azoknak az elemeknek megfelelően, amelyeket be akar integrálni a tanulmányba.
Az általános modell a következő:
yénjk...=μ+f(én,j,k,...)+ε {\ displaystyle y_ {ijk ...} = \ mu + f (i, j, k, ...) + \ varepsilon ~}
a megmagyarázandó kvantitatív változóval állandó, összefüggés a magyarázó változók és a mérési hiba között. Felveti azt az alapvető feltételezést, hogy a hiba normális eloszlást követ .
yénjk...{\ displaystyle y_ {ijk ...}}μ{\ displaystyle \ mu}f{\ displaystyle f}ε{\ displaystyle \ varepsilon}ε=NEM(0,σ2){\ displaystyle \ varepsilon = {\ mathcal {N}} (0, \ sigma ^ {2})}
Magyarázó változók
A kategorikus változóknak két típusa van: véletlenszerű hatással vagy anélkül.
Rögzített hatású változó esetén minden modalitáshoz tartozik egy megfelelő rögzített érték. Az elméleti modell nagybetűvel van megírva:
yén=μ+NÁL NÉLén+εén {\ displaystyle y_ {i} = \ mu + A_ {i} + \ varepsilon _ {i} ~}
a i = 0, az i = 1, stb
NÁL NÉL0=NÁL NÉL{\ displaystyle A_ {0} = A}NÁL NÉL1=NÁL NÉL{\ displaystyle A_ {1} = A}
Ne feledje, hogy a kvantitatív változó mindig megegyezik az µ-vel növelt értékkel (bár pozitív vagy negatív értékeket is felfoghat).
yén{\ displaystyle y_ {i}}NÁL NÉLén{\ displaystyle A_ {i}}NÁL NÉLén{\ displaystyle A_ {i}}
Abban az esetben, egy olyan változó, egy véletlen hatás , a változó eredményeket egy feltételezett normális eloszlás, amelyet hozzáadunk a rögzített értéket. Az elméleti modellben kis görög betűvel íródtak:
yén=μ+αén+ϵén {\ displaystyle y_ {i} = \ mu + \ alpha _ {i} + \ epsilon _ {i} ~}
a ésαén=μnál nél+εα{\ displaystyle \ alpha _ {i} = \ mu _ {a} + \ varepsilon _ {\ alpha}}εα=NEM(0,σα2){\ displaystyle \ varepsilon _ {\ alpha} = {\ mathcal {N}} (0, \ sigma _ {\ alpha} ^ {2})}
A csak rögzített és véletlen hatású magyarázó változókon alapuló modellt kevert modellnek nevezzük.
Alapvető feltételezések
A varianciaanalízis általános formája a Fisher-teszten , tehát az eloszlások normalitásán és a minták függetlenségén alapul.
- Az eloszlás normalitása: a nullhipotézis szerint feltételezzük, hogy a minták ugyanabból a populációból származnak és normális eloszlást követnek. Ezért ellenőrizni kell az eloszlások normalitását és a homoszkedaszticitást (a varianciák homogenitása, például Bartlett- vagy Levene- tesztekkel ). Ellenkező esetben használhatjuk a varianciaanalízis nemparaméteres változatait ( ANOVA Kruskal-Wallis vagy ANOVA Friedman ).
- A minták függetlensége: feltételezzük, hogy minden elemzett minta független a többi mintától. A gyakorlatban ez az a probléma, amely lehetővé teszi számunkra, hogy feltételezzük, hogy a minták függetlenek. A függő minták gyakori példája a replikátumokkal végzett mérések (mindegyik mintát többször elemzik). Függő minták esetében nemparaméteres esetekben ismételt mértékű varianciaanalízist vagy Friedman-féle ANOVA-t kell használni .
Vizsgálandó hipotézisek
A nullhipotézis megfelel annak az esetnek, amikor az eloszlások ugyanazt a normális eloszlást követik.
Az alternatív hipotézis az, hogy van legalább egy eloszlás, amelynek átlaga eltér a többi eszköztől:
{H0 : m1=m2=...=mk=mH1 : ∃(én,j) mint például mén≠mj{\ displaystyle {\ begin {cases} {H_ {0} ~: ~ m_ {1} = m_ {2} = ... = m_ {k} = m} \\ {H_ {1} ~: ~ \ létezik (i, j) ~ {\ text {például}} ~ m_ {i} \ neq m_ {j}} \ end {esetek}}}.
Varianciabontás
A varianciaanalízis első lépése az összes minta teljes varianciájának magyarázata abban áll, hogy a tényezők miatti variancia függvényében (a modell által magyarázott variancia), a tényezők közötti kölcsönhatás miatti variancia és a véletlenszerű maradék variancia (a variancia, amelyet a modell nem magyaráz meg). becslő torzító variancia lévén , a számításokhoz a négyzetes hibák összegét ( SCE French, SS a Sum Square English esetében) és a becslő elfogulatlan varianciáját (más néven átlagos négyzet vagy CM ) használják.
Snem2{\ displaystyle S_ {n} ^ {2}}Snem-12{\ displaystyle S_ {n-1} ^ {2}}
A mérés eltérése (implicit eltérés az átlagtól) a különbség e mérés és az átlag között:
e=yénjk...-y¯{\ displaystyle e = y_ {ijk ...} - {\ overline {y}}}.
Az SCE eltérések négyzeteinek összegét és a becslőt a következő képletek alapján számítják ki:
Snem-12{\ displaystyle S_ {n-1} ^ {2}}
SVSE=∑énjk...(yénjk...-y¯)2ésSnem-12=SVSEnem-1{\ displaystyle SCE = \ sum _ {ijk ...} (y_ {ijk ...} - {\ overline {y}}) ^ {2} \ qquad {\ text {és}} \ qquad S_ {n- 1} ^ {2} = {\ frac {SCE} {n-1}}}
Ezután felírható az összes eltérés négyzetének összege, amely lineáris összetételű az egyes magyarázó változók eltéréseinek négyzeteinek és az egyes interakciókhoz tartozó eltérések négyzetének összegének lineáris összetétele :
SVSEteljes{\ displaystyle SCE _ {\ text {total}}}SVSEtényező{\ displaystyle SCE _ {\ text {factor}}}SVSEkölcsönhatás{\ displaystyle SCE _ {\ text {interakció}}}
SVSEteljes=∑énSVSEpostásén+∑énjSVSEkölcsönhatásénj{\ displaystyle SCE _ {\ text {total}} = \ sum _ {i} {SCE _ {{\ text {factor}} _ {i}}} + \ sum _ {ij} {SCE _ {{\ text {interakció}} _ {ij}}}}
Ez a varianciabontás mindig érvényes, még akkor is, ha a változók nem követik a normális eloszlást.
Fisher-teszt
Feltételezés szerint a megfigyelt változó normális eloszlást követ . A χ 2 törvénye, ahol k szabadságfokot k normális négyzetváltozó összegeként határozunk meg , az eltérések négyzetösszegei a laws 2 törvényeit követik , a szabadság fokainak számával :
yén{\ displaystyle y_ {i}} SVSE{\ displaystyle SCE}DDL{\ displaystyle DDL}
SVSE∼χ2(DDL) {\ displaystyle SCE \ sim \ chi ^ {2} (DDL) ~}
A Fisher- t a két laws 2 törvény arányaként határozzuk meg . A nullhipotézis esetében két, a varianciát elfogulatlan becslő közötti kapcsolatnak Fisher törvényét kell követnie :
H0{\ displaystyle H_ {0}} SDDL2 {\ displaystyle S_ {DDL} ^ {2} ~}
F=S12S22=SVSE1DDL1SVSE2DDL2∼F(DDL1,DDL2){\ displaystyle F = {\ frac {S_ {1} ^ {2}} {S_ {2} ^ {2}}} = {\ frac {\ dfrac {SCE_ {1}} {DDL_ {1}}} { \ dfrac {SCE_ {2}} {DDL_ {2}}}} \ sim F (DDL_ {1}, DDL_ {2})}
Ha az F értéke nem kompatibilis ezzel a Fisher-törvénnyel (vagyis a értéke nagyobb, mint az elutasítási küszöb), akkor elutasítjuk a nullhipotézist: arra a következtetésre jutunk, hogy statisztikailag szignifikáns különbség van az eloszlások között. A variabilitási tényező nem különíti el a vizsgált populációt azonos csoportokra. Emlékeztetőül: az elutasítási küszöbértéket a referenciatáblázatokban előre kiszámítják, az első fajta kockázat és a szabadság és a két fok függvényében .
F{\ displaystyle F}Fα(DDL1,DDL2){\ displaystyle F _ {\ alpha} (DDL_ {1}, DDL_ {2})}α{\ displaystyle \ alpha}DDL1{\ displaystyle DDL_ {1}}DDL2{\ displaystyle DDL_ {2}}
"Post-hoc" tesztek
A varianciaanalízis egyszerűen lehetővé teszi a kérdés megválaszolását, hogy az összes minta ugyanazt a normális eloszlást követi-e. Ha elvetjük a nullhipotézist, ez az elemzés nem teszi lehetővé, hogy megtudjuk, mely minták térnek el ettől a törvénytől.
A megfelelő minták azonosítása különböző "post-hoc" tesztek (vagy több összehasonlítás (in) , MCP for Multiple Comparison Test ) segítségével. Ezek a tesztek általában megkövetelik az elemzés kockázatainak növelését (a statisztikai kockázat szempontjából). Ez egy általánosítás a Student t tesztjének két populációjának összehasonlítására a hiba kiigazításával (FDR, FWER stb.). Például: Ficher LSD-tesztjei, Newman-tesztjei -Keuls, Tukey HSD-tesztjei, Bonferroni és Sheffé tesztek.
Különösen a modern biológiában az MCP-tesztek lehetővé teszik a kockázat megfelelő figyelembevételét a nagyszámú elvégzett vizsgálat ellenére (például a biochipek elemzéséhez).
Ha több magyarázó változót elemzünk, mindegyik többféle modalitással, a lehetséges kombinációk száma gyorsan nagyon nagy lesz.
Egyirányú varianciaanalízis
Az egyirányú ANOVA néven is emlegetett egyirányú varianciaanalízis akkor alkalmazható, ha egyetlen variabilitási tényezőt kíván figyelembe venni.
Jelölések
Nézzük I minta mérete eredő I populációk, amelyek követik azt normális törvények azonos szórás. Minden egyén meg van írva , és . A teljes munkaerő .
Yén{\ displaystyle Y_ {i}}nemén{\ displaystyle n_ {i}}NEM(μén,σ2){\ displaystyle {\ mathcal {N}} (\ mu _ {i}, \ sigma ^ {2})}yénj{\ displaystyle y_ {ij}}én∈[1,én]{\ displaystyle i \ itt: [1, I]}j∈[1,nemén]{\ displaystyle j \ itt: [1, n_ {i}]}NEM=∑én=1énnemén{\ displaystyle N = \ sum _ {i = 1} ^ {I} n_ {i}}
A mintánkénti és az összes átlagot felírják:
yén,⋅¯=1nemén∑j=1neményénj∼NEM(μén,σ2nemén){\ displaystyle {\ overline {y_ {i, \ cdot}}} = {\ frac {1} {n_ {i}}} \ sum _ {j = 1} ^ {n_ {i}} {y_ {ij} } \ sim {\ mathcal {N}} \ balra (\ mu _ {i}, {\ frac {\ sigma ^ {2}} {n_ {i}}} \ jobbra)}
y⋅,⋅¯=1NEM∑én=1én∑j=1neményénj∼NEM(μ,σ2NEM)val vel NEM=∑én=1énnemén és μ=1NEM∑én=1én(neménμén){\ displaystyle {\ overline {y _ {\ cdot, \ cdot}}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {I} \ sum _ {j = 1} ^ {n_ {i}} {y_ {ij}} \ sim {\ mathcal {N}} \ bal (\ mu, {\ frac {\ sigma ^ {2}} {N}} \ jobb) \ qquad {\ text {with}} ~ N = \ sum _ {i = 1} ^ {I} n_ {i} ~ {\ text {és}} ~ \ mu = {\ frac {1} {N}} \ sum _ {i = 1} ^ {I} (n_ {i} \ mu _ {i})}
Varianciabontás
A modell leírása:
yénj=αén+ϵénj {\ displaystyle y_ {ij} = \ alpha _ {i} + \ epsilon _ {ij} ~}
Ilyen feltételek mellett megmutatjuk, hogy az eltérések négyzeteinek összege (és ezért a variancia ) egyszerűen kiszámítható a következő képlettel:
SVSEteljes=SVSEpostás+SVSEmaradék {\ displaystyle SCE _ {\ text {total}} = SCE _ {\ text {factor}} + SCE _ {\ text {residu}} ~}
A teljes variancia modellel magyarázható része ( más néven osztályok közötti variabilitás , SSB vagy az osztályok közötti négyzet összege ), és a teljes variancia azon része, amelyet a modell nem magyarázhat ( véletlenszerű variabilitásnak is nevezzük , osztályon belüli variabilitás , zaj , SSW vagy az osztályon belüli négyzet összege ) a következő képletekkel adhatók meg:
SVSEteljes{\ displaystyle SCE _ {\ text {total}}}SVSEpostás{\ displaystyle SCE _ {\ text {factor}}}SVSEteljes{\ displaystyle SCE _ {\ text {total}}}SVSEmaradék{\ displaystyle SCE _ {\ text {residu}}}
SVSEpostás=∑én=1onemén(yén¯-y¯)2{\ displaystyle SCE _ {\ text {factor}} = \ sum _ {i = 1} ^ {p} n_ {i} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2}}
SVSEmaradék=∑én=1o∑j=1nemén(yénj-yén¯)2{\ displaystyle SCE _ {\ text {residu}} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline { y_ {i}}}) ^ {2}}
Demonstráció
SVSEtotnál néll=∑én=1o∑j=1nemén(yénj-y¯)2{\ displaystyle SCE_ {total} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y}}) ^ {2}}.
Lebontva ,
yénj-y¯=(yénj-yén¯)+(yén¯-y¯){\ displaystyle ~ y_ {ij} - {\ overline {y}} = (y_ {ij} - {\ overline {y_ {i}}}) + ({\ overline {y_ {i}}} - {\ overline {y}})}
tudunk írni
SVSEtotnál néll=∑én=1o∑j=1nemén((yénj-yén¯)+(yén¯-y¯))2{\ displaystyle ~ SCE_ {total} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} ((y_ {ij} - {\ overline {y_ {i }}}) + ({\ overline {y_ {i}}} - {\ overline {y}})) ^ {2}}
=∑én=1o∑j=1nemén(yénj-yén¯)2+∑én=1o∑j=1nemén(yén¯-y¯)2+∑én=1o∑j=1nemén2(yénj-yén¯).(yén¯-y¯){\ displaystyle = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i}}}) ^ { 2} + \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2} + \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} 2 (y_ {ij} - {\ overline {y_ {i}}}) . ({\ overline {y_ {i}}} - {\ overline {y}})}.
Észrevette, hogy ,
∑én=1o∑j=1nemén(yénj-yén¯).(yén¯-y¯)=∑én=1o(yén¯∑j=1nemén(yénj-yén¯)-y¯∑j=1nemén(yénj-yén¯))=0{\ displaystyle ~ \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i}}}). ( {\ overline {y_ {i}}} - {\ overline {y}}) = \ sum _ {i = 1} ^ {p} ({\ overline {y_ {i}}} \ sum _ {j = 1 } ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i}}}) - {\ overline {y}} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i}}})) = 0}
tudunk írni
SVSEtotnál néll=∑én=1o∑j=1nemén(yénj-yén¯)2+∑én=1o∑j=1nemén(yén¯-y¯)2{\ displaystyle ~ SCE_ {total} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i} }}) ^ {2} + \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2}}
=∑én=1o∑j=1nemén(yénj-yén¯)2+∑én=1onemén(yén¯-y¯)2{\ displaystyle = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline {y_ {i}}}) ^ { 2} + \ sum _ {i = 1} ^ {p} n_ {i} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2}}
=SVSEmaradék+SVSEpostás {\ displaystyle = SCE _ {\ text {residu}} + SCE _ {\ text {factor}} ~}.
Maradékelemzés
Mindig lehetséges, hogy a modell nem megfelelő, és van egy ismeretlen (vagy feltételezhetően eleve haszontalan) variabilitási tényező, amely nincs integrálva a modellbe. Elemezni lehet a maradványok eloszlásának normalitását az ilyen típusú elfogultság keresése érdekében. A modell maradványainak normális eloszlást kell követniük ( ). A szokásos törvénytől való bármilyen jelentős eltérés grafikusan tesztelhető vagy vizualizálható:
NEM(0,σ2) {\ displaystyle {\ mathcal {N}} (0, \ sigma ^ {2}) ~}
Fisher-teszt
A szabadság fokai és
eltérései
Feltételezés szerint a megfigyelt változó
normális eloszlást követ . A
du² törvény a
szabadsági fokkal úgy definiáljuk, hogy az összeg a négyzetes
normális változók , az összegek négyzetek az eltérések kövesse az alábbi
χ 2 törvényeket , és a szintek számát a
tényező változékonyság és a teljes egyedszám:
yén{\ displaystyle y_ {i}}k{\ displaystyle k} k{\ displaystyle k} SVSE{\ displaystyle SCE}o{\ displaystyle p}NEM{\ displaystyle N}
SVSEpostás=∑én=1onemén(yén¯-y¯)2∼χ2(DDLpostás)val vel DDLpostás=∑én=1o-11=o-1{\ displaystyle SCE _ {\ text {factor}} = \ sum _ {i = 1} ^ {p} n_ {i} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2} \ sim \ chi ^ {2} (DDL _ {\ text {factor}}) \ qquad {\ text {}} ~ DDL _ {\ text {factor}} = \ sum _ {i = 1} ^ {p -1} 1 = p-1}
SVSEmaradék=∑én=1o∑j=1nemén(yénj-yén¯)2∼χ2(DDLmaradék)val vel DDLmaradék=∑én=1o(nemén-1)=(nem1-1)+(nem2-1)+⋯+(nemo-1)=NEM-o{\ displaystyle SCE _ {\ text {residu}} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {ij} - {\ overline { y_ {i}}}) ^ {2} \ sim \ chi ^ {2} (DDL _ {\ text {residu}}) \ quad {\ text {with}} ~ DDL _ {\ text {residu}} = \ sum _ {i = 1} ^ {p} (n_ {i} -1) = (n_ {1} -1) + (n_ {2} -1) + \ cdots + (n_ {p} -1) = Np}
A szórásokat úgy kapjuk meg, hogy az eltérések négyzetének összegét vesszük figyelembe a szabadság fokainak számában :
Spostás2=SVSEpostáso-1=1o-1∑én=1onemén(yén¯-y¯)2{\ displaystyle S _ {\ text {factor}} ^ {2} = {\ frac {SCE _ {\ text {factor}}} {p-1}} = {\ frac {1} {p-1}} \ sum _ {i = 1} ^ {p} n_ {i} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2}}
Smaradék2=SVSEmaradékNEM-o=1NEM-o∑én=1o∑j=1nemén(yénj-yén¯)2{\ displaystyle S _ {\ text {residu}} ^ {2} = {\ frac {SCE _ {\ text {residu}}} {Np}} = {\ frac {1} {Np}} \ sum _ { i = 1} ^ {p} \ sum _ {j = 1} ^ {n_ {i}} (y_ {i} ^ {j} - {\ overline {y_ {i}}}) ^ {2}}
A Fisher törvény úgy definiáljuk, mint az arány a két törvények χ 2 , a jelentés tehát az következik, egy Fisher Act :
Spostás2Smaradék2{\ displaystyle {\ frac {S _ {\ text {factor}} ^ {2}} {S _ {\ text {residu}} ^ {2}}}}
F=Spostás2Smaradék2=SVSEpostáso-1SVSEmaradékNEM-o∼F(o-1,NEM-o){\ displaystyle F = {\ frac {S _ {\ text {factor}} ^ {2}} {S _ {\ text {residu}} ^ {2}}} = {\ frac {\ dfrac {SCE _ { \ text {faktor}}} {p-1}} {\ dfrac {SCE _ {\ text {maradék}}} {Np}}} \ sim F (p-1, Np)}
Megjegyzés:
A szabadsági fokok bomlása megfelel az nm méretű vektortér további és ortogonális altereknek a megfelelő dimenziókkal ésm-1{\ displaystyle m-1}m(nem-1){\ displaystyle m (n-1)}
Fisher törvényének megfelelőségi teszt :
F=SVSEpostásDDLpostásSVSEteljesDDLteljes{\ displaystyle F = {\ frac {\ frac {SCE _ {\ text {factor}}} {DDL _ {\ text {factor}}}}} {\ frac {SCE _ {\ text {total}}} {DDL _ {\ text {total}}}}}}
Kiderül (amint az a matematikai bontásban is látható), hogy a két kifejezés egyaránt becsli a maradék változékonyságot, ha az A faktornak nincs hatása. Sőt, ez a két kifejezés egyenként χ 2 törvényt követ , arányuk tehát egy F törvényét követi (e törvények szabadságának mértékét lásd még). Összegezzük:
- Ha az A faktornak nincs hatása, akkor az F törvénynek az aránya és követi azt, és ellenőrizhető, hogy az arány értéke "meglepő" egy F törvény eseténSnál nél{\ displaystyle S_ {a}}Sr{\ displaystyle S_ {r}}
- Ha az A faktornak van hatása, akkor a kifejezés már nem a maradék változékonyság becslése, és az arány már nem követi az F törvényét. Összehasonlíthatjuk az arány értékét az F törvény várható értékével, és láthatjuk, megint mennyire „elképesztő” az eredmény.Snál nél{\ displaystyle S_ {a}}Snál nélSr{\ displaystyle {\ frac {S_ {a}} {S_ {r}}}}
A dolgok ilyen módon történő összegzése segít tisztázni az elképzelést, de megfordítja a megközelítést: a gyakorlatban az α kockázat megadásával megkapjuk az arány arányát , amelyet összehasonlítunk egy F törvényével (lásd a tesztekről és azok kockázatairól szóló cikket ) . Ha a kapott érték túl nagy, arra a következtetésre jutunk, hogy az arány valószínűleg nem követi az F törvényét, és az A faktornak van hatása. Ezért arra a következtetésre jutunk, hogy van különbség az eszközökben.
Snál nélSr{\ displaystyle {\ frac {S_ {a}} {S_ {r}}}}
VSMB{\ displaystyle CM_ {B}}az előző bekezdésben bemutatott becslő (első technikai megközelítés) és a becslő . Kivezetjük Fisher F-jét, amelynek eloszlása ismert és táblázatos a következő feltételezések szerint:
SNÁL NÉL{\ displaystyle S_ {A}}VSMW{\ displaystyle CM_ {W}}SB{\ displaystyle S_ {B}}
- A maradványokat normálisan osztják elϵ{\ displaystyle \ epsilon}
- Nulla reménnyel
- Az i kategóriától független varianciával σ2{\ displaystyle \ sigma ^ {2}}
- A zéró kettő az két kovariancia (függetlenség)
Ezeknek a feltételezéseknek való megfelelés biztosítja a varianciaanalízis érvényességét . Ők ellenőrzik a posteriori különböző módszerekkel (normalitás tesztek szemrevételezésével, a hisztogram a maradékok, vizsgálata a grafikont a maradékok függvényében a becslések) lásd a használati feltételek alább.
ANOVA asztal
Az ANOVA táblázat összefoglalja a szükséges számításokat:
A variancia forrása
|
Az eltérések négyzetének
összege |
A szabadság fokai
|
Variancia
|
F
|
p-érték
|
---|
Osztályközi
|
SVSEpostás{\ displaystyle SCE _ {\ text {factor}}}
|
DDLpostás{\ displaystyle DDL _ {\ text {factor}}}
|
Spostás2=SVSEpostásDDLpostás{\ displaystyle S _ {\ text {factor}} ^ {2} = {\ frac {SCE _ {\ text {factor}}} {DDL _ {\ text {factor}}}}}
|
F=Spostás2Smaradék2{\ displaystyle F = {\ frac {S _ {\ text {factor}} ^ {2}} {S _ {\ text {residu}} ^ {2}}}}
|
PH0(F>Fobs){\ displaystyle P_ {H_ {0}} (F> F_ {obs})}
|
Osztályon belül
|
SVSEmaradék{\ displaystyle SCE _ {\ text {residu}}}
|
DDLmaradék{\ displaystyle DDL _ {\ text {residu}}}
|
Smaradék2=SVSEmaradékDDLmaradék{\ displaystyle S _ {\ text {residu}} ^ {2} = {\ frac {SCE _ {\ text {residu}}} {DDL _ {\ text {residu}}}}}
|
|
|
Teljes
|
SVSEteljes{\ displaystyle SCE _ {\ text {total}}}
|
DDLteljes{\ displaystyle DDL _ {\ text {total}}}
|
|
|
|
Szemléltető példa
Vegyünk egy példát a módszer szemléltetésére. Képzeljünk el egy tenyésztőt, aki új tehenet szeretne vásárolni a tejtermeléséhez. Három különböző tehénfajtája van, ezért felmerül a kérdés, hogy a fajta fontos-e az általa választott. Információként rendelkezik minden egyes állat fajtájával (ez a diszkrét magyarázó változó vagy variabilitási tényező , amely 3 különböző értéket vehet fel) és napi tejtermelésükről (ez az a folyamatos magyarázandó változó, amely megfelel a tej literben).
Példánkban a nullhipotézis abból indul ki, hogy minden tehén fajtától függetlenül ugyanazt a napi tejet termeli (a véletlenszerű tényező kivételével). Az alternatív hipotézis abból indul ki, hogy az egyik fajta lényegesen több vagy kevesebb tejet termel, mint a többi.
Tegyük fel, hogy a produkciók:
- A versenyre: 20,1; 19,8; 21,3 és 20,7
- B versenyre: 22,6; 24,1; 23,8; 22,5; 23,4; 24,5 és 22,9
- C versenyre: 31,2; 31,6; 31,0; 32,1 és 31,4
Verseny
|
Vágott
|
Átlagos
|
Variancia
|
---|
NÁL NÉL
|
4
|
20,475
|
0,443
|
B
|
7
|
23.4
|
0,59333
|
VS
|
5.
|
31.46
|
0,178
|
Teljes
|
16.
|
25,1875
|
20.90117
|
ANOVA táblázat :
A variancia forrása
|
Az eltérések négyzetének
összege |
A szabadság fokai
|
Variancia
|
F
|
p-érték
|
---|
Osztályközi
|
307.918
|
2
|
153,959
|
357,44
|
4.338 e-12
|
Osztályon belül
|
5.6
|
13.
|
0,431
|
|
|
Teljes
|
313,518
|
15
|
|
|
|
Kétirányú varianciaanalízis
Kétirányú ANOVA-nak is nevezik , a kétirányú varianciaanalízis akkor alkalmazható, ha két változékonysági tényezőt kívánunk figyelembe venni .
Varianciabontás
Vagyis az első variabilitási tényező, amely felveheti a szinteket , a második variabilitási tényező, amely felveheti a szinteket , az egyedek száma az első faktor szintjén és a második faktor szintje , az egyedek teljes száma és az egyes alcsoportok egyedszámát (egy adott i és j szint esetében). A magyarázandó változót a , és a segítségével írjuk .
én=1 ..o{\ displaystyle i = 1..p}j=1 ..q{\ displaystyle j = 1..q}neménj{\ displaystyle n_ {ij}}én{\ displaystyle i}j{\ displaystyle j}nem{\ displaystyle n}r{\ displaystyle r}yénjk{\ displaystyle y_ {ijk}}én=1 ..o{\ displaystyle i = 1..p}j=1 ..nemén{\ displaystyle j = 1..n_ {i}}k=1 ..mj{\ displaystyle k = 1..m_ {j}}
A magyarázható változó a relációval modellezhető:
Yénjk=αén+βj+γénj+ϵénjk {\ displaystyle Y_ {ijk} = \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij} + \ epsilon _ {ijk} ~}
azzal a hatás szintjének az első tényező, a hatás a szint a második tényező, a kölcsönhatás hatása a két tényező között, és a véletlen hiba (amely aztán normális eloszlást követ ).
αén{\ displaystyle \ alpha _ {i}}én{\ displaystyle i}βj{\ displaystyle \ beta _ {j}}j{\ displaystyle j}γénj{\ displaystyle \ gamma _ {ij}}ϵénjk{\ displaystyle \ epsilon _ {ijk}}NEM(0,σ2) {\ displaystyle {\ mathcal {N}} (0, \ sigma ^ {2}) ~}
Az egyfaktoros esetben bemutatott számítás átültethető a kétfaktoros esetre:
SVSEteljes=SVSEfaktor 1+SVSEfaktor 2+SVSEkölcsönhatás+SVSEmaradék {\ displaystyle SCE _ {\ text {total}} = SCE _ {\ text {factor 1}} + SCE _ {\ text {factor 2}} + SCE _ {\ text {interact}} + SCE _ {\ text {maradék} ~}
Az első tényezővel magyarázható teljes variancia aránya ( ), a második tényezővel magyarázott teljes variancia aránya ( ), a két tényező közötti kölcsönhatás ( ) és a teljes variancia aránya, amelyet a modell nem magyarázhat ( véletlenszerű variabilitásnak vagy zajnak is nevezik ) a képletek adják meg:
SVSEfaktor 1{\ displaystyle SCE _ {\ text {faktor 1}}}SVSEfaktor 2{\ displaystyle SCE _ {\ text {faktor 2}}}SVSEkölcsönhatás{\ displaystyle SCE _ {\ text {interakció}}}SVSEmaradék{\ displaystyle SCE _ {\ text {residu}}}
SVSEfaktor 1=rq∑én=1o(yén¯-y¯)2{\ displaystyle SCE _ {\ text {factor 1}} = rq \ sum _ {i = 1} ^ {p} ({\ overline {y_ {i}}} - {\ overline {y}}) ^ {2 }}
|
SVSEfaktor 2=ro∑j=1q(yj¯-y¯)2{\ displaystyle SCE _ {\ text {factor 2}} = rp \ sum _ {j = 1} ^ {q} ({\ overline {y_ {j}}} - {\ overline {y}}) ^ {2 }}
|
SVSEkölcsönhatás=r∑én=1o∑j=1q(yénj¯-yén¯-yj¯+y¯)2{\ displaystyle SCE _ {\ text {interact}} = r \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {q} ({\ overline {y_ {ij}}} - {\ overline {y_ {i}}} - {\ overline {y_ {j}}} + {\ overline {y}}) ^ {2}}
|
SVSEmaradék=∑én=1o∑j=1q∑k=1neménj(yénjk-yénj¯)2{\ displaystyle SCE _ {\ text {residu}} = \ sum _ {i = 1} ^ {p} \ sum _ {j = 1} ^ {q} \ sum _ {k = 1} ^ {n_ {ij }} (y_ {ijk} - {\ overline {y_ {ij}}}) ^ {2}}
|
A tényezők közötti kölcsönhatás elemzése viszonylag összetett. Abban az esetben, ha a tényezők függetlenek, csak a tényezők fő hatásaira lehet kíváncsi. A képlet ekkor lesz:
SVSEteljes=SVSEfaktor 1+SVSEfaktor 2+SVSEmaradék {\ displaystyle SCE _ {\ text {total}} = SCE _ {\ text {factor 1}} + SCE _ {\ text {factor 2}} + SCE _ {\ text {residu}} ~}
Szemléltető példa
Tejtermelőnk vizsgálata méretének növelésével javítani kívánja elemzésének erejét. Ehhez egy másik gazdaság adatait tartalmazza. A számára közölt adatok a következők:
- A versenyre: 22,8; 21,7; 23,3; 23,1; 24,1; 22,3 és 22,7
- B versenyre: 23,1; 22,9; 21,9; 23,4 és 23,0
- C versenyre: 31,7; 33,1; 32,5; 35,1; 32,2 és 32,6
Varianciaelemzés
|
Dof
|
Négyzetek összege
|
Variancia
|
F
|
P (X> F)
|
---|
verseny
|
2
|
696,48
|
348,24
|
559,6811
|
<2.2e-16
|
---|
központ
|
1
|
8.46
|
8.46
|
13.6012
|
0,0009636
|
---|
verseny: központ
|
2
|
12.23
|
6.11
|
9.8267
|
0,0005847
|
---|
Maradékok
|
28.
|
17.42
|
0,62
|
|
|
---|
Többtényezős varianciaanalízis
Varianciabontás
Tovább bonthatjuk a varianciát úgy, hogy az egyes tényezőkhöz és egy-egy kifejezéshez hozzáadunk egy-egy kifejezést:
Yén=μ+∑jαj+∑j,kγjk+ϵén{\ displaystyle Y_ {i} = \ mu + \ sum _ {j} \ alpha _ {j} + \ sum _ {j, k} \ gamma _ {jk} + \ epsilon _ {i}}
azzal a hatását a j edik faktor és a kölcsönhatás a j edik és a k th tényező.
αj{\ displaystyle \ alpha _ {j}}γjk{\ displaystyle \ gamma _ {jk}}
A varianciaanalízis több variabilitási tényező esetén viszonylag összetett: helyes elméleti modellt kell meghatározni, tanulmányozni kell a tényezők közötti kölcsönhatásokat, elemezni a kovarianciát .
A varianciaanalízis alkalmazásának korlátai
Az eloszlások normalitása
A varianciabontás mindig érvényes, függetlenül a vizsgált változók megoszlásától. A Fisher-teszt végrehajtása során azonban feltételezzük ezen eloszlások normalitását. Ha az eloszlások kissé eltérnek a normalitástól, akkor a varianciaanalízis elég robusztus ahhoz, hogy felhasználható legyen. Abban az esetben, ha az eloszlások nagymértékben eltérnek a normálistól, elvégezhetünk egy változóváltozást (például úgy, hogy a változókat vesszük vagy ), vagy használhatunk egy nemparaméteres egyenértéket a varianciaanalízishez.
yén′=napló(yén) {\ displaystyle y '_ {i} = \ log (y_ {i}) ~}yén″=yén2{\ displaystyle y '' _ {i} = y_ {i} ^ {2}}
Homoscedasticity
Ezzel szemben az ANOVA egy másik nagyon erős és kevésbé nyilvánvaló feltételezést tesz. Valójában szükséges, hogy a különbözõ csoportokban a szórás azonos legyen. Ez a homoszkedaszticitási hipotézis . Az ANOVA nagyon érzékeny erre. Ezért használat előtt tesztelni kell.
Ellentétben azzal, amit ennek a módszernek a neve sugall, ez nem teszi lehetővé a magyarázandó változó varianciájának elemzését, hanem a magyarázható változók függvényében hasonlítja össze a magyarázandó változó eloszlásának átlagát.
Nem paraméteres megközelítések
Amikor az ANOVA előfeltevéseit nem tartják be ( például a homoszkedaszticitás ), gyakran halljuk, hogy ésszerűbb lehet használni az ANOVA nem parametrikus megfelelőjét: a Kruskal-Wallis tesztet az egy faktoros esetre, vagy kétfaktoros eset ismétlés nélkül, a Friedman-teszt. Ezek a tesztek nem ugyanúgy néznek ki. Mint fentebb említettük, az ANOVA lehetővé teszi egyváltozós mérés összehasonlítását két vagy több statisztikai populációból származó minták között. A Kruskal-Wallis-teszt nullhipotézisére a sztochasztikus homogenitás vonatkozik, vagyis minden statisztikai populáció sztochasztikusan (az egyszerűség kedvéért „véletlenszerűen” mondható el) egyenlő a többi populáció kombinációjával. Ezt a tesztet tehát az eloszlás érdekli, ellentétben az ANOVA-val, ezért nem tekinthető szoros értelemben vett egyenértékűnek.
Lásd is
- Statisztikai teszt
- A kovariancia ( ANCOVA ) elemzése kategorikus magyarázó változókkal rendelkező regressziós modellek esetében.
- Többváltozós elemzés ( MANOVA ) többváltozós modellek magyarázatához.
- Számos, a varianciaanalízist bemutató videó (egy faktor, két interakció nélküli tényező, általános eset) érhető el itt
Források
- G. Saporta, Valószínűség, adatelemzés és statisztika, p. 351-358 (1990)
- B. Scherrer, összehasonlítása az eszközök több független minta , vett Biostatisztika , Gaëtan Morin EDITEUR. o. 422–463 (1984)
- GD Ruxton, G. Beauchamp, Néhány javaslat a Kruskal-Wallis teszt megfelelő használatára , Animal Behavior 76 , 1083-1087 (2008) DOI : 10.1016 / j.anbehav.2008.04.011
- GA Ferguson és Y. Takane, a pszichológia és az oktatás statisztikai elemzése, McGraw-Hill Book (1989)
- GV Glass és JC Stanley, Statisztikai módszerek az oktatásban és a pszichológiában, Prentice Hall, USA, (1970)
Megjegyzések és hivatkozások
-
Éric Yergeau és Martine Poirier, „ Varianciaanalízis ” , a http://spss.espaceweb.usherbrooke.ca/ ,2013(megtekintés : 2020. május 6. )
-
(in) " A rokonok közötti összefüggés a mendeli öröklés feltételezésével "
-
A kis mintából levezetett korrelációs együttható "valószínű hibájáról". Ronald A. Fisher. Metron, 1: 3-32 (1921)
-
Lásd például a Toulouse III: „ univ-tlse1.fr ” ( Archívum • Wikiwix • Archive.is • Google • Mi a teendő? ) Tanfolyamot (konzultáció: 2013. november 5. ) 8. és 9. oldal. utaljon Scheffé klasszikus könyvére (1959)
-
Lásd például: Lyon 1 Statistics Course és TD az interakcióelemzés példájára egy kétfaktoros modellben.