Logisztikus regresszió

Természet	Regresszió
Alosztály	Regressziós modell ( d ) , általánosított lineáris modell
Feltaláló	Joseph Berkson

A logisztikai regresszió vagy logit modell egy modell regressziós binomiál. Mint minden binomiális regressziós modell esetében, itt is legfeljebb egy egyszerű matematikai modell modellezéséről van szó, sok valós megfigyeléssel. Más szavakkal, egy általánosan jegyzett binomiális véletlen változó társítása egy véletlen változók vektorával . A logisztikai regresszió az általánosított lineáris modell speciális esete . Széles körben használják a gépi tanulásban . $(x_ {1}, \ ldots, x_ {K})$ $y$

Történelem

De Palma és Thisse szerint a logit modell első említése Joseph Berksontól származik 1944-ben és 1951-ben.

Alkalmazások

A logisztikai regresszió sok területen elterjedt. Nem kimerítő módon idézhetjük:

Az orvostudományban lehetővé teszi például olyan tényezők felkutatását, amelyek a beteg alanyok csoportját jellemzik az egészséges alanyokhoz képest.
A biztosítás területén lehetővé teszi az ügyfélkör töredékének megcélzását, aki érzékeny lesz egy adott kockázatra vonatkozó biztosítási kötvényre.
A bankszektorban a kockázatvállalási csoportok felderítése a hitel felvételekor.
Az ökonometria során diszkrét változó magyarázata. Például szavazási szándék a választásokon.

Például Vincent Loonis logisztikai regressziós modellt használ a francia képviselők újraválasztásának meghatározó tényezőinek tanulmányozására a III e Köztársaság kezdetétől fogva .

A modell

Jelölések

Vagy a megjósolni kívánt változó (magyarázott változó) és a prediktív változók (magyarázó változók). $Y$ $X = (X_ {1}, X_ {2}, ..., X_ {J})$

A bináris logisztikai regresszió keretében a változó két lehetséges modalitást vesz igénybe . A változók kizárólag folytonosak vagy binárisak. $Y$ $\ {1.0 \}$ $X_ {j}$

Legyen egy mintakészlet, amely (vagy ) tartalmazza a (z ) modalitásának (ill. ) Megfelelő megfigyeléseket . $\Omega$ $nem$ $n_1$ $n_ {0}$ $1$ ${\ displaystyle 0}$ $Y$
$P (Y = 1)$ (ill. ) az a priori valószínűség, hogy (ill. ). Az egyszerűség kedvéért ezt alább (ill. ) Jelöljük . $P (Y = 0)$ $Y = 1$ $Y = 0$ $p (1)$ $p (0)$
$p (X \ zöld 1)$ (ill. ) a vett érték ismeretének feltételes eloszlása $p (X \ zöld 0)$ $x$ $Y$
Az utólagos valószínűsége, hogy a modalitás a (ill. ) Ismeretében a által felvett értékre kell jegyezni (ill. ). $1$ $Y$ ${\ displaystyle 0}$ $x$ $p (1 \ zöld X)$ $p (0 \ zöld X)$

Alapfeltevés

A logisztikai regresszió a következő alapvető hipotézisre épül, ahol felismerjük az IJ Good , ET Jaynes és Myron Tribus által a Bayes-i következtetés céljából népszerűsített "bizonyítéknak" nevezett mértéket , elkerülve a [0,1] folyamatos renormalizációját: ${\ displaystyle Ev (p) = \ ln {\ frac {p} {1-p}}}$

$\ ln {\ frac {p (X \ vert 1)} {p (X \ vert 0)}} = a_ {0} + a_ {1} x_ {1} + ... + a_ {J} x_ {J }$

ahol a változók által vett értékeket képviselik . ${\ displaystyle x_ {1}, x_ {2}, ..., x_ {J}}$ ${\ displaystyle X_ {1}, X_ {2}, ..., X_ {J}}$

Az eloszlások nagy osztálya felel meg ennek a specifikációnak, például a lineáris diszkrimináns elemzésben leírt multinormális eloszlásnak , de más eloszlásoknak is, különösen azoknak, ahol a magyarázó változók logikai (0/1).

A mindig diszkrimináns elemzéshez képest már nem a feltételes sűrűségeket és a modellezéseket végezzük, hanem e sűrűségek arányát. A hipotézis által bevezetett korlátozás kevésbé erős. $p (X \ zöld 1)$ $p (X \ zöld 0)$

A LOGIT modell

A fenti specifikáció más módon is írható. Jelöljük a kifejezés LOGIT az a következő kifejezés $p (1 \ zöld X)$

$\ ln {\ frac {p (1 \ vert X)} {1-p (1 \ vert X)}} = b_ {0} + b_ {1} x_ {1} + ... + b_ {J} x_ {J}$

Valóban „regresszió”, mert a magyarázható változó és a magyarázó változók sora közötti függőségi viszonyt akarjuk bemutatni.
Ez egy „logisztikai” regresszió, mert a valószínűségi törvény logisztikai törvényből van modellezve .

Valóban, a fenti egyenlet átalakítása után megkapjuk

$p (1 \ vert X) = {\ frac {e ^ {{b_ {0} + b_ {1} x_ {1} + ... + b_ {J} x_ {J}}}} {1 + e ^ {{b_ {0} + b_ {1} x_ {1} + ... + b_ {J} x_ {J}}}}}$

Megjegyzés: A kifejezések egyenértékűsége

Két különböző kifejezésből indultunk, hogy elérjük a logisztikai modellt. Itt figyelhetjük meg az együtthatók és az egyezőséget . Térjünk vissza a LOGIT-ra $a_ {j}$ $b_j$

$\ ln {\ frac {p (1 \ vert X)} {1-p (1 \ vert X)}} = \ ln {\ frac {p (1 \ vert X)} {p (0 \ vert X)} } = \ ln {\ frac {p (1) p (X \ vert 1)} {p (0) p (X \ vert 0)}} = \ ln {\ frac {p (1)} {p (0 )}} + \ ln {\ frac {p (X \ vert 1)} {p (X \ vert 0)}}$

$\ ln {\ frac {p (1 \ vert X)} {1-p (1 \ vert X)} = = \ ln {\ frac {p (1)} {p (0)}} + a_ {0} + a_ {1} x_ {1} + ... + a_ {J} x_ {J}$

Ezt észrevesszük ${\ begin {eset} b_ {0} = \ ln {\ frac {p (1)} {p (0)}} + a_ {0} \\ b_ {j} = a_ {j} &, j \ geq 1 \ vég {esetek}}$

Becslés - A legnagyobb valószínűség elve

Adatfájlból meg kell becsülnünk a LOGIT függvény együtthatóit . Nagyon ritka, hogy minden lehetséges kombináció esetén , még akkor is, ha ezek a változók mind binárisak, elegendő megfigyelés van a valószínűségek megbízható becsléséhez és . A szokásos legkisebb négyzetek módszer kizárt. A megoldás egy másik megközelítésen megy keresztül: a valószínűség maximalizálásán. $b_j$ $X_ {j}, \ (j = 1, ..., J)$ $P (1 \ zöld X)$ $P (0 \ zöld X)$

A csoporthoz tartozó egyén valószínűsége , amelyet a valószínűséghez való hozzájárulásként is felfoghatunk, a következőképpen írható le: $\omega$

$P (Y (\ omega) = 1 \ vert X (\ omega)) ^ {{Y (\ omega)}} \ szor [1-P (Y (\ omega) = 1 \ vert X (\ omega)]] ^ {{1-Y (\ omega)}}$

Ezután a minta valószínűségét felírják: $\Omega$

$L = \ prod _ {{\ omega}} P (Y (\ omega) = 1 \ vert X (\ omega)) ^ {{Y (\ omega)}} \ szor [1-P (Y (\ omega)] = 1 \ zöld X (\ omega))] ^ {{1-Y (\ omega)}}$

Azok a paraméterek, amelyek ezt a mennyiséget maximalizálják, a logisztikai regresszió maximális valószínűség-becslői. ${\ hat b} _ {j} (j = 0, ..., J)$

Becslés a gyakorlatban

A gyakorlatban a szoftver hozzávetőleges eljárást alkalmaz a fenti maximalizálás kielégítő megoldásának elérésére. Ez magyarázza azt is, hogy miért nem mindig adnak szigorúan együtthatókat. Az eredmények az alkalmazott algoritmustól és a számítás paraméterezése során elfogadott pontosságtól függenek.

A következőkben a megbecsülendő paraméterek vektorát jelöljük . A legismertebb eljárás a Newton-Raphson módszer, amely iteratív gradiens módszer (lásd: Optimalizálási algoritmus ). A következő összefüggésen alapul: $\ beta \,$

${\ displaystyle \ beta ^ {i + 1} = \ beta ^ {i} - \ balra ({\ frac {\ részleges ^ {2} L} {\ részleges \ béta \ részleges \ béta '}} \ jobbra) ^ {-1} \ szor {\ frac {\ részleges L} {\ részleges \ beta}}}$

$\ beta ^ {{i}} \,$ lépésben a közös megoldás . lehetséges inicializálás; $i \,$ $\ beta ^ {{0}} = (0, ..., 0) \,$
${\ frac {\ részleges L} {\ részleges \ beta}} \,$ a valószínűség első parciális deriváltjainak vektora;
${\ frac {\ részleges ^ {2} L} {\ részleges \ béta \ részleges \ béta '}} \,$ a valószínűség második parciális deriváltjának mátrixa;
az iterációk megszakadnak, amikor két egymást követő megoldásvektor közötti különbség elhanyagolható .

Ez az utolsó mátrix, az úgynevezett Hessian-mátrix érdekes, mert inverze a varianciakovariancia-mátrix becslését reprezentálja . A különböző hipotézisvizsgálatok során felhasználják az együtthatók jelentőségének felmérésére. $\ beta \,$

Mátrix formában: $\ overrightarrow {\ beta _ {{i + 1}}} = \ overrightarrow {\ beta _ {{i}}} + \ bal (^ {{t}} XWX \ jobbra) ^ {{- 1}} {} ^ {{t}} X \ bal (\ overrightarrow {y} - \ overrightarrow {p} \ right)$

Értékelés

Zavarzási mátrix

Cél egy olyan modell előállítása, amely lehetővé teszi a kategorikus változó által felvett értékek lehető legnagyobb pontossággal történő megjóslását, a modell minőségének értékelésére pedig egy kitüntetett megközelítés lenne az előrejelzett értékek összehasonlítása a valódi értékek : a zavartsági mátrix szerepe . Ezután levezetünk egy egyszerű mutatót, a hibaarányt vagy a rossz osztályozási arányt, amely a rossz előrejelzések száma és a minta nagysága közötti arány. $Y$ $Y$

Amikor a zavaros mátrix azokra az adatokra épül, amelyeket a modell felépítéséhez használtak, a hibaarány gyakran túl optimista, nem tükrözi a modell tényleges teljesítményét a populációban. Annak érdekében, hogy az értékelés ne legyen elfogult, célszerű ezt a mátrixot külön mintára építeni, úgynevezett tesztmintára. A képzési mintával szemben nem vesz részt a modell felépítésében.

A módszer legfőbb előnye, hogy lehetővé teszi bármely osztályozási módszer összehasonlítását, és ezáltal annak kiválasztását, amely egy adott problémával szemben a leghatékonyabbnak bizonyul.

A regresszió statisztikai értékelése

Lehetséges egy valószínűségi séma alkalmazása a modell érvényességére vonatkozó hipotézisvizsgálatok elvégzésére. Ezek a tesztek a maximális valószínűség-becslők aszimptotikus eloszlásán alapulnak .

A modell általános jelentőségének ellenőrzéséhez bevezethetünk egy tesztet, amely analóg a többszörös lineáris regresszió értékelésével. A nullhipotézist megírják , amely ellentétes az alternatív hipotézissel : az együtthatók közül legalább az egyik nem nulla $H_ {0}: b_ {1} = b_ {2} = \ pontok = b_ {J} = 0$ $H_ {1}$

A statisztikai valószínűség aránya van írva , hogy a jogszabályi előírásoknak és a szabadsági fokok. $\ Lambda = 2 \ szer [l (D + 1) -l (1)]$ $\ chi ^ 2$ $J$

$l (D + 1)$ a modell valószínűségének logaritmusa az összes változóval (tehát J + 1 együtthatókkal együtt az állandóval), és
$l (1)$ a modell valószínűségének logaritmusa az egyetlen konstansra csökkent.

Ha a kritikus valószínűség ( p-érték ) alacsonyabb, mint az általunk beállított szignifikancia szint, akkor azt tekinthetjük, hogy a modell globálisan szignifikáns . Meg kell nézni, hogy mely változók játszanak szerepet ebben a kapcsolatban.

Az együtthatók egyedi értékelése

Abban az esetben, ha egy változó jelentős szerepét próbálja kipróbálni. A következő tesztet hajtjuk végre , ellen . $H_ {0}: b_ {j} = 0$ $H_ {1}: b_ {j} \ neq 0$

A WALD statisztika megfelel ennek a tesztnek, meg van írva , egy bizonyos fokú törvényt követ . $W = {\ frac {{\ hat b} ^ {2}} {{\ hat V} ({\ hat b})}}$ $\ chi ^ 2$ $1$

Megjegyzés : Az együttható becsült varianciáját a korábban látott Hessian-mátrix inverzében olvassuk le. ${\ hat b} _ {j}$

Együttható blokk értékelése

A fenti két teszt az együttható-blokk szignifikancia tesztjének speciális esete. A "deviancia" kritériumából adódnak, amely összehasonlítja a jelenlegi modell és a telített modell (az összes paraméterrel rendelkezõ modell) valószínûségét.

A nullhipotézist ebben az esetben írják le , ahol együtthatók halmazát jelölik egyidejűleg nullán. $H_ {0}: \ béta (q) = 0$ $\ béta (q)$ $q \,$

A tesztstatisztika egy bizonyos fokú törvényt követ . $W (q) = 2-szer [l (J + 1) -l (J + 1-q)]$ $\ chi ^ 2$ $q$

Ez a teszt nagyon hasznos lehet, ha egy kategorikus magyarázó változó és modalitások szerepét akarjuk tesztelni a modellben. Az átkódolás után hatékonyan bevezetjük a dummy változókat a modellbe. A kategorikus változó egészének szerepének értékeléséhez, tekintet nélkül a figyelembe vett modalitásra, egyszerre kell tesztelnünk a mutatóváltozókhoz tartozó együtthatókat. $q + 1$ $q$

Egyéb értékelések

A logisztikai regresszió tekintetében más értékelési eljárásokat szoktak idézni. Megemlítjük többek között a Hosmer-Lemeshow tesztet, amely a megfigyelések rendezéséhez a „pontszámra” (a csoporthoz rendelés valószínűségére) támaszkodik. Ebben hasonlít más tanulási értékelési módszerekhez, például az ROC görbékhez, amelyek sokkal gazdagabbak az információkban, mint az egyszerű összetévesztési mátrix és a kapcsolódó hibaarány.

Egy példa

A Logistic Regression online tanfolyam webhelyén (Paul-Marie Bernard, Quebeci Egyetem - 5. fejezet ) rendelkezésre álló adatokból felépítettünk egy jóslási modellt, amelynek célja a csecsemő születésének "alacsony súlya (igen / nem)" magyarázata. A magyarázó változók a következők: FÜST (függetlenül attól, hogy dohányzik-e a terhesség alatt vagy sem), PREM (koraszülöttek kórtörténete a korábbi szülésnél), HT (a hipertónia kórtörténete), VISIT (az orvoshoz tett látogatások száma a terhesség első trimeszterében), KOR (anya életkora), PDSM (anya súlya az utolsó menstruáció időszakában), SCOL (anya iskolai végzettsége: = 1: <12 éves, = 2: 12-15 éves, = 3:> 15 éves) .

Az összes magyarázó változót folyamatosnak tekintették ebben az elemzésben. Bizonyos esetekben, például a SCOL, jobb lehet, ha dummy változóként kódoljuk őket.

Az eredmények elolvasása

Az eredményeket a következő táblázat mutatja.

Az adatfájlon a logisztikai regresszió futtatásának eredményei

A zavartsági mátrixban azt olvashatjuk, hogy az edzésadatokon a predikciós modell 10 + 39 = 49 rossz előrejelzést ad. A helyettesítési hibaarány 49/190 = 25,78%
A LAMBDA valószínűségi arány statisztika 31,77, a hozzá tartozó kritikus valószínűség 0. A modell tehát összességében nagyon szignifikáns, valóban van összefüggés a magyarázó változók és a magyarázott változó között.
Az egyes magyarázó változókhoz kapcsolódó együtthatók külön-külön tanulmányozásával, 5% -os kockázat mellett megállapíthatjuk, hogy a FUME, a PREM és a HT káros hatással van a csecsemő születési súlyára (a csecsemő alacsony súlyához vezet); A PDSM és a SCOL viszont úgy tűnik, hogy a baba nagyobb súlyának irányában játszik. Úgy tűnik, hogy a VISIT és az AGE nem játszik jelentős szerepet ebben az elemzésben.

Ez az első elemzés finomítható a változók kiválasztásával, egyes változók egyidejű szerepének tanulmányozásával stb. A logisztikai regresszió sikere nagyrészt az általa kínált értelmezési eszközök sokaságán alapul. Az esélyek, az esélyhányadok és a relatív kockázat fogalmaival , amelyeket dichotóm, folytonos változókra vagy változók kombinációira számolnak, a statisztikus finoman elemezheti az okozati összefüggéseket, és kiemelheti azokat a tényezőket, amelyek valóban meghatározzák a meghatározandó változót.

Telepítés

Új személy besorolásához Bayes-szabályt kell alkalmaznunk: $\ omega \,$

$Y (\ omega) = 1 \,$ ha $P (Y (\ omega) = 1 \ zöld X (\ omega))> P (Y (\ omega) = 0 \ zöld X (\ omega)) \,$

Ami ekvivalens

$Y (\ omega) = 1 \,$ ha $P (Y (\ omega) = 1 \ zöld X (\ omega))> 0,5 \,$

Ha figyelembe vesszük a LOGIT függvényt, akkor ez az eljárás a hozzárendelési szabályra támaszkodik:

$Y (\ omega) = 1 \,$ ha ${\ hat b} _ {0} + {\ hat b} _ {1} \ szoroz X_ {1} (\ omega) + ... + {\ hat b} _ {J} \ szer X_ {J} ( \ omega)> 0 \,$

Vegyük a következő megfigyelést = (FÜST = 1 "igen"; PREM = 1 "koraszülött az anya történetében"; HT = 0 "nem"; LÁTOGATÁS = 0 "nincs látogatás az orvosnál a terhesség első trimeszterében" ; KOR = 28; PDSM = 54,55; SCOL = 2 "12 és 15 év között"). $X (\ omega) \,$

A fenti egyenletet alkalmazva azt találjuk . A modell ennélfogva alacsony születési súlyú babát jósol az illető számára. $2,893 + 0,853-szor 1 + 0,691-szer 1 + 1,744-szer 0 + 0,030-szor 0-0,028-szor 28-0,038-szor 54,55-0,660-szor 2 = 0,28125$

Ez indokolt, mivel az iratunk 131. számú megfigyelése, és gyakorlatilag alacsony súlyú gyermek születését eredményezte.

Felépülés

A fenti elosztási szabály akkor érvényes, ha a mintát véletlenszerűen választják ki a sokaságból. Nem mindig ez a helyzet. Számos területen először osztályméreteket állítunk be , majd az egyes csoportokban adatokat gyűjtünk. Ezt retrospektív rajznak nevezzük . Ezért folytatni kell a kiigazítást. Ha a logit függvény változóihoz társított együtthatók nem módosulnak, akkor az állandót viszont korrigálni kell, figyelembe véve az egyes osztályok számát ( és ), valamint a valódi a priori valószínűségeket és (lásd az alábbi hivatkozásokat) ). $Y = 1$ $Y = 0$ $n_1$ $n_ {0}$ $p (1)$ $p (0)$

Változatok

A logisztikai regresszió közvetlenül érvényes, ha a magyarázó változók folyamatosak vagy dichotómok. Ha kategorikusak, akkor átkódolást kell végrehajtani. A legegyszerűbb a bináris kódolás. Vegyünk egy élőhely-változó példáját, vegyünk három modalitást {város, periféria, mások}. Ezután két bináris változót hozunk létre: „habitat_ville”, „habitat_periphery”. Az utolsó modalitást a másik kettőből vezetjük le, amikor a két változó egyszerre veszi fel a 0 értéket, ez azt jelzi, hogy a megfigyelés megfelel az „élőhely = mások” értéknek.

Végül lehetséges egy logisztikai regresszió végrehajtása a K (K> 2) kategóriákat tartalmazó kategorikus változó értékeinek előrejelzésére. Politomos logisztikai regresszióról beszélünk. Az eljárás egy referenciacsoport kijelölésén alapul, majd (K-1) lineáris kombinációkat állít elő az előrejelzéshez. Az együtthatók értelmezése ebben az esetben kevésbé nyilvánvaló.

Hivatkozások

(in) Joseph Berkson , " A logisztikai funkció alkalmazása a Bio-esszére " , Journal of the American Statistics Association , vol. 39, 1944, P. 357-365
(in) Joseph Berkson , " Miért én inkább logits hogy probitanalízise " , biometria , Vol. 7, 1951, P. 327-329
André de Palma és Jacques-François Thisse , " A diszkrét választások modelljei ", Annales d'Economie et de statistique ,1989( online olvasás )
Vincent Loonis , " A francia képviselők újraválasztásának meghatározó tényezői 1871 és 2002 között ", Histoire & Mesure , vol. 21, n o 1,2006( online olvasás , konzultáció 2012. január 18-án )

Bibliográfia

Ricco Rakotomalala, A logisztikai regresszió gyakorlata [1]
M. Bardos, Diszkrimináns elemzés - Alkalmazás kockázati és pénzügyi pontozáshoz , Dunod , 2001. (3. fejezet)
Bernard, P.-M., "A kontingencia táblázatok elemzése az epidemiológiában" , Les Presses de l'Université du Québec, 2004
Bouyer J., Hémon D., Cordier S., Derriennic F., Stücker I., Stengel B., Clavel J., Epidemiology - Principles and quantitative methods , Les Éditions INSERM, 1993
Hosmer DW, Lemeshow S., Alkalmazott logisztikai regresszió , Wiley-sorozat a valószínűségi és matematikai statisztikákban, 2000
Kleinbaum DG, logisztikai regresszió. Öntanuló szöveg , Springer-Verlag , 1994.
Kleinbaum DG, Kupper LL, Muller EM, Alkalmazott regresszióanalízis és egyéb többváltozós módszerek , PWS-KENT Publishing Company, Boston, 1988.
JP Nakache, J. Confais, Alkalmazott magyarázó statisztika , Technip, 2003 (2. rész)
Pierre-François Verhulst „ matematikai kutatás joga népességnövekedés ”, New emlékiratai Királyi Tudományos Akadémia és a szépirodalom de Bruxelles , n o 18,1845, P. 1–42 ( online [PDF] , hozzáférés : 2009. október 18. )
André de Palma és Jacques-François Thisse , " A diszkrét választások modelljei ", Annales d'Economie et de statistique ,1989( online olvasás )
(en) Thierry Magnac , „az egyéni választás logit modelljei” , Steven Durlauf és Lawrence Blume, The New Palgrave Dictionary of Economics , Palgrave Macmillan,2008( online olvasás )
(en) Ken Train , Diszkrét választási módszerek szimulációval , Cambridge University Press ,2009. június 30, 2 nd ed. , 408 p. ( ISBN 978-0-521-74738-7 , online olvasás ) , p. 34-75 (3. fejezet)
(en) Andrew Gelman és Jennifer Hill , regressziós és többszintű / hierarchikus modellek felhasználásával végzett adatelemzés , Cambridge University Press , coll. "Analitikai módszerek a társadalmi kutatáshoz",2006. december 18, 1 st ed. , 648 p. ( ISBN 978-0-521-68689-1 , online olvasás ) (5. fejezet)

Lásd is

Kapcsolódó cikkek