Nem paraméteres regresszió

A nem paraméteres regresszió a regresszió elemzésének egy olyan formája, amelyben a prediktor vagy a becslési függvény nem előre meghatározott alakot ölt, hanem az adatokból származó információknak megfelelően konstruálódik. A nem paraméteres regresszió nagyobb mintaméretet igényel, mint a parametrikus modelleken alapuló regresszió, mert az adatoknak meg kell adniuk a modell felépítését, valamint a modell becsléseit.

Általános elv

Számszerű adataink vannak, amelyeket feltételezzük, hogy korrelálunk egymással . Az egyik mennyiséget „magyarázott” változónak nevezzük, és megjegyezzük , a többit egy úgynevezett „magyarázó” változóba csoportosítjuk ; abszolút értelemben, egy vektor , $y$ $\ mathbf {x}$ $\ mathbf {x}$

{\ displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots, x_ {m})}

Vannak helyzeteink ( értékkészletek), amelyek pontfelhőt alkotnak $nem$ $nem$

{\ displaystyle (\ mathbf {x} ^ {i}, y ^ {i}) = (x_ {1} ^ {i}, x_ {2} ^ {i}, \ ldots, x_ {m} ^ {i }, y ^ {i})}

A regresszió a prediktor nevű függvény megtalálása

{\ displaystyle f: \ mathbb {R} ^ {m} \ rightarrow \ mathbb {R}}

{\ displaystyle \ mathbf {x} \ mapsto y}

mint például a maradék

{\ displaystyle r ^ {i} = y ^ {i} -f (\ mathbf {x} ^ {i})}

vagy a "lehető legkisebb"; ekkor úgy tekintjük, hogy a prediktor „jól leírja” az adatokat. Így írhatunk $f$

{\ displaystyle y ^ {i} = f (\ mathbf {x} ^ {i}) + r ^ {i}}

vagy

{\ displaystyle y ^ {i} \ simeq f (\ mathbf {x} ^ {i})}

Paraméteres regresszió esetén egy prediktorral indulunk, amelynek általános formája ismert. Ez egy olyan függvény, amelyet egy paraméterhalmaz fejez ki a . A legegyszerűbb a lineáris regresszió : $f$ ${\ displaystyle p = (p_ {i}, p_ {2}, \ ldots, p_ {k})}$ ${\ displaystyle k \ leq n}$

{\ displaystyle f_ {p_ {1}, p_ {2}} = p_ {1} x + p_ {2}}

és igyekszünk minimalizálni a másodfokú maradványokat ${\ displaystyle \ sum _ {i} (r ^ {i}) ^ {2}}$

Nem paraméteres regresszió esetén nem a függvény ismert formájából indulunk ki. A legegyszerűbb eset egy görbe simítása : a kezdeti pontfelhőből meghatározunk egy új pontfelhőt kevésbé hirtelen variációkkal ( differenciálhatóan ).

Nem paraméteres regressziós módszerek

Additív regressziós modell

Az additív modell a prediktor keresésének egyszerűsítéséből áll, figyelembe véve, hogy ez egyetlen változó függvényeinek összege : $m$

{\ displaystyle y = \ beta _ {0} + f_ {1} (x_ {1}) + f_ {2} (x_ {2}) + \ cdots + f_ {m} (x_ {m})}

ahol a függvények „sima” (differenciálható) függvények. Az egyes funkciókat az adatok alapján becsüljük meg. $f_ {i}$ $f_ {i}$

Ennek a koncepciónak vannak változatai:

félparaméteres modell: néhány függvény lineáris ,; $f_ {i}$ ${\ displaystyle f_ {i} = \ beta _ {i} x_ {i}}$
modell interakciókkal: két változó függvényeinek összegébe vezetjük be . ${\ displaystyle f_ {i, j} (x_ {i}, x_ {j})}$

Helyi regresszió

A lokális regresszió abból áll, hogy részenként végezzük a regressziót: felosztjuk a magyarázó változók terét területekre, és regressziót hajtunk végre az egyes területeken. A regresszió egy területen belül maga is paraméteres lehet, azonban a módszert továbbra is nem parametrikusnak tekintik. Gyakran végzünk helyi polinom regressziót vagy helyi spline regressziót .

A prediktor nem mindig folyamatos, és nem fortiori levezethető; csak darabonként folytonos (és darabonként differenciálható).

Becslés kernel szerint

A kernelbecslési módszer egy kernel , vagyis egy szimmetrikus és pozitív féldefinit függvény (tipikusan lineáris, polinom vagy Gauss) figyelembe vételéből áll. A prediktor ekkora alakú: $K$

{\ displaystyle f (\ mathbf {x}) = \ sum _ {k} \ beta _ {k} K (\ mathbf {x} - \ mathbf {X} _ {k})}

ahol az adott pontok a magyarázó változók terében vannak. Így a lokális regresszióval ellentétben mindegyik függvény átfogja a teljes teret, de egy adott pontra összpontosul . Ezért nincs probléma a folyamatossággal. ${\ displaystyle \ mathbf {X} _ {k}}$ ${\ displaystyle K (\ mathbf {x} - \ mathbf {X} _ {k})}$ ${\ displaystyle \ mathbf {X} _ {k}}$

Vetítési becslés

Feltesszük az egyszerűség kedvéért, hogy már csak egy magyarázó változó , és ez , valamint a [0; 1]. Úgy véljük, egy ortonormált bázis a tér négyzetes funkciók summable [0; 1]. Véges alcsaládnak tekintjük . $x$ $x$ $y$ ${\ displaystyle (\ varphi _ {1}, \ varphi _ {2}, \ ldots)}$ ${\ displaystyle (\ varphi _ {1}, \ varphi _ {2}, \ ldots, \ varphi _ {k})}$

A merőleges vetülete semmilyen funkciót a jelentése $g$ $\ varphi _ {i}$

{\ displaystyle \ langle g, \ varphi _ {i} \ rangle = \ int _ {0} ^ {1} g (x) \ cdot \ varphi _ {i} (x) \ mathrm {d} x}

a prediktor esetében megvan a közelítés $f$

{\ displaystyle \ langle g, \ varphi _ {i} \ rangle \ simeq {\ frac {1} {n}} \ sum _ {j = 1} ^ {n} y ^ {j} \ cdot \ varphi _ { i} (\ mathbf {x} ^ {j}) = \ beta _ {i}}

és a prediktort ezért a következők határozzák meg:

{\ displaystyle f = \ sum _ {i = 1} ^ {k} \ beta _ {i} \ varphi _ {i}}

Lehetséges például egy Fourier-alap vagy más hullámok használata .

Megjegyzések és hivatkozások

( fr ) Ez a cikk részben vagy egészben a Wikipedia angol nyelvű cikkéből származik, a "Nem parametrikus regresszió " címmel ( lásd a szerzők felsorolását ) .

Bibliográfia

Emmanuel Flachaire és Ibrahim Ahamada , Nonparametric Econometrics , Párizs, Economica , koll. "Corpus Economy",1 st szeptember 2008, 1 st ed. , 152 p. ( ISBN 978-2-7178-5614-9 )
(en) John Fox és Sanford Weisberg , „Paraméter nélküli regresszió R-ben (webes függelék)” , An R Companion to Applied Regression , Sage,2010, 2 nd ed. ( ISBN 978-1412975148 , online olvasás [PDF] )

Lásd is

Külső linkek

[PDF] „ Nonparametric learning in regression ” , a WikiStat- on ( University of Toulouse ) (hozzáférés : 2016. április 6. )