Postulált és nem postulált többszörös regressziós modellek

Modell

A modell egy vagy több Y-t magyarázó változót kapcsol össze az X magyarázó változókkal Y = F (X) funkcionális relációval

Többszörös regresszió

A statisztikai modellek közül a legszélesebb körben használják.

Van n megfigyelések ( i = 1, ..., n  ) p változók. A regressziós egyenlet meg van írva

vagy

Az a  j együtthatók és a modell hibájának kiszámítása a megfigyelések alapján jól érthető probléma (lásd: Többszörös lineáris regresszió ).

Finomabb a modellbe belépő változók megválasztása. Alkalmazható vagy sem.

Igényelt modell

Az előző modellben csak az együtthatókat „hajtják az adatok”, a modell polinomszerkezetét a felhasználó szabja meg (a probléma szakértelme szerint), aki eleve postulál:

Példa két magyarázó változóval rendelkező polinom modellre:

A magyarázó változók kiválasztásának problémája

Ha a magyarázó változók száma nagy, előfordulhat, hogy bizonyos változók korrelálnak egymással. Ebben az esetben meg kell szüntetni a másolatokat. Ehhez a szoftver lépésenkénti választási módszereket alkalmaz (növekvő, csökkenő vagy vegyes).

Tény, hogy a végső modell minősége nagyban függ a változók megválasztásától és a polinom mértékétől.

A modell nincs feltételezve

Éppen ellenkezőleg, a „nem postulált” modell teljesen „  adatközpontú  ”, mind matematikai felépítése, mind együtthatói.

A magyarázó változók kiválasztása nem igényli a modell előzetes ismeretét: nagyon nagy változók között zajlik, beleértve:


A kiválasztás a regresszió együtthatóinak kiszámítása előtt történik a következő elv szerint:

Keressük azt a tényezőt, vagy az „interakciót”, vagy a függvényt, amely a legjobban korrelál a reakcióval. Megtalálva azt a tényezőt vagy kölcsönhatást keressük, amely a legjobban korrelál a maradékkal , amelyet az előző korreláció nem magyaráz meg; stb. Ennek a módszernek az a célja, hogy ne számolja kétszer ugyanazt a hatást, amikor a tényezők korrelálnak egymással, és csökkenő fontosság alapján rendezi őket.

A megtalált lista fontosságának csökkenő sorrendjében rendezve nem lehet több kifejezés, mint ismeretlen ( n ). Ha csak egy kifejezést tartanak a modellben, akkor annak kell lennie az elsőnek a listában. Ha csak kettőt tartanak meg, akkor ők lesznek az első kettő stb.

Valójában, mivel a felsorolásban szereplő kifejezések mindegyike "megmagyarázza" a maradékot, amelyet az előzők nem magyaráztak, az utóbbi talán csak a "zajt" magyarázza. Melyik megállási kritériumot válassza?

A modellben megtartott kifejezések száma lehet például egy, amely minimalizálja a predikció standard hibáját SEP ( a predikció standard hibája ), vagy az, amely maximalizálja a Fisher F értéket . Ezt a kifejezések számát a felhasználó fizikai szempontok alapján is kiválaszthatja.


Példa  : feltételezzük, hogy a jelölt „magyarázó változók” halmaza {A, B, C, D, E, F, G}, és hogy a kapott modell:Y = állandó + aA + b. ("E és G") + c. ("D és F jelentése")Ezt észrevesszük * az irreleváns B és C változók nem jelennek meg a modellben * az A változó egyszerű kifejezésként jelent meg, * az E és a G, valamint a D és F változók csak „ logikai kölcsönhatásként  ” jelennek meg  .


Ez a „ párhuzamos  ” modell  , vagyis kevés kifejezést tartalmaz (itt három), 5 változót tartalmaz, és jobban ragaszkodik a fizikai valósághoz, mint egy polinom modell. Valójában az "E és G" kötőszó, amely azt jelenti, hogy "E és G egyszerre erős", a fizikai valóságban gyakrabban találkozik (például: kémiai katalízis), mint az EG típusú polinom kifejezés

Harmonikus bomlás

A nem postulált modell hatékony lesz a sorozat harmonikus lebontásában is.

Ez az elv a szabálytalan mintavétel esetén is érvényes (ahol a mozgóátlag típusú módszerek, az ARIMA vagy a Box és Jenkins hibásak), mint a nem stacionárius esetekben (ahol a Fourier-elemzés nem alkalmazható ) . . Ez lehetővé teszi a különböző ciklusok és szezonalitás interferenciáinak detektálását és szétszerelését a "lépcsőfokok", "V", "logisztikai szünetek", időszakos minták és olyan véletlen események, mint az elszigetelt csúcsok vagy a "hullámdarabok" trendtöréseivel.

Példák

Alkalmazás a marketingre

A példa adatai elérhetők az interneten (lásd: Colas Promo Price Effect [1] )

Egy nagy dobozos üzletben két terméket kínálnak eladásra. A Gondolák nem feltétlenül szerepelnek, az árak változhatnak, valamint a boltok látogatottsága is változhat.

Íme a nem postulált modellek, amelyeket a két termék mindegyikéhez kaptunk:

1 AKCIÓ = 311,6 - 1386. Pri] 1GondolaForward + 492,4 Freq & 2Price R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28


2 AKCIÓ = 396,1 - 1701. (2Pri-2GondolaEnAvant) + 346,0 Freq] 1Ár R2a = 0,854, Q2 = 0,851, F = 229,3, SEP = 81,27

Ezen egyenletek tagjai csökkenő fontosságú sorrendben vannak, és pozitív vagy negatív hatásuk az együtthatók előjelétől függ.

Ezért, figyelembe véve a logikai interakciók szimbólumainak jelentését , arra következtettünk, hogy:


Gyakran hasznos a modelleket társítani az összefüggések ikonográfiájának elemzésével  :


1. ábra , linkelemzés.Folyamatos vonalak: figyelemre méltó pozitív összefüggések.Pontozott vonalak: figyelemre méltó negatív összefüggések.


Egyrészt észrevesszük az 1. termék értékesítésének pozitív kapcsolatait a következőkkel:

Másrészt az 1. termék értékesítésének negatív kapcsolatai a következőkkel:

Az ipari minőség javítása

Az itt használt Kackar (1985) adatok szemléltették a különféle adatfeldolgozási technikákat. Lásd: D. Collombier: Kísérletek megtervezése és az ipari minőség javítása. A Taguchi-módszer alternatívája. RSA, tome 40, n ° 2 (1992), 31–43. [2]


Javítani szeretnénk a teherautók felfüggesztéséhez használt laprugók hajlítását. A tárgylemezeket kemencében melegítjük, présben meghajlítjuk, majd olajfürdőben lehűtjük. 8 hüvelyk közeli hajlító nyílot szeretnénk megszerezni.

A gyártás ellenőrzött tényezői két szinten (alacsony és magas érték):


A választott kísérleti tervet, amely 8 tesztet tartalmaz (a gyártási tényezőkre vonatkozóan), ezért kétszer megismételjük, minden hűtési hőmérsékletre. Ez 16 teszt.

Ezenkívül mindegyik tesztet háromszor megismétlik a nem ellenőrzött zajforrások figyelembevétele érdekében. Vagyis összesen 48 teszt.

A kísérlet válaszai a következők


A következő táblázatban a gyártási tényezők szintje -1-gyenge és 1 erős. A hűtési hőmérsékleti szintet gyengének 1, erősnek 2.


T ° Sütő tFűtés tTransfer FourPress tSubPress Hűtés T ° Ymoy Jel / zaj
1 -1 -1 -1 -1 1 7.79 5.426739
2 -1 -1 -1 -1 2 7.29 5.426739
3 1 -1 -1 1 1 8.07 11.6357
4 1 -1 -1 1 2 7.733 11.6357
5. -1 1 -1 1 1 7.52 6.360121
6. -1 1 -1 1 2 7.52 6.360121
7 1 1 -1 -1 1 7.63 8.658226
8. 1 1 -1 -1 2 7.647 8.658226
9. -1 -1 1 1 1 7.94 7.337677
10. -1 -1 1 1 2 7.4 7.337677
11. 1 -1 1 -1 1 7.947 10.44231
12. 1 -1 1 -1 2 7.623 10.44231
13. -1 1 1 -1 1 7.54 3,700976
14 -1 1 1 -1 2 7.203 3,700976
15 1 1 1 1 1 7.687 8.860563
16. 1 1 1 1 2 7.633 8.860563


Itt vannak az Ymoy nyílra és a jel / zaj arányra kapott, nem postulált modellek:

Ymoy = 7,636 - 0,5687 tCha ^ T ° Hűtés + 0,3174 (T ° Fo + tSubPress) - 0,3127 T ° Re & -T ° kemence R2a = 0,934, Q2 = 0,918, F = 71,59, SEP = 0,7446E-01 Jel / zaj = 7.803 + 7.449 (T ° Fo-tHeating) + 4.201 T ° Fo ^ tSubPress + 1.874 tCha] -T ° Sütő R2a = 0,969, Q2 = 0,964, F = 155,3, SEP = 0,5413

Ezen egyenletek tagjai csökkenő fontosságú sorrendben vannak (mindegyik megmagyarázza a maradékot, amelyet az előzőek nem magyaráznak), és pozitív vagy negatív hatásuk az együtthatók előjelétől függ.

Ezért, figyelembe véve a logikai interakciók szimbólumainak jelentését , arra következtettünk, hogy:


Ezek a modellek lehetővé teszik (többszörös húzással a tényezők változtatásával), hogy megtalálják az optimális kompromisszumot 8 hüvelyk átlagos Y-elhajlás esetén, magas jel / zaj aránnyal. Ehhez definiálhatunk kívánatossági görbéket (az általános vágy a kettő kompromisszuma):

Az alábbi táblázat a "Választás" oszlopban adja meg az e kompromisszumot támogató értékeket. Validációs tesztnek lehet alávetni.

Alacsony Magas Választás
T ° Sütő -1 1 0,99
tFűtés -1 1 -0,92
tTransferForPress -1 1 0
tSubPress -1 1 0,17
Hűtés T ° 1 2 1.03
Ymoy 7.203 8.07 7.98
Jel / zaj 3,701 11.636 11.04

A jelenség szintetikusabb megismerése érdekében kombinálhatjuk a modelleket az adatok elemzésével, például a korrelációk ikonográfiájával  :

2. ábra , linkelemzés.Folyamatos vonalak: figyelemre méltó pozitív összefüggések.Pontozott vonalak: figyelemre méltó negatív összefüggések.


Egyrészt észrevesszük Ymoy (a rugók nyílja) pozitív kapcsolatait a következőkkel:

Másrészt a negatív kapcsolatok Ymoy és:

Ami a jel / zaj arányt illeti, attól függ

Eszközök

A nem postulált többszörös regressziós modelleket lehetővé tevő eszközök közül megemlíthetjük a Corico szoftvert .

Hivatkozások

[3] Lesty M. (1999) Új megközelítés a többszörös regressziós regresszorok kiválasztásában interakciók és kollinearitások jelenlétében. Modulad áttekintése, 22. sz.1999. január, pp. 41-77

[4] Lesty M. (2002) A harmonikusok keresése, a CORICO szoftver új funkciója. Modulad áttekintése, 29. sz.2002. június, pp. 39-77