Postulált és nem postulált többszörös regressziós modellek

Modell

A modell egy vagy több Y-t magyarázó változót kapcsol össze az X magyarázó változókkal Y = F (X) funkcionális relációval

A fizikai modell egy elmélet által támogatott magyarázó modell.
A statisztikai modell éppen ellenkezőleg, egy empirikus modell, amely a rendelkezésre álló adatokból származik, az érintett mechanizmusok előzetes ismerete nélkül, ugyanakkor fizikai egyenletek integrálhatók (az adatok előzetes feldolgozása során).

Többszörös regresszió

A statisztikai modellek közül a legszélesebb körben használják.

Van n megfigyelések ( i = 1, ..., n ) p változók. A regressziós egyenlet meg van írva

${\ displaystyle y_ {i} = a_ {o} + a_ {1} x_ {i, 1} + \ cdots + a_ {p} x_ {i, p} + \ epsilon _ {i} \ qquad i = 1 \ cdots n \,}$

vagy

ε i a modellhiba;
a 0 , a 1 ,…, a p a becslendő modell együtthatói.

Az a j együtthatók és a modell hibájának kiszámítása a megfigyelések alapján jól érthető probléma (lásd: Többszörös lineáris regresszió ).

Finomabb a modellbe belépő változók megválasztása. Alkalmazható vagy sem.

Igényelt modell

Az előző modellben csak az együtthatókat „hajtják az adatok”, a modell polinomszerkezetét a felhasználó szabja meg (a probléma szakértelme szerint), aki eleve postulál:

a modell típusa: lineáris vagy polinom, és a polinom mértéke,
a modellbe belépő változók.

Példa két magyarázó változóval rendelkező polinom modellre: ${\ displaystyle y_ {i} = a_ {o} + a_ {1} x_ {i, 1} + a_ {2} x_ {i, 2} + a_ {3} x_ {i, 1} x_ {i, 2 } + a_ {4} x_ {i, 1} ^ {2} + a_ {5} x_ {i, 2} ^ {2} + \ epsilon _ {i} \ qquad i = 1 \ cdots n \,}$

A magyarázó változók kiválasztásának problémája

Ha a magyarázó változók száma nagy, előfordulhat, hogy bizonyos változók korrelálnak egymással. Ebben az esetben meg kell szüntetni a másolatokat. Ehhez a szoftver lépésenkénti választási módszereket alkalmaz (növekvő, csökkenő vagy vegyes).

Tény, hogy a végső modell minősége nagyban függ a változók megválasztásától és a polinom mértékétől.

A modell nincs feltételezve

Éppen ellenkezőleg, a „nem postulált” modell teljesen „ adatközpontú ”, mind matematikai felépítése, mind együtthatói.

A magyarázó változók kiválasztása nem igényli a modell előzetes ismeretét: nagyon nagy változók között zajlik, beleértve:

az egyszerű változók : A, B, C ... (a szakterület szakértői javasolják, ahol a p szám nagyobb lehet, mint n );
Ezen változók „ interakciói ” vagy „összekapcsolása”, például az „A * B” (keresztezett szorzata a csökkentett középpontú változókon), de olyan „ logikai interakciók ” is, mint az „A és B”, „A vagy B”, „A” és B átlag ”,„ A, ha B erős ”,„ A, ha B átlagos ”,„ A, ha B gyenge ”stb. ;
A funkciók ezen változók : például, COS (A), vagy bármely csillapított szinusz függvény vagy amplifikált, nem szinuszos periodikus függvény, küszöbhatást, stb

A kiválasztás a regresszió együtthatóinak kiszámítása előtt történik a következő elv szerint:

Keressük azt a tényezőt, vagy az „interakciót”, vagy a függvényt, amely a legjobban korrelál a reakcióval. Megtalálva azt a tényezőt vagy kölcsönhatást keressük, amely a legjobban korrelál a maradékkal , amelyet az előző korreláció nem magyaráz meg; stb. Ennek a módszernek az a célja, hogy ne számolja kétszer ugyanazt a hatást, amikor a tényezők korrelálnak egymással, és csökkenő fontosság alapján rendezi őket.

A megtalált lista fontosságának csökkenő sorrendjében rendezve nem lehet több kifejezés, mint ismeretlen ( n ). Ha csak egy kifejezést tartanak a modellben, akkor annak kell lennie az elsőnek a listában. Ha csak kettőt tartanak meg, akkor ők lesznek az első kettő stb.

Valójában, mivel a felsorolásban szereplő kifejezések mindegyike "megmagyarázza" a maradékot, amelyet az előzők nem magyaráztak, az utóbbi talán csak a "zajt" magyarázza. Melyik megállási kritériumot válassza?

A modellben megtartott kifejezések száma lehet például egy, amely minimalizálja a predikció standard hibáját SEP ( a predikció standard hibája ), vagy az, amely maximalizálja a Fisher F értéket . Ezt a kifejezések számát a felhasználó fizikai szempontok alapján is kiválaszthatja.

Példa : feltételezzük, hogy a jelölt „magyarázó változók” halmaza {A, B, C, D, E, F, G}, és hogy a kapott modell:Y = állandó + aA + b. ("E és G") + c. ("D és F jelentése")Ezt észrevesszük * az irreleváns B és C változók nem jelennek meg a modellben * az A változó egyszerű kifejezésként jelent meg, * az E és a G, valamint a D és F változók csak „ logikai kölcsönhatásként ” jelennek meg .

Ez a „ párhuzamos ” modell , vagyis kevés kifejezést tartalmaz (itt három), 5 változót tartalmaz, és jobban ragaszkodik a fizikai valósághoz, mint egy polinom modell. Valójában az "E és G" kötőszó, amely azt jelenti, hogy "E és G egyszerre erős", a fizikai valóságban gyakrabban találkozik (például: kémiai katalízis), mint az EG típusú polinom kifejezés

Harmonikus bomlás

A nem postulált modell hatékony lesz a sorozat harmonikus lebontásában is.

Ez az elv a szabálytalan mintavétel esetén is érvényes (ahol a mozgóátlag típusú módszerek, az ARIMA vagy a Box és Jenkins hibásak), mint a nem stacionárius esetekben (ahol a Fourier-elemzés nem alkalmazható ) . . Ez lehetővé teszi a különböző ciklusok és szezonalitás interferenciáinak detektálását és szétszerelését a "lépcsőfokok", "V", "logisztikai szünetek", időszakos minták és olyan véletlen események, mint az elszigetelt csúcsok vagy a "hullámdarabok" trendtöréseivel.

Példák

Alkalmazás a marketingre

A példa adatai elérhetők az interneten (lásd: Colas Promo Price Effect [1] )

Egy nagy dobozos üzletben két terméket kínálnak eladásra. A Gondolák nem feltétlenül szerepelnek, az árak változhatnak, valamint a boltok látogatottsága is változhat.

Íme a nem postulált modellek, amelyeket a két termék mindegyikéhez kaptunk:

1 AKCIÓ = 311,6 - 1386. Pri] 1GondolaForward + 492,4 Freq & 2Price R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28

2 AKCIÓ = 396,1 - 1701. (2Pri-2GondolaEnAvant) + 346,0 Freq] 1Ár R2a = 0,854, Q2 = 0,851, F = 229,3, SEP = 81,27

Ezen egyenletek tagjai csökkenő fontosságú sorrendben vannak, és pozitív vagy negatív hatásuk az együtthatók előjelétől függ.

Ezért, figyelembe véve a logikai interakciók szimbólumainak jelentését , arra következtettünk, hogy:

Az 1. termék eladása csökken, ha az ára emelkedik, ha a gondola előkerül. Az üzlet gyakoriságával nőnek, ha a 2. termék, versenytárs ára magas.
A 2. termék értékesítése csökken, ha az ára növekszik, növekszik, amikor a gondolt felállítják. Az üzletlátogatásokkal is nőnek, ha a versenytárs 1. termék ára magas.

Gyakran hasznos a modelleket társítani az összefüggések ikonográfiájának elemzésével :

1. ábra , linkelemzés.Folyamatos vonalak: figyelemre méltó pozitív összefüggések.Pontozott vonalak: figyelemre méltó negatív összefüggések.

Egyrészt észrevesszük az 1. termék értékesítésének pozitív kapcsolatait a következőkkel:

részvétel,
a bemutató gondola kiemelése.
a 2. termék ára, versenytárs.

Másrészt az 1. termék értékesítésének negatív kapcsolatai a következőkkel:

az 1. termék ára
a 2. termék promóciója, versenytárs.

Az ipari minőség javítása

Az itt használt Kackar (1985) adatok szemléltették a különféle adatfeldolgozási technikákat. Lásd: D. Collombier: Kísérletek megtervezése és az ipari minőség javítása. A Taguchi-módszer alternatívája. RSA, tome 40, n ° 2 (1992), 31–43. [2]

Javítani szeretnénk a teherautók felfüggesztéséhez használt laprugók hajlítását. A tárgylemezeket kemencében melegítjük, présben meghajlítjuk, majd olajfürdőben lehűtjük. 8 hüvelyk közeli hajlító nyílot szeretnénk megszerezni.

A gyártás ellenőrzött tényezői két szinten (alacsony és magas érték):

T ° Sütő = sütő hőmérséklete (1840 és 1880 ° F)
tFűtés = fűtési idő (25 és 23 másodperc)
tTransferForPress = a sütőprés átadásának időtartama (10 és 12 másodperc)
tSubPress = nyomásidő (2 és 3 másodperc)
Hűtés T ° = hűtési hőmérséklet. A gyártás során nehezen ellenőrizhető, csak tesztelés alatt vezérelhető. Kétszintű zajszámként kezelik (130-160 ° F és 150-170 ° F)

A választott kísérleti tervet, amely 8 tesztet tartalmaz (a gyártási tényezőkre vonatkozóan), ezért kétszer megismételjük, minden hűtési hőmérsékletre. Ez 16 teszt.

Ezenkívül mindegyik tesztet háromszor megismétlik a nem ellenőrzött zajforrások figyelembevétele érdekében. Vagyis összesen 48 teszt.

A kísérlet válaszai a következők

Ymoy = átlagos nyíl az alacsony hűtési hőmérséklethez (átlag 3 mérés felett)
Ymoy = átlagos nyíl a magas hűtési hőmérséklethez (átlag 3 mérés felett)
Jel / zaj arány = gyártási tesztenként 6 mérésből számítva.

A következő táblázatban a gyártási tényezők szintje -1-gyenge és 1 erős. A hűtési hőmérsékleti szintet gyengének 1, erősnek 2.

	T ° Sütő	tFűtés	tTransfer FourPress	tSubPress	Hűtés T °	Ymoy	Jel / zaj
1	-1	-1	-1	-1	1	7.79	5.426739
2	-1	-1	-1	-1	2	7.29	5.426739
3	1	-1	-1	1	1	8.07	11.6357
4	1	-1	-1	1	2	7.733	11.6357
5.	-1	1	-1	1	1	7.52	6.360121
6.	-1	1	-1	1	2	7.52	6.360121
7	1	1	-1	-1	1	7.63	8.658226
8.	1	1	-1	-1	2	7.647	8.658226
9.	-1	-1	1	1	1	7.94	7.337677
10.	-1	-1	1	1	2	7.4	7.337677
11.	1	-1	1	-1	1	7.947	10.44231
12.	1	-1	1	-1	2	7.623	10.44231
13.	-1	1	1	-1	1	7.54	3,700976
14	-1	1	1	-1	2	7.203	3,700976
15	1	1	1	1	1	7.687	8.860563
16.	1	1	1	1	2	7.633	8.860563

Itt vannak az Ymoy nyílra és a jel / zaj arányra kapott, nem postulált modellek:

Ymoy = 7,636 - 0,5687 tCha ^ T ° Hűtés + 0,3174 (T ° Fo + tSubPress) - 0,3127 T ° Re & -T ° kemence R2a = 0,934, Q2 = 0,918, F = 71,59, SEP = 0,7446E-01 Jel / zaj = 7.803 + 7.449 (T ° Fo-tHeating) + 4.201 T ° Fo ^ tSubPress + 1.874 tCha] -T ° Sütő R2a = 0,969, Q2 = 0,964, F = 155,3, SEP = 0,5413

Ezen egyenletek tagjai csökkenő fontosságú sorrendben vannak (mindegyik megmagyarázza a maradékot, amelyet az előzőek nem magyaráznak), és pozitív vagy negatív hatásuk az együtthatók előjelétől függ.

Ezért, figyelembe véve a logikai interakciók szimbólumainak jelentését , arra következtettünk, hogy:

Az átlagos válasz csökken, ha csökken a tFűtés vagy a T ° hűtés; a maradék, amelyet az előző kifejezések nem magyaráznak meg, nő, ha a T ° Four + tSousPresse növekszik; és végül ezeknek a megmagyarázhatatlan maradványoknak a maradéka csökken, ha a T ° hűtés a T ° Sütő csökkenésével egyidejűleg növekszik.
A jel / zaj arány növekszik (ezért csökken a diszperzió), amikor a T ° kemence növekszik, és akkor is, amikor a t hevülés csökken; a maradék, amelyet az előző kifejezések nem magyaráznak meg, T ° Four-tal vagy tSousPresse-vel növekszik; és végül ezeknek a megmagyarázhatatlan maradványoknak a maradéka megnő a hevítéssel, ha a T ° kemence alacsony.

Ezek a modellek lehetővé teszik (többszörös húzással a tényezők változtatásával), hogy megtalálják az optimális kompromisszumot 8 hüvelyk átlagos Y-elhajlás esetén, magas jel / zaj aránnyal. Ehhez definiálhatunk kívánatossági görbéket (az általános vágy a kettő kompromisszuma):

Az alábbi táblázat a "Választás" oszlopban adja meg az e kompromisszumot támogató értékeket. Validációs tesztnek lehet alávetni.

	Alacsony	Magas	Választás
T ° Sütő	-1	1	0,99
tFűtés	-1	1	-0,92
tTransferForPress	-1	1	0
tSubPress	-1	1	0,17
Hűtés T °	1	2	1.03
Ymoy	7.203	8.07	7.98
Jel / zaj	3,701	11.636	11.04

A jelenség szintetikusabb megismerése érdekében kombinálhatjuk a modelleket az adatok elemzésével, például a korrelációk ikonográfiájával :

2. ábra , linkelemzés.Folyamatos vonalak: figyelemre méltó pozitív összefüggések.Pontozott vonalak: figyelemre méltó negatív összefüggések.

Egyrészt észrevesszük Ymoy (a rugók nyílja) pozitív kapcsolatait a következőkkel:

a jel / zaj arány,
a T ° kemence.

Másrészt a negatív kapcsolatok Ymoy és:

a hevítés időtartama
hűtési hőmérséklet.

Ami a jel / zaj arányt illeti, attól függ

pozitívan a T ° Four-ból,
negatívan tFűtés.

Eszközök

A nem postulált többszörös regressziós modelleket lehetővé tevő eszközök közül megemlíthetjük a Corico szoftvert .

Hivatkozások

[3] Lesty M. (1999) Új megközelítés a többszörös regressziós regresszorok kiválasztásában interakciók és kollinearitások jelenlétében. Modulad áttekintése, 22. sz.1999. január, pp. 41-77

[4] Lesty M. (2002) A harmonikusok keresése, a CORICO szoftver új funkciója. Modulad áttekintése, 29. sz.2002. június, pp. 39-77