Az adatelemzés (más néven feltáró adatelemzés vagy EDA ) statisztikai módszerek családja, amelynek fő jellemzői a többdimenziósak és leíró jellegűek. Francia értelemben tehát az „adatelemzés” terminológia kijelöli az általánosságban többváltozós statisztikának nevezett részhalmazot . Bizonyos módszerek, többnyire geometriai formában , segítenek a különböző adatok között fennálló kapcsolatok előhívásában és azokból olyan statisztikai információk levezetésében, amelyek lehetővé teszik az ezekben az adatokban található főbb információk rövidebb leírását. Más technikák lehetővé teszik az adatok csoportosítását, hogy egyértelműen megmutassák, mi teszi őket homogénné , és ezáltal jobban megértsék azokat.
Az adatelemzés lehetővé teszi nagyon nagy mennyiségű adat feldolgozását és struktúrájának legérdekesebb szempontjainak azonosítását. Ennek a tudományágnak az elmúlt években elért sikere nagyrészt a rendelkezésre álló grafikus ábrázolásoknak köszönhető . Ezek a grafikonok kiemelhetik a közvetlen adatelemzéssel nehezen felfogható összefüggéseket; de mindenekelőtt ezek az ábrázolások a klasszikus statisztika módszereivel ellentétben nem kapcsolódnak az elemzett jelenségek törvényeivel kapcsolatos „a priori” véleményhez .
Az adatok elemzésének matematikai alapjai a XX . Század elején kezdtek kialakulni , de ez a számítógép tette ezt az operatív fegyelmet, és ez nagyon széles körű segítséget nyújtott. A matematika és az informatika szorosan összefügg egymással.
Francia értelemben az „adatelemzés” terminológia az általánosságban többváltozós statisztikának nevezett részhalmazot jelöli meg . Az adatelemzés olyan leíró technikák összessége, amelyek fő matematikai eszköze a mátrixalgebra, és amelyet úgy fejeznek ki, hogy eleve nem feltételeznek valószínűségi modellt.
Magában foglalja a kvantitatív adatokhoz használt főkomponens-elemzést (PCA) és annak levezetett módszereit: a kvalitatív adatoknál alkalmazott faktoriális megfeleltetési elemzést (CFA) (asszociációs táblázat) és a faktoriális megfelelés elemzését. Az előzőt általánosító többszöröseket (AFCM vagy ACM). A kanonikus elemzés és az általánosított kanonikus korreláció , amelyek inkább elméleti keretek, mint könnyen alkalmazható módszerek, kiterjesztenek ezek közül a módszerek közül többet, és túlmutatnak a leírási technikákon. A többtényezős elemzés alkalmas olyan táblázatokra, amelyekben a változók csoportokba vannak strukturálva, és lehetnek kvantitatívak és / vagy kvalitatívak. Az automatikus osztályozás , a diszkrimináns elemzés (FDA) vagy a diszkrimináns elemzés, amelyet a homogén csoportok azonosítására használnak a populáción belül a vizsgált változók szempontjából.
Az adatelemzés mellett a jelfizikából származtatott, kezdetben vak forrás szétválasztási módszerként ismert újabb független komponenselemzés (ICA) intuitív módon közelebb áll a felügyelet nélküli osztályozási módszerekhez. A kvalitatív és kvantitatív adatok korrelációinak ikonográfiája grafikonokba rendezi a változók közötti összefüggéseket. Tucker akkumulátorok közötti elemzése közbenső a kanonikus elemzés és a főkomponens-elemzés között, a redundancia-elemzés, amelyet instrumentális változók főkomponens-elemzésének is neveznek, hasonló a regresszióhoz, mivel az egyik elemzett csoport változóit függőnek, a többit függetlennek tekintik, és hogy a maximalizálandó függvény a két csoport közötti korrelációs együtthatók összege.
Eltekintve a francia iskola, az elemzés a többváltozós statisztikai befejeződött módszerével vetítés törekvés a John Tukey és mennyiségi módszerek Chikio Hayashi , melynek mennyiségi III típusú hasonló korrespondanciaanalízisben. Az angolszász faktoros elemzés, vagy „ Factor Analysis ” , közel van az elemzést főkomponens, anélkül, hogy ezzel egyenértékű, mert használja a technikát a regresszió , hogy felfedezze a „látens változók”.
Ezek a módszerek lehetővé teszik különösen a nagy adattáblákból származó információk manipulálását és szintetizálását, a vizsgált változók közötti korrelációk becslésének felhasználásával . Az alkalmazott statisztikai eszköz a korrelációs mátrix vagy a variancia-kovariancia mátrix .
A modern adatelemzés atyái Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (az „ Data Sciences ” néven ismert módszerek tervezője ), Douglas Carroll és RN Shepard.
De jóval a koruk előtt már ismertek az adatelemzés alapvető technikái. A táblázatok előre , például jelen vannak már a történelem: a legyőzhetetlen armada ismertetik Alvarez Paz Salas és megjelent egy könyv 1588 formájában olyan táblázatot, ahol a sorok képviselik a flotta a hajók és az oszlopokat, jellemzők például az űrtartalom, a fegyveres személyzet száma stb. Nicolas de Lamoignon de Basville, XIV . Lajos király intendense , 1696-ban megszámolta és jellemezte a Languedoc- vidéki kolostorokat és kolostorokat .
A besorolás 1735 és 1758 között Carl von Linné személyében talál gazdára, aki abban az időben megteremtette a binomiális nómenklatúra és a modern taxonómia alapjait. Robert R. Sokal és Peter HA Sneath 1963-ban bemutatták a taxonómiában alkalmazott kvantitatív módszereket .
A modern adatok elemzéséhez szükséges fogalmak elsajátítása a XIX . Század elején kezdődött . Adolphe Quetelet belga csillagász és statisztikus a Gauss-törvényektől kezdve az antropometriáig használja a férfiak csoportjainak mérései átlagának ( varianciája ) körüli diszperzió vizsgálatát . Ezután Francis Galton , mivel az apák és a fiúk méretét akarja tanulmányozni , két mennyiség együttes variációja (a kovariancia és a korreláció ) érdekli , amely a mai hui regressziónak nevezhető.
Amikor Karl Pearson és Raphael Weldon kézbe veszi Francis Galton munkáját, általánosítani tudják Galton regresszióját többdimenziós adatokra, majd Karl Pearsonnak az az ötlete van, hogy 1901-ben a független változók függvényében megváltoztassa a prezentációs tengelyeket, így létrehozva a fő komponens elemzésének helyiségei . Ezt 1933-ban Harold Hotelling dolgozta ki, aki 1936-ban meghatározta a kanonikus elemzést .
Marion Richardson és Frederic Kuder 1933, kérve, hogy javítsa a minőségi eladók „ Procter & Gamble ” használata az úgynevezett most az algoritmus ( „ Kölcsönös átlagolás ” ), jól ismert a ACP. Herman Ottó Hirschfeld , az ő kiadvány „ A kapcsolat a korreláció és a készenléti ” , felfedezi az egyenleteket korrespondanciaanalízis.
A pszichometria fejleszti leginkább az adatelemzést. Amikor Alfred Binet meghatározta pszichometriai tesztjeit a gyermekek intelligenciájának mérésére, Charles Spearman felhasználta őket 1904-ben az általános és specifikus tényezők elméletének meghatározására, amelyek mérik a tevékenység általános alkalmasságát és különleges alkalmasságát. Louis Leon Thurstone 1931-ben kifejlesztette a faktorelmélet által indukált egyenleteket mátrix formában , és kiegészítette a hiba kifejezés tanulmányozásával. Bevezeti a fő tehetetlenségi tengelyek fogalmát is. 1933-ban Harold Hotelling az iteráció alkalmazását javasolta a mátrixok átlósításához és a sajátvektorok kereséséhez.
Jean-Paul Benzécri és Brigitte Escofier-Cordier 1962-65-ben javasolták a Factorial Correspondence Analysis-t, de 1954-ben Chikio Hayashi már megalapozta ennek a módszernek a Type III Quantification nevet.
A többszörös levelezési elemzést Louis Guttman 1941-ben, Cyril Burt 1950-ben és Chikio Hayashi kezdeményezte 1956-ban. Ezt a technikát 1952- ben Japánban fejlesztette ki Shizuhiko Nishisato „ Dual Scaling ” néven , Hollandiában pedig 1990-ben „ néven ”. a homogenitás analízis " a kollektív Albert Gifi.
A számítógép és különösen a mikrokomputer megjelenése olyan technológiai ugrás, amely komplex számításokat, átlósításokat, sajátértékek keresését teszi lehetővé nagy adattáblákon, nagyon késleltetve az eredmények megszerzését. a múlt.
Az adatelemzést minden területen alkalmazzák, ha túl sok adat van ahhoz, hogy az emberi elme megértse őket.
A bölcsészettudományokban ezt a technikát használják fel a közvélemény-kutatások eredményeinek azonosítására , például a többszörös levelezés-elemzéssel vagy a faktor-levelezési elemzéssel. A szociológia az adatok elemzésére támaszkodik bizonyos populációk, például Libanon életének és fejlődésének megértése érdekében, amelynek evolúcióját két 1960-ban és 1970-ben Jean-Paul Benzécri által bemutatott tanulmány mutatja be, és az életszínvonal és annak javulása főkomponens-elemzéssel elemezték. A kérdőívre adott válaszok elemzéséhez a szociológiában gyakran alkalmaznak többszörös levelezési elemzést . Christian Baudelot és Michel Gollac szociológusok többszörös levelezési elemzéssel tanulmányozzák a franciák munkájához való viszonyát. Pierre Bourdieu ihletet merítve egy adott "terület" tanulmányozásához, Frédéric Lebaron szociológus az MCA-t alkalmazza a francia közgazdászok területének elemzésére, Hjellbrekke és társszerzõi ugyanezt a módszert alkalmazzák a norvég elit területének elemzésére. Hasonlóképpen, François Denord és társszerzői az ACM segítségével elemzik a francia hatalom terét a Ki kicsoda alapján. A Pierre Bourdieu által ihletett művekben is példaként vehetjük Julien Duval francia mozi területének elemzését. A nyelvészek a szövegelemzési és adatelemzési technikák segítségével bizonyos szavak használatának gyakoriságának vizsgálatával megkeresik a politikai spektrum egyik tagját. Brigitte Escofier-Cordier vizsgálták egyes elemeit a szókincs felhasznált Racine játszani, Phaedra , hogy megmutassa, milyen a szerző szavakat használ a horgonyt a karakterek a társadalmi hierarchiában. A közgazdaságtanban C. Desroussilles tanulmányozta a vállalati mérlegeket, hogy leírja e szervezetek felépítését és méretét növekvő osztályozás és levelezési elemzés segítségével. Az EGK-ban a háztartások fogyasztásának szerkezetét Jean-Paul Benzécri et al. a levelezési elemzés két tengelyén, és az ipari gazdasági tevékenységek osztályozásának elkészítésének első lépése megmutatja a levelezési elemzés és a hierarchikus osztályozás hasznosságát az ilyen típusú műveletekben.
A tudomány és a technológia területén egyes kutatók ezeket a statisztikai módszereket alkalmazzák a genom számos jellemzőjének megfejtésére . Mások az adatok elemzésével hozzák létre az arcok felismeréséhez szükséges folyamatot . A járványtan , Inserm biztosít az adatok, amelyek Husson et al. faktoriális levelezési elemzés útján, hogy leírják a korcsoportokat Franciaországban a halandóság okai szerint . Jean-Paul Benzécri példákat is felhoz a levelezési elemzésnek a tanulás , a hidrológia és a biokémia összefüggésében történő alkalmazására . Példa a környezettudományokra a búza fémnyomainak tanulmányozása a művelt talajok függvényében, amely általában kanonikus összefüggések elemzését használja meglehetősen elméleti eszközként. Ez az évszázad első évtizedében az Observatoire des Maladies du Bois de la Vigne a szőlő három betegségének fejlődését igyekezett felmérni, többek között a többszörös megfeleltetés elemzésével és a növény-epidemiológia fő összetevőinek elemzésével. projekt .
A sport területe nagyon szereti a statisztikákat: a sportorvos kíváncsi a gyakorlók életkorára, motivációira és az általuk gyakorolt sportra. Egy másik tanulmányban a sport a sportolók motivációira összpontosít, amelyek a barátságtól és a bajtársiasságtól az egy tengelyen képviselt asszertivitásig, a természettől és a szépségtől kezdve a második tengelyen átívelő harcig terjednek. A szociológus azt szeretné tudni, ha a társas követői a sport befolyásolja a gyakorlatban az emberi biometriai jellemző morfológiája a sportoló szerint a sport is gyakorolja, és abban az esetben, csapat sportok helyzetét elfoglalja a csapat, stb.
A mikrofinanszírozás az adatelemzést is felhasználta a kockázat felmérése és a hitelfelvevők népességének azonosítása érdekében. A biztosítási ágazat az adatok elemzését használja a kockázattudatosság és az előzetes árképzés érdekében.
A többdimenziós adatok ábrázolása redukált dimenziós térben a faktoranalízisek, a megfelelési faktor-elemzés, a főkomponens-elemzés, a többszörös megfelelés-elemzés. Ezek a módszerek lehetővé teszik az elemezendő pontok felhőjének egy síkban vagy egy háromdimenziós térben való ábrázolását, túl sok információveszteség és előzetes statisztikai hipotézis nélkül. A matematikában a mátrixszámítást, valamint a vektorok és sajátértékek elemzését használják ki .
A főkomponens-elemzést arra használjuk, hogy a p korrelált változókat q korrelálatlan változók számára redukáljuk úgy, hogy a q változók az eredeti p változók lineáris kombinációi, varianciájuk maximális, és az új változók merőlegesek, és egy adott távolságot követnek. A PCA-ban a változók kvantitatívak.
A komponensek, az új változók meghatároznak egy q-dimenziós alteret, amelyre az egyének minimális információveszteséggel vetülnek. Ebben a térben a pontfelhőt könnyebb ábrázolni, az elemzést pedig könnyebb. A levelezési elemzés során az egyének és változók ábrázolása nem ugyanabban a térben történik.
Az adatok ábrázolási minőségének mérése elvégezhető az egyes komponensek tehetetlenségének az összes tehetetlenséghez való hozzájárulásának kiszámításával. A szemközti két képen bemutatott példában az első komponens 45,89% -kal járul hozzá a teljes tehetetlenséghez, a második 21,2% -hoz.
Minél közelebb vannak a változók az összetevőkhöz, annál jobban korrelálnak velük. Az elemző ezt a tulajdonságot használja a tengelyek értelmezéséhez. A 01. ábra példáján a két fő összetevő azt a fő tevékenységet és a leggyakoribb másodlagos tevékenységet jelenti, amelyben a nők (F) és a férfiak (M) házasok (M) vagy egyedülállók (C) az USA-ban (U) vagy Nyugat-Európában. (W) megosztják a napjukat. A 02. ábrán a korrelációk körét szemléltetjük, ahol a változók az első két komponens síkján való vetítésüknek megfelelően vannak ábrázolva. Minél jobban képviselik a változókat, annál közelebb vannak a körhöz. A két változó által alkotott szög koszinusa megegyezik a két változó közötti korrelációs együtthatóval.
Hasonlóképpen, minél kisebb az egyén és a komponens tengelye által generált szög, annál jobban megjelenik az egyén. Ha két, tengely által jól ábrázolt egyed közel van, akkor közel vannak a térben. Ha két egyén távoli a vetületben, akkor távoli a térében.
Az AFC célja - amelyet Jean-Paul Benzécri és csapatai határoztak meg - két kvalitatív (nominális) változó közötti kapcsolat vagy összefüggés megtalálása. Ez a technika ennek a két változónak a kontingenciatáblázatát dolgozza fel . Valójában az AFC ezeken a táblákon PCA, amely a du metrikával kapott kezdeti táblázatból származik . Az AFC elve megegyezik a PCA elvével. A két kvalitatív változó gyakorisági táblázatának alapjául szolgáló magyarázó tengelyeket egy grafikon keresi és mutatja be.
Legalább két különbség van a PCA és a CFA között: az első az, hogy az egyéneket és a változókat ugyanazon a grafikonon tudjuk ábrázolni, a második a hasonlóságra vonatkozik. Két oszloppont áll közel a grafikus ábrázoláshoz, ha az oszlopprofilok hasonlóak. Például a 03. ábrán látható grafikonon Párizs és a Yvelines hasonló módon szavaztak, ami nem nyilvánvaló, ha a kezdeti készenléti táblázatot nézzük, mivel a szavazók száma meglehetősen eltérő a két osztályban. Hasonlóképpen két oszloppont (a 03. és 04. ábra példáján az oszloppontok a jelöltek) grafikusan közel állnak egymáshoz, ha a sorprofilok hasonlóak. A példában (04. ábra) a szervezeti egységek ugyanúgy Bayrou és Le Pen mellett szavaztak. A sorok és az oszlopok pontjai nem hasonlíthatók össze egyszerű módon.
A tényezők értelmezését illetően Jean-Paul Benzécri nagyon egyértelmű:
"... egy tengely értelmezése annyit jelent, hogy meg kell találni azt, ami egyrészt mindaz, ami az eredettől jobbra van írva, másrészt mindaz, ami balra tér el; és tömören és pontosan fejezze ki a két véglet ellentétét ..... Gyakran egy tényező értelmezését finomítja az utána járók figyelembevétele. "
- Jean-Paul Benzécri, Adatelemzés: 2 levelezési elemzés
A grafikus ábrázolás minősége globálisan értékelhető az egyes tengelyek által megmagyarázott részekkel (a teljes minőség mérése), a tengelyre vetített pont tehetetlenségével, osztva a pont teljes tehetetlenségével (a mindegyik modalitás), egy tengely hozzájárulása a teljes tehetetlenséghez vagy egy felhő tehetetlenségének aránya (profilok_vonalak vagy profilok_oszlopok), amelyeket ugyanazon felhő teljes tehetetlensége vetít egy tengelyre.
A Multiple Correspondence Analysis (MCA) az AFC kiterjesztése.
Az ACM azt javasolja, hogy n egyeden végzett p (p ≥ 2) kvalitatív változókat elemezzünk. Mivel tényezői elemzésről van szó, az adatok a tényezők által generált redukált dimenziós térben való megjelenítését eredményezi. Az MCA egyenértékű a minőségi változók PCA-jával, és az AFC-re csökken, ha a minőségi változók száma 2.
Formálisan az ACM egy AFC, amelyet a teljes diszjunktív táblára alkalmaznak , vagy egy AFC, amelyet a Burt táblára alkalmaznak , ezt a két táblázatot az eredeti táblázatból veszik. A teljes disszjunktív tábla az a táblázat, ahol a változókat a modalitásuk, az elemeket pedig 1, ha a modalitás minden egyes egyén esetében 0 teljesül. A Burt tábla a párban vett p változók vészhelyzeti táblázata.
Az értelmezés azon modalitások szintjén történik, amelyek közelségét megvizsgálják. A sajátértékeket csak a tengelyek számának meghatározására használják, vagy a könyök módszerével, vagy csak a sajátnál nagyobb sajátértékek felvételével . A modalitások tehetetlenségének a különböző tengelyekhez való hozzájárulását elemzik, mint az AFC-ben.
A tengelyek értelmezésében segíthetnek olyan változók, amelyek nem vesznek részt a tengelyek felépítésében és a sajátértékek kiszámításában sem.
Az egyén faktoriális tengelyen való reprezentációjának minőségét azzal mérjük, hogy hol van az a szög, amelyet az egyes vektor vetülete képez a faktoriális téren a faktoriális tengellyel. Minél közelebb van az értéke 1-hez, annál jobb a minőség.
A kanonikus elemzés lehetővé teszi a kvantitatív változók két csoportjának összehasonlítását, mindkettőt ugyanazokra az egyénekre alkalmazva. A kanonikus elemzés célja e két változócsoport összehasonlítása, hogy lássák, ugyanazt a jelenséget írják-e le, ebben az esetben az elemző a két változócsoport egyikének nélkülözheti.
Beszédes példa az ugyanazon mintákon két különböző laboratórium által elvégzett orvosi elemzésekre. A kanonikus elemzés olyan változatos módszereket általánosít, mint a lineáris regresszió , a diszkrimináns elemzés és a faktoriális megfelelés elemzése .
Több formálisan, illetve és a két csoport a változók, kanonikus analízis néz ki pár vektorok , lineáris kombinációi a változók és rendre a legnagyobb korrelációs lehetséges. Ezeket a változókat kanonikus változóknak nevezzük. Az űrben ezek a sajátvektorai a vetületeknek , illetve azok alterének, és ahol p és q a két változóhalmaz által generált két csoport változóinak számát jelenti. méri a két csoport közötti összefüggést. Minél magasabb ez a mérték, annál inkább korrelál a két változócsoport, és annál inkább kifejezik ugyanazt a jelenséget az egyéneken.
A 8. ábra szemléltetésén a két csoporton belüli változók közötti összefüggéseket a legfelső korrelogrammok képviselik, a két csoport közötti összefüggést az alábbiakban fejtjük ki. Ha az uralkodó szín világoszöld volt, nem észleltek volna összefüggést. A 07. ábrán a két változócsoport összegyűlik az első két kanonikus változóval összefüggő összefüggések körében.
Végül az általánosított kanonikus elemzés Caroll értelmében (JDCaroll után) kiterjeszti a hétköznapi kanonikus elemzést a változók p csoportjainak (p> 2) vizsgálatára, amelyeket az egyének ugyanazon terére alkalmaznak. Különleges esetekként elismeri a PCA, az AFC és az MCA, az egyszerű kánon analízist, de az egyszerű és többszörös regressziót , a varianciaanalízist , a kovariancia elemzését és a diszkrimináns elemzést is.
Ennek a technikának az alkalmazásához a táblázatok nem egyénekre jellemző változók lehetnek, hanem az egyének közötti „távolságok”. Az elemző meg kívánja vizsgálni az egyének közötti hasonlóságokat és különbségeket.
A többdimenziós pozícionálás ( „ multidimensional scaling ” vagy MDS) tehát faktoriális módszer, amelyet az egyének közötti távolságmátrixokon lehet alkalmazni . Ez a módszer nem része annak, amit általában „francia stílusú” adatelemzésnek neveznek. De ugyanazokkal a jellemzőkkel rendelkezik, mint az előző módszerek: mátrixszámításon alapul, és nem igényel valószínűségi hipotézist. Az adatok lehetnek p kvantitatív változók n egyeden végzett mérései, és ebben az esetben az elemző kiszámítja a távolságok mátrixát, vagy közvetlenül az egyének közötti távolság táblázatot .
A klasszikus, úgynevezett metrikus esetben az alkalmazott eltérések mértéke egy euklideszi távolság. Lehetővé teszi a csökkentett dimenziós térben az egyének közötti különbségek közelítését. Nem metrikus esetben az adatok rendesek, rangtípusúak. Az elemzőt inkább a különbségek sorrendje, nem pedig azok mértéke érdekli. A nem metrikus MDS disszimilaritás indexet használ (egyenértékű a távolsággal, de a háromszög egyenlőtlenség nélkül), és lehetővé teszi a különbségek mátrixában a bejegyzések sorrendjének közelítését a csökkentett dimenzió terében lévő távolságok sorrendjével.
A PCA-hoz hasonlóan meg kell határozni a céltér dimenzióinak számát, és az ábrázolás minőségét a csökkentett dimenziós altér tehetetlenségének és a teljes tehetetlenségnek az arányával kell mérni. Valójában az MDS metrika egyenértékű egy PCA-val, ahol az MDS elemzés tárgyai a PCA egyedei lennének. A szemközti példában a városok lennének a PCA egyedei, és a GPS helymeghatározás helyettesítené a városok közötti távolságokat. De az MDS elemzés kiterjeszti a PCA-t, mivel a hasonlóság / különbség függvényeket kevésbé korlátozó módon képes használni, mint a távolságokat.
A többdimenziós pozícionálás segítségével a különböző mátrixok vizualizálása, a referenciaértékek elemzése és az adatok vagy a különbségek mátrixainak vizuális végrehajtása könnyű művelet.
A többtényezős elemzés (MFA) olyan táblázatoknak szól, amelyekben az egyének halmazát több változócsoport írja le, függetlenül attól, hogy ezek a változók kvantitatívak, kvalitatívak vagy vegyesek. Ez a módszer kevésbé ismert, mint az előzőek, de nagyon nagy alkalmazási lehetősége külön említést igényel.
Alkalmazási példákMindezekben a példákban hasznos figyelembe venni az elemzés során, és nem csak az értelmezés során, a változók csoportos szerkezetét. Ezt teszi az AFM, amely:
Ezek az újabban kifejlesztett módszerek kevésbé ismertek, mint az előzőek.
Az egyének besorolása az automatikus osztályozás és a diszkrimináns elemzés területe. A besorolás az osztályok meghatározásából áll, a besorolás az a művelet, amely lehetővé teszi egy objektum előzetesen meghatározott osztályba sorolását. Az automatikus besorolást adatbányászat ( " adatbányászat " ) felügyelet nélküli osztályozásnak nevezik, a diszkrimináns elemzés az egyik statisztikai technika, amelyet adatbányászati klaszter névnek neveznek.
Az automatikus osztályozás célja, hogy az összes vizsgált adatot felosztja egy vagy több osztálynak nevezett részhalmazra, mindegyik részhalmaznak a lehető leghomogénebbnek kell lennie. Az egyik osztály tagjai jobban hasonlítanak ugyanannak az osztálynak a többi tagjához, mint egy másik osztály tagjai. A besorolásnak két típusa különböztethető meg: egyrészt a "lapos" osztályozás (particionálás vagy átfedés), másrészt a hierarchikus felosztás. Mindkét esetben a besorolás a hasonlóság / különbség mértékének, a homogenitás kritériumának, az algoritmusnak és néha a partíciót alkotó számos osztály kiválasztásának.
Besorolás "lapos"Az egyének hasonlóságát (hasonlósága / diszimilaritása) hasonlósági index, disszimaritási index vagy távolság alapján mérjük. Például bináris adatok esetében gyakran alkalmaznak hasonlósági mutatókat, például a Jaccard- indexet, a Dice-indexet, a konkordancia indexet vagy a Tanimoto- t. A kvantitatív adatokhoz az euklideszi távolság a legmegfelelőbb, de a Mahalanobis-távolságot néha elfogadják. Az adatok vagy n egyénen mért kvalitatív vagy kvantitatív változók mátrixai, vagy közvetlenül távolságadatok vagy eltérési adatok.
Az osztályhomogenitás kritériumát általában egy osztályközi vagy osztályon belüli variancia-kovariancia mátrix (inercia) átlója fejezi ki. Ez a kritérium lehetővé teszi a dinamikus újraelosztási algoritmusok konvergenciáját, amelyek minimalizálják az osztályon belüli tehetetlenséget vagy maximalizálják az osztályok közötti tehetetlenséget.
A fő algoritmus használ dinamikus újraelosztását alkalmazásával BW Forgy eljárás mobil központok , vagy annak egy változata van: a k-means módszer , a dinamikus felhő módszer , vagy PAM ( „ particionálás körül Medoids (PAM) ” ).
A Condorcet- módszeren alapuló módszereket , az elvárás-maximalizálás algoritmusát , a sűrűségeket is felhasználják osztályozás felépítésére.
Nincs osztályozás jobb, mint a többi, különösen, ha a partíció osztályainak száma nincs előre meghatározva. Ezért szükséges az osztályozás minőségének mérése és a kompromisszumok megkötése. A besorolás minősége az indexek segítségével mérhető, amely az osztályok közötti tehetetlenség és a teljes tehetetlenség aránya, az osztályok összes számának több értékére számítva, a kompromisszumot könyök módszerével érjük el.
Az osztályok értelmezése, amely lehetővé teszi a pontszám megértését, az egyes osztályokat alkotó egyének elemzésével végezhető el. A statisztikus meg tudja számlálni az egyes osztályok egyedeit, kiszámíthatja az osztályok átmérőjét - azaz az egyes osztályok egyedeinek maximális távolságát. Meg tudja azonosítani a súlypont közelében lévő egyéneket, meg tudja állapítani a két osztály közötti elkülönítést - ez a művelet az osztályok két tagja közötti minimális távolság mérésével jár. Elemezheti a változókat is, például kiszámítva az egyes osztályok egyedei által felvett változók bizonyos értékeinek gyakoriságát, vagy az osztályokat az egyes osztályok egyedei által felvett változók bizonyos értékeivel jellemezve.
Hierarchikus osztályozásA hierarchikus növekvő besorolás (HAC) bemeneti adatait a különbségek vagy az egyének közötti távolságok táblázata formájában mutatjuk be .
Először választanunk kellett egy távolságot (euklideszi, manhattani, csebisevi vagy más) vagy egy hasonlósági indexet (Jacard, Sokal, Sorensen, lineáris korrelációs együttható vagy más).
A növekvő osztályozás az egyének osztályozását javasolja iteratív algoritmus segítségével. Minden lépésnél az algoritmus egy partíciót állít elő az előző lépésben kapott partíció két osztályának összesítésével.
A két osztály kiválasztásának kritériuma az összesítés módjától függ. A legelterjedtebb a Ward-módszer, amely abból a két osztály összesítéséből áll , amelyek legkevésbé csökkentik az osztályközi tehetetlenséget. Más aggregációs indexek léteznek, például a minimális ugrás ( " single linkage " ) indexe, ahol két partíciót összesítenek, amelyeknél két elem - az első az első osztályba tartozik, a második a másodikba - áll a legközelebb a távolságtól. vagy annak az átmérőnek ( „ teljes összekapcsolódás ” ), amelyhez a két összesítendő osztály a legtávolabbi elempárral rendelkezik.
Az alulról felfelé építkező algoritmus akkor ér véget, amikor csak egy osztály maradt.
Az osztályozás minőségét az osztályközi tehetetlenség és a teljes tehetetlenség arányával mérjük.
A vegyes stratégiák, amelyek a „lapos” osztályozást és a hierarchikus osztályozást ötvözik, bizonyos előnyöket kínálnak. Az ACH elvégzése a dinamikus átcsoportosítással végzett osztályozással kapott homogén osztályokon lehetővé teszi nagy, több ezer egyedből álló táblázatok feldolgozását, amire egyedül az ACH nem képes. Az ACH elvégzése a mintavétel és a faktoranalízis után lehetővé teszi a mintavétel tekintetében homogén osztályok megszerzését.
A diszkrimináns faktoranalízis (DFA), amely a diszkrimináns elemzés leíró része, lineáris diszkriminancia-elemzésnek, Fisher- diszkriminancia-analízisnek és kanonikus diszkriminancia-elemzésnek is nevezik . Ez a technika előre definiált osztályokat vetít ki a faktoriális tervekre, amelyek a lehető legnagyobb mértékben különbséget tesznek. Az adattábla n egyedet ír le, amelyeken p kvantitatív és egy q modalitású kvalitatív változót mértek. A kvalitatív változó lehetővé teszi a q osztályok és az egyének csoportosítását ezekben az osztályokban. Az AFD azt javasolja, hogy keressenek q-1 változókat, úgynevezett diszkrimináns változókat, amelyek tengelyei leginkább elválasztják a q osztály vetületeit, amelyek elvágják a pontok felhőjét.
Mint minden leíró tényező-elemzésben, előzetesen nem készülnek statisztikai feltételezések; csak a diszkrimináns elemzés prediktív részében készülnek eleve feltételezések .
Minőségének mérésére a diszkrimináció végezzük a Wilks , amely egyenlő az arány a meghatározó a mátrix variancia-kovariancia intraclass a meghatározására a teljes variancia-kovariancia mátrixot. A gyenge Wilks tényleges megkülönböztetést jelez a tényleges tervek alapján. Például az írisz adatokon 0,0234 az első két tényező. Sőt, ha az első sajátérték közel 1, akkor az AFD minőségi.
A változók és a tényezők közötti összefüggés lehetővé teszi azok értelmezését.
Az AFD egy PCA, amelyet a kvalitatív változó módszereinek felhasználásával kialakított egyének osztályainak baryközpontjain hajtanak végre. Ez egyúttal kanonikus elemzés a kvantitatív változók csoportja és a kvalitatív változó diszjunktív táblázata között.
Henry Rouanet és társszerzői írására támaszkodva a leíró adatelemzés és a prediktív elemzés kiegészítheti egymást, és időnként hasonló eredményeket hozhat.
A PLS megközelítés inkább prediktív, mint leíró, de egyértelműen megalapozott a kapcsolat bizonyos elemzésekkel, amelyeket most láttunk.
A Herman Wold algoritmust , amelyet először NILES-nek ( " Nemlineáris becslés az Iteratív Legkisebb Négyzet által " ), majd a NIPALS-nek ( " Nemlineáris Becslés az Iteratív Részleges Legkisebb Négyzetet " ) nevezték el, először komponenselemzésre tervezték .
Ezenkívül a PLS lehetővé teszi a kanonikus elemzés megkeresését két változóblokkal, Tucker akkumulátorok közötti elemzésével, a redundanciák elemzésével és Carroll értelmében vett általános kanonikus elemzéssel. A gyakorlat azt mutatja, hogy a PLS algoritmus konvergál az első sajátértékek felé Tucker elemközi elemzése, kanonikus elemzése két változóblokkal és redundancia-elemzés esetén.
A fő komponensek regressziója (PCR) a PCR alkalmazásával a változók számának csökkentésére azáltal, hogy felváltja azokat a fő összetevőkkel, amelyek előnye, hogy nincsenek összefüggésben. A szakirodalomban gyakran összehasonlítják a PLS-t és a PCR-t.
A cikkben már említettük, hogy a kanonikus elemzés egyenértékű a lineáris regresszióval, amikor a két csoport egyike egyetlen változóvá redukálódik.
A modern adatelemzés nem választható el a számítógépek használatától; sok olyan szoftverprogram idézhető, amely lehetővé teszi az ebben a cikkben szereplő adatelemzési módszerek használatát. Az SPSS , a Statistica , a HyperCube , az SAS és a CORICO teljes adatelemző modulokat biztosít; R szoftver olyan könyvtárakkal is, mint a FactoMineR, Ade4 vagy MASS; Braincube, nagy adatelemzési megoldás az ipar számára.