Hierarchikus csoportosítás
Az informatikai területen , pontosabban az elemzés és az adatok automatikus osztályozása terén a hierarchikus csoportosítás fogalma különböző klaszterezési módszereket takar , és két fő családba sorolható: „alulról felfelé építkező” módszerek és „leszármazottak”.
Hierarchikus csökkenő besorolás
Az úgynevezett "felülről lefelé" módszerek egy általános megoldástól egy specifikusabbig indulnak. Az ebbe a kategóriába tartozó módszerek egyetlen klaszterrel kezdődnek, amelyek mindegyiküket tartalmazzák, majd az egyes szakaszokban egy kritérium szerint felosztják, amíg különböző klaszterek halmazát nem kapják meg.
Növekvő hierarchikus osztályozás (CAH)
Az úgynevezett "felülről lefelé" módszerektől eltérően az emelkedő hierarchikus osztályozást "alulról felfelé" hívják, mert abból a helyzetből indul ki, amikor az összes egyén egyedül van egy osztályban, majd egyre nagyobb osztályokba gyűlik össze. A hierarchikus minősítő abból a tényből származik, hogy létrehoz egy H hierarchiát , az osztálykészletet az algoritmus minden szakaszában, amely ellenőrzi a következő tulajdonságokat:
-
Ω∈H{\ displaystyle \ Omega \ H-ben} : a hierarchia csúcsán, amikor úgy csoportosulunk, hogy egyetlen osztályt kapjunk, az összes egyén csoportosul;
-
∀ω∈Ω,{ω}∈H{\ displaystyle \ forall \ omega \ in Omega, \ {\ omega \} \ in H} : a hierarchia alján minden egyén egyedül van;
-
∀(h,h′)∈H2,h∩h′=∅{\ displaystyle \ forall (h, h ') \ itt: H ^ {2}, h \ cap h' = \ emptyysetvagy vagy : ha a csoportosítás két osztályát vesszük figyelembe, akkor vagy nincs közös egyénük, vagy az egyik a másikba tartozik.h⊂h′{\ displaystyle h \ h részhalmaz h '}h′⊂h{\ displaystyle h '\ h részhalmaz}
Ez egy automatikus osztályozási módszer, amelyet az adatok elemzésében használnak ; n egyedből álló halmazból az a célja, hogy ezeket az egyéneket bizonyos számú osztályba sorolja.
Ω{\ displaystyle \ Omega}
A módszer azt feltételezi, hogy az egyének között van egy bizonyos mértékű eltérés ; az euklideszi térben elhelyezkedő pontok esetében a távolságot használhatjuk az eltérés mértékeként. Megjegyezzük az x és y egyedek közötti különbséget .
dénssénm(x,y){\ displaystyle disszim (x, y)}
Algoritmus
Elv
Kezdetben minden egyén osztályt, azaz n osztályt alkot . Megpróbáljuk csökkenteni az órák számát , erre iteratív módon kerül sor. Minden lépésben két osztályt egyesítenek, ezzel csökkentve az osztályok számát. Az egyesítésre kiválasztott két osztály az, amelyik a legközelebb áll, más szóval azokhoz, amelyek közötti eltérés minimális közöttük, ezt az eltérési értéket összesítési indexnek nevezzük . Mivel a legközelebbi egyedeket gyűjtik össze először, az első iterációnak alacsony az aggregációs indexe, de az iterációból az iterációig növekszik.
nembvs.lnál nélsses<nem{\ displaystyle nb_ {class} <n}
Az osztályok közötti különbségek mérése
Két, egyedet tartalmazó osztály különbségét egyszerűen az egyének közötti különbség határozza meg.VS1={x},VS2={y}{\ displaystyle C_ {1} = \ {x \}, C_ {2} = \ {y \}}dénssénm(VS1,VS2)=dénssénm(x,y){\ displaystyle disszim (C_ {1}, C_ {2}) = disszim (x, y)}
Ha az osztályoknak több egyén van, akkor több szempont is lehetővé teszi az eltérés kiszámítását. A legegyszerűbbek a következők:
- A legkisebb ugrás megtartja a legkisebb távolságot az egyének között és : ;VS1{\ displaystyle C_ {1}}VS2{\ displaystyle C_ {2}}dénssénm(VS1,VS2)=minx∈VS1,y∈VS2(dénssénm(x,y)){\ displaystyle dissim (C_ {1}, C_ {2}) = \ min _ {x \ -ban C_ {1}, y \ -ban C_ {2}} (dissim (x, y))}
- A legnagyobb ugrás a különbözőség az egyének között és a legtávolabbi: ;VS1{\ displaystyle C_ {1}}VS2{\ displaystyle C_ {2}}dénssénm(VS1,VS2)=maxx∈VS1,y∈VS2(dénssénm(x,y)){\ displaystyle dissim (C_ {1}, C_ {2}) = \ max _ {x \ -ban C_ {1}, y \ -ban C_ {2}} (dissim (x, y))}
- Az átlagos link kiszámításához közötti átlagos távolság az egyének és a : ;VS1{\ displaystyle C_ {1}}VS2{\ displaystyle C_ {2}}dénssénm(VS1,VS2)=moyenemnemex∈VS1,y∈VS2(dénssénm(x,y)){\ displaystyle disszim (C_ {1}, C_ {2}) = átlagos_ {x \ a C_ {1}, y \ a C_ {2}} (disszim (x, y))}
- A Ward távolság célja, hogy maximalizálja inter-osztály tehetetlenség: a és a számok a két osztályt, és azok a súlypontok.dénssénm(VS1,VS2)=nem1∗nem2nem1+nem2dénssénm(G1,G2){\ displaystyle disszim (C_ {1}, C_ {2}) = {\ frac {n_ {1} * n_ {2}} {n_ {1} + n_ {2}}} disszim (G_ {1}, G_ {2})}nem1{\ displaystyle n_ {1}}nem2{\ displaystyle n_ {2}}G1{\ displaystyle G_ {1}}G2{\ displaystyle G_ {2}}
Álkód megvalósítás
Bejegyzés:
- egyének: egyének felsorolása
- nbClasses: azon osztályok száma, amelyeket végül meg akarunk szerezni
Kilépés:
- osztályok: az osztályok kezdetben üresek, az osztály egyének listájaként jelenik meg
Pour i=1 à individus.longueur Faire
classes.ajouter(nouvelle classe(individu[i]));
Fin Pour
Tant Que classes.longueur > nbClasses Faire
// Calcul des dissimilarités entre classes dans une matrice triangulaire supérieure
matDissim = nouvelle matrice(classes.longueur,classes.longueur);
Pour i=1 à classes.longueur Faire
Pour j=i+1 à classes.longueur Faire
matDissim[i][j] = dissim(classes[i],classes[j]);
Fin Pour
Fin Pour
// Recherche du minimum des dissimilarités
Soit (i,j) tel que matDissim[i][j] = min(matDissim[k][l]) avec 1<=k<=classes.longueur et k+1<=l<=classes.longueur;
// Fusion de classes[i] et classes[j]
Pour tout element dans classes[j] Faire
classes[i].ajouter(element);
Fin pour
supprimer(classes[j]);
Fin Tant Que
Dendrogram
A dendrogram egy növekvő hierarchikus osztályozás grafikus ábrázolása; Gyakran bináris faként mutatják be, amelynek levelei az x tengelyre igazított egyedek. Amikor két osztály vagy két egyén találkozik az összesítési indexszel , a két osztály abszcisszájából függőleges vonalak húzódnak az ordinátáig , majd ezeket vízszintes szakasz köti össze. Az összesítési indexből olyan koordináta vonalat rajzolhatunk, amely a dendrogramon osztályozást mutat.
A besorolási fa bonyolultabb változatai potenciálisan segíthetnek a döntési fa felépítésében .
τ{\ displaystyle \ tau}τ{\ displaystyle \ tau}τ{\ displaystyle \ tau}τ{\ displaystyle \ tau}
Lásd is
Kapcsolódó cikkek
Külső linkek
Bibliográfia
Megjegyzések és hivatkozások
-
(in) Székely J. Gábor és Maria L. Rizzo, " Hierarchikus klaszterezés a közös távolságon belüli távolságok között: Ward minimális varianciamódszerének kiterjesztése. ” , Journal of Classification , vol. 22, n o 22005. szeptember, P. 151-183 ( DOI 10.1007 / s00357-005-0012-9 )
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">