K-jelentése

A k-átlag algoritmusa

Természet	Adat particionáló algoritmus ( d )

A k -means (vagy angolul k -means ) particionálás az adatok particionálásának módszere és kombinatorikus optimalizálási probléma . Adott pontok és egy k egész szám , a probléma az, hogy a pontokat k csoportokra osztjuk , amelyeket gyakran klasztereknek nevezünk , egy bizonyos függvény minimalizálása érdekében. Figyelembe vesszük egy pont távolságát a klaszterének pontjainak átlagától; a minimalizálandó függvény e távolságok négyzetének összege.

Van egy klasszikus heurisztikus ezt a problémát, gyakran nevezik k- átlagok módszereket használt a legtöbb esetben. A problémát klasszikus optimalizálási problémaként is tanulmányozzák, például közelítő algoritmusokkal .

A k- átlagokat különösen a felügyelet nélküli tanulásban használják, ahol a megfigyelések k partíciókra vannak felosztva . A dinamikus klaszterek általánosítják azt az elvet, amelynél az egyes partíciókat egy gyűrű képviseli, az átlagosnál összetettebbek lehetnek. A klasszikus k- jelentése algoritmus megegyezik a Lloyd-Max kvantálási algoritmussal .

Meghatározás

Adva egy sor halmazt ( x 1 , x 2 ,…, x n ), megpróbáljuk felosztani az n pontot k S S = { S 1 , S 2 ,…, S k } ( k ≤ n ) halmazokba a az egyes partíciókon belüli pontok közötti távolság:

{\ aláhúzza a (z) {\ mathbf {S}} {\ operátornevet {arg \, min}}} \ sum _ {i = 1} ^ {k} \ sum _ {\ mathbf {x} _ {j} \ in S_ { i}} \ bal \ | \ mathbf {x} _ {j} - {\ félkövér szimbólum {\ mu}} _ {i} \ jobb \ | ^ {2}

ahol μ i az S i pontjainak baricentruma .

Történelmi

A " k -means" kifejezést először James MacQueen használta 1967-ben, bár az eredeti ötletet Hugo Steinhaus javasolta 1957-ben. A klasszikus algoritmust Stuart Lloyd javasolta 1957-ben pulzus kód moduláció céljából , de nem adták ki a Bell Labs-on kívül, 1982 előtt. 1965-ben az EW Forgy lényegében hasonló módszert tett közzé, ezért néha "Lloyd Forgy módszerének" is nevezik. Hatékonyabb, Fortran kódolású verziót Hartigan és Wong tettek közzé 1975/1979-ben.

Klasszikus algoritmus

Van egy klasszikus algoritmus a problémára, amelyet néha k-mean módszernek is neveznek , amelyet a gyakorlatban széles körben használnak és hatékonynak tartanak, bár nem garantálja sem az optimalitást, sem a polinom számítási időt .

Leírás

Válasszon k pontot, amelyek az m 1 (1) ,…, m k (1) kezdeti partíciók átlagos helyzetét képviselik (például véletlenszerűen);
Ismételje meg, amíg konvergencia meg nem történik:

- mindegyik megfigyelést hozzárendeljük a legközelebbi partícióhoz (azaz hajtsunk végre egy Voronoi partíciót az eszközöknek megfelelően):

{\ displaystyle S_ {i} ^ {(t)} = \ bal \ {\ mathbf {x} _ {j}: {\ big \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i} ^ {(t)} {\ nagy \ |} \ leq {\ nagy \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i ^ {*}} ^ {(t )} {\ nagy \ |} \ \ mind \ i ^ {*} = 1, \ ldots, k \ right \}}

, - frissítse az egyes klaszterek átlagát:

\ mathbf {m} _ {i} ^ {(t + 1)} = {\ frac {1} {| S_ {i} ^ {(t)} |}} \ sum _ {\ mathbf {x} _ { j} \ itt: S_ {i} ^ {(t)}} \ mathbf {x} _ {j}

Inicializálás

Az inicializálás meghatározó tényező az eredmények minőségében (helyi minimum). Sok mű foglalkozik ezzel a ponttal. Két szokásos inicializálási módszer létezik: egyrészt Forgy módszere, másrészt véletlenszerű particionálás. Forgy módszere a kezdeti középérték k pontját hozzárendeli k véletlenszerűen kiválasztott bemeneti adatokhoz. A véletlenszerű particionálás véletlenszerűen hozzárendel egy fürtöt minden egyes adatelemhez, majd folytatja a kezdeti átlagos pontok (első előtti) kiszámítását.

A K-mean ++ egy k pont inicializáló algoritmus, amely javasolja az inicializálást, amely javítja az optimális megoldás (globális minimum) elérésének valószínűségét. Ennek a megközelítésnek az az intuíciója, hogy elosztja a kezdeti középérték k pontját. Az első klaszter kezdeti átlagos pontját véletlenszerűen választják ki az adatokból. Ezután minden kezdeti átlagos pontot megválasztunk a megmaradt pontok közül, a valószínűség arányos a pont és a legközelebbi klaszter közötti távolság négyzetével.

Elemzés

Véges számú lehetséges partíció található k osztállyal. Ezenkívül az algoritmus minden egyes lépése szigorúan csökkenti a költségfüggvényt, pozitív és jobb partíciót mutat. Ez lehetővé teszi annak megerősítését, hogy az algoritmus mindig véges idő alatt konvergál, vagyis véget ér.

A végső particionálás nem mindig optimális. Ezenkívül a számítási idő exponenciális lehet a pontok számában, még a síkban is. A gyakorlatban lehetőség van az iterációk számának korlátozására vagy az iterációk közötti javulás kritériumának meghatározására.

Abban fix k , a sima bonyolultsága polinomiális egyes konfigurációk, beleértve pontok euklideszi térben , és az ügy a Kullback-Leibler divergencia . Ha k a bemenet része, akkor a sima komplexitás továbbra is polinom az euklideszi esetnél. Ezek az eredmények részben magyarázzák az algoritmus gyakorlati hatékonyságát.

Egyéb algoritmikus szempontok

A k- átlagok problémája általában NP-nehéz . Euklideszi esetben létezik egy polinomiális közelítés algoritmus, amelynek aránya 9, helyi kereséssel .

Alkalmazások

A tanulás előnyei és hátrányai

A particionálás k-eszközeinek egyik lehetséges hátránya, hogy a klaszterek az inicializálástól és a választott távolságtól függenek .

A k a priori paraméter kiválasztásának tényét hátrányként vagy előnyként lehet felfogni. Például számoló zsák kiszámítása esetén ez lehetővé teszi a kívánt szótár méretének pontos rögzítését. Éppen ellenkezőleg, az adatok bizonyos felosztásakor előnyösebb lesz eltekinteni egy ilyen korlátozástól.

Vektor számszerűsítése

Hivatkozások

JB MacQueen (1967). „ Néhány módszer a többváltozós megfigyelések osztályozására és elemzésére ” az 5. Berkeley Matematikai Statisztika és Valószínűség 1-es szimpózium közleményében : 281–297 p. Hozzáférés: 2009. április 7.
H. Steinhaus , " Az anyagi testek részekre osztásáról ", Bull. Acad. Polon. Sci. , vol. 4, n o 12,1957, P. 801–804 ( matematikai vélemények 0090073 , zbMATH 0079.16403 ).
SP Lloyd , "A legkisebb négyzet kvantálása PCM-ben ", Bell Telephone Laboratories Paper ,1957Sokkal később megjelent folyóiratban: SP Lloyd. , „ Legkisebb négyzetek kvantálása PCM-ben ”, IEEE Transactions on Information Theory , vol. 28, n o 21982, P. 129–137 ( DOI 10.1109 / TIT.1982.1056489 , online olvasás , hozzáférés : 2009. április 15. ).
EW Forgy, „ Többváltozós adatok klaszteranalízise: hatékonyság versus a besorolások értelmezhetősége ”, Biometrics , vol. 21,1965, P. 768–769 ( JSTOR 2528559 ).
JA Hartigan, fürtözési algoritmusok , John Wiley & Sons, Inc.,1975.
JA Hartigan és MA Wong , „ Algorithm AS 136: A K-Cleansering Algorithm ”, Journal of the Royal Statistics Society, Series C , vol. 28, n o 1,1979, P. 100-108 ( JSTOR 2.346.830 ).
David Arthur és Sergei Vassilvitskii, „ Az ICP algoritmus legrosszabb és simább elemzése, alkalmazással a k-Means módszerre ”, SIAM J. Comput. , vol. 39, n o 2 2009, P. 766-782.
Arthur, David és Vassilvitskii, Sergei, „ k- mean ++: a gondos vetés előnyei ”, ACM-SIAM szimpózium a diszkrét algoritmusokról , 2007( online olvasás ).
További részletekért lásd a Stirling számot .
Andrea Vattani, „a k -exponenciálisan sok iterációt igényel még a síkban is ”, Diszkrét és számítási geometria , vol. 45, n o 4, 2011, P. 596-616
Bodo Manthey és Heiko Röglin, „ A k-eszközök klaszterezésének legrosszabb és legsimítottabb elemzése Bregman-divergenciákkal ”, JoCG , vol. 4, n o 1, 2013, P. 94-132.
David Arthur, Bodo Manthey és Heiko Röglin, „ A k-Means módszer simított elemzése ”, Journal of the ACM , vol. 58, n o 5, 2011, P. 19 ( online olvasható )
A Kmeans klaszterezésének keménysége Sanjoy Dasgupta, CS2008-06 technikai jelentés, Kaliforniai Egyetem Számítástudományi és Mérnöki Tanszék, San Diego
Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman és Angela Y. Wu, „ A helyi keresés közelítő algoritmusa a k-jelentésű klaszterezéshez ”, Comput. Geom. , vol. 28 Nincsenek csontok 2-3, 2004, P. 89–122 ( online olvasás )

Lásd is

Bibliográfia

(en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-interscience,2001( ISBN 0-471-05669-3 ) [ a kiadások részlete ]