Látens Dirichlet-allokáció

Természet	Témaminta
Betűszó	(in) LDA
Névre hivatkozva nevezték el	Dirichlet törvénye

A területen a természetes nyelvi feldolgozás , a kiosztás látens Dirichlet (angol Látens Dirichlet Allocation ) vagy LDA egy generatív modell valószínűségi magyarázatára készlet megfigyelések révén észrevétlen csoportosítja azokat -same által meghatározott adatok hasonlóságokat.

Témák az LDA-ban

Például, ha a megfigyelések ( ) a szöveges dokumentumok halmazába gyűjtött szavak ( ), az LDA modell azt feltételezi, hogy minden dokumentum ( ) kis számú téma vagy téma keveréke ( ) , és hogy az egyes előfordulások generálása egy szó ( ) a dokumentum egyik témájának ( ) tulajdonítható (valószínűség) . Az LDA modell egy példa a „ tárgymodellre ”. David Blei , Andrew Ng és Michael Jordan először egy dokumentum témáinak felismerésére szolgáló grafikus modellként mutatta be $\ béta$ $M$ $M$ $\ theta$ $\ alfa$ $w$ $t$ 2002. Az LDA-nak számos alkalmazása van, különösen az adatbányászatban és az automatikus nyelvfeldolgozásban .

Művelet

Számos K témát állítottunk be, és megpróbáljuk megtanulni az egyes dokumentumokban megjelenített témákat és az ezekhez kapcsolódó szavakat.

Inicializálás

Minden dokumentum minden szavához hozzárendelnek egy témát, egy Dirichlet-eloszlás szerint egy K téma halmazon.

${\ displaystyle \ theta _ {i} \ sim \ kezelőnév {Dir} (\ alpha)}$ , A és egy Dirichlet elosztó egy üreges szimmetrikus paraméter ( ) ${\ displaystyle i \ in \ {1, \ dots, M \}}$ ${\ displaystyle \ mathrm {Dir} (\ alpha)}$ $\ alfa$ $\ alfa <1$

Ez létrehozza az első " tárgymodellt ": a dokumentumokban jelen lévő témákat és a témákat meghatározó szavakat. Ez a tárgymodell nagyon valószínűtlen, mert véletlenszerűen generálódik.

Tanulás

Az inicializálás során véletlenszerűen generált alanymodell javítására törekszünk. Ehhez minden dokumentumban megfogadunk minden szót, és frissítjük a témát, amelyhez kapcsolódik. Ez az új téma az, amely a legnagyobb valószínűséggel előállítja ebben a dokumentumban. Ezért feltételezzük, hogy az összes téma helyes, a kérdéses szó kivételével.

Pontosabban: az egyes dokumentumok ( ) minden egyes szavára ( ) két mennyiséget számolunk minden témához ( ): $w$ $d$ $t$

${\ displaystyle p (t \ d közepe)}$ : annak valószínűsége, hogy a dokumentumot hozzárendelik a témához $d$ $t$
${\ displaystyle p (w \ t közepe)}$ : annak valószínűsége, hogy a korpuszban a témát hozzárendelik a szóhoz $t$ $w$

Ezután a valószínűséggel választjuk az új témát . Ez annak a valószínűségnek felel meg, hogy a téma előállítja a szót a dokumentumban . ${\ displaystyle p (t \ d d közepe) \ p p (w \ t t közepe)}$ $t$ $w$ $d$

Az előző lépések sokszor történő megismétlésével a hozzárendelések stabilizálódnak. Az egyes dokumentumokban található témakombinációt úgy kapjuk meg, hogy megszámoljuk a téma egyes ábrázolásait (a dokumentum szavaihoz rendelve). Az egyes témákhoz tartozó szavakat úgy kapjuk meg, hogy megszámoljuk a hozzájuk tartozó szavakat a korpuszban.

Megjegyzések és hivatkozások

David Blei, Andrew Ng és Michael I. Jordan, „ Latent Dirichlet Allocation ”, A neurális információfeldolgozó rendszerekről szóló 14. nemzetközi konferencia anyagai : Természetes és szintetikus , Vancouver, Brit Columbia, Kanada, MIT Press, n o NIPS'01 Ezen felül többet kell tudni róla.2001, P. 601-608 ( online olvasás , konzultáció 2020. január 7 - én )

Bibliográfia

(en) David M. Blei, Andrew Y. Ng és Michael I. Jordan, „ Latent dirichlet distribution ” , Journal of machine Learning research , John Lafferty, vol. 3,2003, P. 993-1022 ( online olvasás , konzultáció időpontja : 2020. január 7. )
(en) Thomas L. Griffiths, Mark Steyvers, David M. Blei és Joshua B. Tenenbaum, „A témák és a szintaxis integrálása ” , Advances in Neural Information Processing Systems 17 , LK Saul és Y. Weiss és L. Bottou,2005, P. 537-544 ( online olvasás , konzultáció 2020. január 7 - én )

Lásd is

Kapcsolódó cikkek

Külső linkek

(en) Kevin R. Canini, Lei Shi és Thomas Griffiths, „ Témák online következtetése látens Dirichlet-allokációval ” , a Mesterséges Intelligencia és Statisztika Tizenkettedik Nemzetközi Konferenciája , PMLR „A gépi tanulás kutatásának folyamata” ,2009, P. 65–72 ( online olvasás )