Látens Dirichlet-allokáció

Látens Dirichlet-allokáció
Természet Témaminta
Betűszó (in)  LDA
Névre hivatkozva nevezték el Dirichlet törvénye

A területen a természetes nyelvi feldolgozás , a kiosztás látens Dirichlet (angol Látens Dirichlet Allocation ) vagy LDA egy generatív modell valószínűségi magyarázatára készlet megfigyelések révén észrevétlen csoportosítja azokat -same által meghatározott adatok hasonlóságokat.

Témák az LDA-ban

Például, ha a megfigyelések ( ) a szöveges dokumentumok halmazába gyűjtött szavak ( ), az LDA modell azt feltételezi, hogy minden dokumentum ( ) kis számú téma vagy téma keveréke ( ) , és hogy az egyes előfordulások generálása egy szó ( ) a dokumentum egyik témájának ( ) tulajdonítható (valószínűség) . Az LDA modell egy példa a „  tárgymodellre  ”. David Blei , Andrew Ng és Michael Jordan először egy dokumentum témáinak felismerésére szolgáló grafikus modellként mutatta be 2002. Az LDA-nak számos alkalmazása van, különösen az adatbányászatban és az automatikus nyelvfeldolgozásban .

Művelet

Számos K témát állítottunk be, és megpróbáljuk megtanulni az egyes dokumentumokban megjelenített témákat és az ezekhez kapcsolódó szavakat.

Inicializálás

Minden dokumentum minden szavához hozzárendelnek egy témát, egy Dirichlet-eloszlás szerint egy K téma halmazon.

, A és egy Dirichlet elosztó egy üreges szimmetrikus paraméter ( )

Ez létrehozza az első "  tárgymodellt  ": a dokumentumokban jelen lévő témákat és a témákat meghatározó szavakat. Ez a tárgymodell nagyon valószínűtlen, mert véletlenszerűen generálódik.

Tanulás

Az inicializálás során véletlenszerűen generált alanymodell javítására törekszünk. Ehhez minden dokumentumban megfogadunk minden szót, és frissítjük a témát, amelyhez kapcsolódik. Ez az új téma az, amely a legnagyobb valószínűséggel előállítja ebben a dokumentumban. Ezért feltételezzük, hogy az összes téma helyes, a kérdéses szó kivételével.

Pontosabban: az egyes dokumentumok ( ) minden egyes szavára ( ) két mennyiséget számolunk minden témához ( ):

Ezután a valószínűséggel választjuk az új témát . Ez annak a valószínűségnek felel meg, hogy a téma előállítja a szót a dokumentumban .

Az előző lépések sokszor történő megismétlésével a hozzárendelések stabilizálódnak. Az egyes dokumentumokban található témakombinációt úgy kapjuk meg, hogy megszámoljuk a téma egyes ábrázolásait (a dokumentum szavaihoz rendelve). Az egyes témákhoz tartozó szavakat úgy kapjuk meg, hogy megszámoljuk a hozzájuk tartozó szavakat a korpuszban.

Megjegyzések és hivatkozások

  1. David Blei, Andrew Ng és Michael I. Jordan, „  Latent Dirichlet Allocation  ”, A neurális információfeldolgozó rendszerekről szóló 14. nemzetközi konferencia  anyagai : Természetes és szintetikus , Vancouver, Brit Columbia, Kanada, MIT Press, n o NIPS'01 Ezen felül többet kell tudni róla.2001, P.  601-608 ( online olvasás , konzultáció 2020. január 7 - én )

Bibliográfia

Lásd is

Kapcsolódó cikkek

Külső linkek

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">