Word2vec

Alosztály	Szó beágyazása

A mesterséges intelligencia és a gépi tanulás , Word2vec egy csoportja használt modellek lexikai beágyazást .

Ezeket a modelleket dolgoztak ki egy kutatócsoportja Google irányítása alatt Tomas Mikolov (in) .

Ezek kétrétegű mesterséges neurális hálózatok képzett rekonstruálni a nyelvi kontextus szó.

A módszer a Python Gensim könyvtárban valósul meg .

Építészet

Eredetileg két architektúrát javasoltak a Word2vec elsajátítására, a folytonos szózsákok modelljét (CBOW: folytonos szózsák ) és az átugrási grammos modellt. A CBOW célja egy szó megjóslása összefüggésében, vagyis azokban a szavakban, amelyek közel állnak hozzá a szövegben. Ilyen kontextus például a jósolni kívánt szó jobbra és balra található 5 szava. Az átugrási gramm szimmetrikus felépítésű, amelynek célja a bemeneti szó adott kontextusának szavainak előrejelzése.

A gyakorlatban a CBOW modell gyorsabban megtanulható, de a skip-gram modell általában jobb eredményeket ad.

Mindkét esetben az ideghálózatnak két rétege van. A rejtett réteg néhány száz idegsejtet tartalmaz, és az ábrázolás végén képezi a lexikális beágyazást, amely lehetővé teszi egy szó ábrázolását. A kimeneti réteg lehetővé teszi egy osztályozási feladat végrehajtását egy softmax segítségével .

A tanuláshoz azonban nincs szükség címkére, az alapigazságot közvetlenül az adatokból, és különösen a képzési korpuszban található szavak közelségéből vezetik le. Ebben az értelemben a Word2vec tanulása önfelügyelt tanulást jelent .

Megjegyzések és hivatkozások

https://radimrehurek.com/gensim/models/word2vec.html
Tomas Mikolov Tomas , Sutskever, Ilya , Chen, Kai , Corrado, Greg S. és Dean, Jeff , „ A szavak reprezentációjának hatékony becslése a vektortérben ”, Arxiv ,2013( arXiv 1301.3781 , online olvasás )
Tomas Mikolov Tomas , Sutskever, Ilya , Chen, Kai , Corrado, Greg S. és Dean, Jeff , „ = A szavak és kifejezések elosztott ábrázolása és összetételük ”, Advances in Neural Information Processing Systems ,2013( Bibcode 2013arXiv1310.4546M , arXiv 1310.4546 )
" Önfelügyelt tanulás: Az intelligencia sötét kérdése " , az ai.facebook.com oldalon (elérhető : 2021. március 11. )

Bibliográfia

Tomas Mikolov , „ A Word-ábrázolások hatékony becslése a vektortérben ”, Arxiv ,2013( arXiv 1301.3781 , online olvasás )

Word2vec

Építészet

Megjegyzések és hivatkozások

Bibliográfia

Lásd is