Alosztály | Szó beágyazása |
---|
A mesterséges intelligencia és a gépi tanulás , Word2vec egy csoportja használt modellek lexikai beágyazást .
Ezeket a modelleket dolgoztak ki egy kutatócsoportja Google irányítása alatt Tomas Mikolov (in) .
Ezek kétrétegű mesterséges neurális hálózatok képzett rekonstruálni a nyelvi kontextus szó.
A módszer a Python Gensim könyvtárban valósul meg .
Eredetileg két architektúrát javasoltak a Word2vec elsajátítására, a folytonos szózsákok modelljét (CBOW: folytonos szózsák ) és az átugrási grammos modellt. A CBOW célja egy szó megjóslása összefüggésében, vagyis azokban a szavakban, amelyek közel állnak hozzá a szövegben. Ilyen kontextus például a jósolni kívánt szó jobbra és balra található 5 szava. Az átugrási gramm szimmetrikus felépítésű, amelynek célja a bemeneti szó adott kontextusának szavainak előrejelzése.
A gyakorlatban a CBOW modell gyorsabban megtanulható, de a skip-gram modell általában jobb eredményeket ad.
Mindkét esetben az ideghálózatnak két rétege van. A rejtett réteg néhány száz idegsejtet tartalmaz, és az ábrázolás végén képezi a lexikális beágyazást, amely lehetővé teszi egy szó ábrázolását. A kimeneti réteg lehetővé teszi egy osztályozási feladat végrehajtását egy softmax segítségével .
A tanuláshoz azonban nincs szükség címkére, az alapigazságot közvetlenül az adatokból, és különösen a képzési korpuszban található szavak közelségéből vezetik le. Ebben az értelemben a Word2vec tanulása önfelügyelt tanulást jelent .