Tagmatica | |
Teremtés | 2002 |
---|---|
Kulcsfigurák | Gil Francopoulo |
Jogi forma | SASU |
A központi iroda | Párizs, Franciaország |
Tevékenység |
Adatbányászat Automatikus természetes nyelv feldolgozás Megnevezett entitások felismerése Szoftveres szövegbányászat szabványosítása |
Termékek | TagParser (18 európai nyelv) |
Weboldal | www.tagmatica.com [1] |
A Tagmatica francia dokumentum- és nyelvi számítástechnikával foglalkozó cég. 2002-ben alapította Gil Francopoulo, aki az LMF elektronikus szótárak ISO szabványának a szerzője .
A Tagmatica vállalat létrehozza a 2002. február 14 oldották fel 2017. február 15.
Egy másik (Tagmatica SAS névvel rendelkező) cég be lett jegyezve 2017. február 3.
A tevékenységek a szabványosítás , a szótárak , a nyelvek morfológiai, szintaktikai és szemantikai elemzői, a nyelvészlelés és a témák automatikus kiszámítása .
A tudás nagy része szövegek formájában fogalmazódik meg, és automatikusan feldolgozásról van szó, hogy megkapjuk a korpuszot szintetizáló szintaktikai struktúrákat, a megnevezett entitásokat, az idézeteket és / vagy numerikus mutatókat.
Szintaktikai szinten, míg a legtöbb játékos a minta-alapú szűrési szabályok alkalmazására szorítkozik apró mondatrészekre, a Tagmatica eszközei teljes szintaktikai elemzéseket végeznek (bizonyos nyelveken) annak érdekében, hogy észleljék mind a rövid, mind a nagy távolságú mellékleteket . Ezeket nehéz feldolgozni, és komoly problémákat vetnek fel a tíz évre visszanyúló eszközök számára. A kihívás az volt, hogy gyors és robusztus eszközöket dolgozzunk ki a szó tízmillióinak ésszerű időn belüli elemzésére.
Szemantikai szinten az elemzés többnyelvű tudásbázist használ, amely 600 000 kifejezést tartalmaz , és ezer típusú ontológia szerint van felépítve .
A Tagmatica által fejlesztett elemzőt TagParser-nek hívják. Teljes nyelvészeti elemzést végez (beleértve a megnevezett entitásokat is) francia, angol és spanyol nyelven. A megnevezett entitásdetektálást dán, német, görög, olasz, lett, litván, máltai, holland, lengyel, portugál, román, szlovák, szlovén, svéd és cseh nyelveken végezzük. A feldolgozott nyelvek száma tehát összesen 18 európai nyelv.
A TagParser olyan szoftver, amelyet az Európai Bizottság szolgálatai évek óta használnak a sajtóismertetők összeállításához.
Miután részt vett az ISO és W3C specifikációk kidolgozásában , a Tagmaticának tiszteletben kellett tartania a szakmai előírásokat ezen a területen. Az interfészeket XML-ben definiáljuk . Minden eszköz és adat Unicode kódolású . A szótárak megfelelnek az LMF szabványnak . Az ontológia tiszteletben tartja a szemantikus webre vonatkozó W3C ajánlásokat, az OWL-ben definiálva .
A Tagmatica részt vett a Technolangue-Easy, az eContent-LIRICS, az ANR-Passage, az ITA- Metaverse , a Scribo és az ANR-Lelie projektekben .