Szegmentálás (nyelvi)

A szegmentálás a nyelvészetben történik , egy vagy több szöveges dokumentum előkezelése annak érdekében, hogy később képes legyen feldolgozni őket, grafikon és / vagy gyakrabban az index .

Az alapelv az, hogy szegmens egy karaktersorozatot a szavakat (vagy szemantikai elemek). Ez a művelet nagyon érzékeny, mert a rossz szegmentálás problémákat okoz a dokumentum értelmezésében, különösen akkor, ha bizonyos szavakat nem megfelelően indexelnek, vagy akár elvesznek. A francia nyelvben , bár a szóközök , az aposztrófok és az írásjelek gyakran körülhatárolják a könnyen azonosítható szavakat, bizonyos típusú szavak problematikusak lehetnek:

Így minden nyelvnek meg kell adnia a sajátosságait. A német számára az lesz a tény, hogy az összetett főneveket szóközök nélkül írják, és ez megnehezíti a szegmentálási lépést. A kínai nyelvek esetében a kihívás annál nagyobb, mivel a karakterek között nincs hely a szegmentálás megkönnyítésére (ami jelenleg a sikeres indexelés egyik fő kihívása, a leggyakrabban alkalmazott módszer az elválasztás.) Karaktercsoportokban, ami továbbra is olyan módszer, amely nagymértékben javítható).

Bibliográfia

Massih-Reza AMINI - Éric GAUSSIER, Információkutatás: Alkalmazások, modellek és algoritmusok , Párizs, Eyrolles ,2013, 256  p. ( ISBN  978-2-212-13532-9 , online olvasás ) , 10–12

Külső linkek

"  TreeTagger - egy nyelvtől független beszédrész-címkéző  " - Link a TreeTaggerhez , a szöveg szegmentálására szolgáló eszközhöz.

Megjegyzések és hivatkozások

  1. "  IBM Tudásközpont  "