A szegmentálás a nyelvészetben történik , egy vagy több szöveges dokumentum előkezelése annak érdekében, hogy később képes legyen feldolgozni őket, grafikon és / vagy gyakrabban az index .
Az alapelv az, hogy szegmens egy karaktersorozatot a szavakat (vagy szemantikai elemek). Ez a művelet nagyon érzékeny, mert a rossz szegmentálás problémákat okoz a dokumentum értelmezésében, különösen akkor, ha bizonyos szavakat nem megfelelően indexelnek, vagy akár elvesznek. A francia nyelvben , bár a szóközök , az aposztrófok és az írásjelek gyakran körülhatárolják a könnyen azonosítható szavakat, bizonyos típusú szavak problematikusak lehetnek:
Így minden nyelvnek meg kell adnia a sajátosságait. A német számára az lesz a tény, hogy az összetett főneveket szóközök nélkül írják, és ez megnehezíti a szegmentálási lépést. A kínai nyelvek esetében a kihívás annál nagyobb, mivel a karakterek között nincs hely a szegmentálás megkönnyítésére (ami jelenleg a sikeres indexelés egyik fő kihívása, a leggyakrabban alkalmazott módszer az elválasztás.) Karaktercsoportokban, ami továbbra is olyan módszer, amely nagymértékben javítható).
Massih-Reza AMINI - Éric GAUSSIER, Információkutatás: Alkalmazások, modellek és algoritmusok , Párizs, Eyrolles ,2013, 256 p. ( ISBN 978-2-212-13532-9 , online olvasás ) , 10–12
" TreeTagger - egy nyelvtől független beszédrész-címkéző " - Link a TreeTaggerhez , a szöveg szegmentálására szolgáló eszközhöz.