Gyökeresedés

Alosztály	Kanonikus (informatika)

A nyelvészet , rootization vagy desuffixation egy átalakításának folyamata hajlítások a saját csoport vagy root. A szó gyöke a szó azon része, amely az előtag (ok) és az utótag (ok), azaz a szár eltávolítása után marad. Ellentétben azzal a lemmával, amely megfelel a nyelv beszélőinek szokásos használatából eredő kifejezésnek, a gyök általában csak egy ilyen típusú elemzésből származó kifejezésnek felel meg. Például a keres szónak van egy kutatási szára, amely nem felel meg a használt kifejezésnek, eltekintve az erre a szárra való hivatkozásról. Különleges esetekben a szár egybeeshet egy közönséges szókincs kifejezéssel. Ez például a frontális, amely a gyökér homlokát adja .

Az alkalmazott technikák, hogy ezt általában egy lista alapján a toldalékok (képzők, eleji, közti tagokat, circumfixes) a nyelv tekinthető, és egy sor rootization / deuffixation szabályokat kialakítani a priori , amelyek lehetővé teszik, mivel egy szót, hogy megtalálják a gyökér.

A számítógépes gyökereztető programot gyökérzetnek nevezzük. A legismertebb algoritmusokat Julie Beth Lovins (in) (1968) és Martin Porter (in) (1980) dolgozta ki . A gyökérkezelés a természetes nyelvű feldolgozó alkalmazásokban gyakori folyamat , például gépi fordítás, információ-visszakeresés ( entitásfelismerés ) és keresőmotor-indexelés során.

Példák

Például az angol, a rootization a „ halászat”, „ halásztak ”, „ hal ” és a „ halász ” ad „ hal ”. Ha csak az egyes szavakat tartanák az indexben, akkor a keresés során lehetetlen lenne a " halász " kifejezésre hivatkozni olyan dokumentumokra, amelyek csak a " halászat " szót tartalmazzák . A gyökeresedésnek köszönhetően tudjuk, hogy ugyanaz a gyökérzetük van, és eleve ugyanannak a lexikonnak a részei.

Ezzel szemben a gyökeresedés szintén hibaforrás. Például angolul az " egyetem " és az " univerzum " szavak ugyanazzal a gyökérrel (" univerzum ") rendelkeznek, bár még a két szót használó dokumentumok is nagyon gyenge kapcsolatban lehetnek.

A különböző algoritmusok

Ezek a különféle gyökereztető algoritmusok két szakaszban haladnak: egy deuffixációs lépés, amely a lehető leghosszabb előre meghatározott végződések eltávolításából áll, és egy újrakódolási lépés, amely előre definiált végződéseket ad hozzá a kapott gyökerekhez. Lovins algoritmusa külön-külön végzi a két lépést, Porter algoritmusa azonban mindkét lépést egyszerre.

Fontos megjegyezni, hogy a Porter algoritmusa által biztosított gyökerek nem feltétlenül igaz morfémák.

A gyökérkezelők két fő családja van jelen az irodalomban: algoritmikus gyökérkezelők és a szótárt használók.

Az algoritmikus gyökérkezelő gyakran gyorsabb lesz, és lehetővé teszi a gyökerek kivonását ismeretlen szavakból (bizonyos értelemben ismeretlen minden szó, amellyel találkozik). Ugyanakkor magasabb lesz a hibaaránya, és olyan szavakat csoportosít, amelyeknek nem szabad (túlgyökeresedés). A szótár megközelítés nem hibázik az ismert szavakkal, de hibákat okoz azokon, amelyeket nem sorol fel. Ez szintén lassabb, és még mindig szükséges az utótagok eltávolítása, mielőtt a megfelelő gyökért keresné a szótárban.

Porter algoritmusa

A Porter által kifejlesztett algoritmus körülbelül ötven gyökereztető / deszefixáló szabályból áll, amelyek hét egymást követő fázisba vannak besorolva (többes számok és igék feldolgozása egyes szám harmadik személyben, a múlt idő és a progresszív feldolgozása ...). Az elemzendő szavak az összes fázist átmennek, és ha több szabály is alkalmazható lenne rájuk, akkor mindig a leghosszabb utótagot választják. A rootizálást / desuffixálást ugyanabban a lépésben kódolási szabályok kísérik. Így például a "zavaró" a problémamegoldássá válik, ha eltávolítja a jelző utótagot a progresszív hangzásból, majd "problémává" alakul át, ha az "bl" szabályt "ble" -re fordítja. Ez az algoritmus öt kontextusszabályt is tartalmaz, amelyek megjelölik azokat a feltételeket, amelyek mellett az utótagot el kell távolítani. Például az -ing végződés csak akkor kerül eltávolításra, ha a szárnak legalább egy magánhangzója van. Ily módon a "nyugtalanító" "problémává" válik, amint láttuk, míg az "éneklés" marad "énekelni".

Porter algoritmusának részletei

Vagy magánhangzót képvisel (az „y” magánhangzónak tekintendő, ha mássalhangzó előzi meg), mássalhangzót képvisel; vagy magánhangzók sorozatát, mássalhangzók sorozatát képviseli, akkor egy angol nyelvű szó a következő 4 forma egyikének lehet: $\ scriptstyle v$ $\ forgatókönyv c$ $\ forgatókönyv V$ $\ forgatókönyv C$

$\ scriptstyle CVCV \ ldots C$
$\ scriptstyle CVCV \ ldots V$
$\ scriptstyle VCVC \ ldots C$
$\ scriptstyle VCVC \ ldots V$

amelyet vagy ha képviselhetünk egy szó mértékének. A különböző értékek különböző szavakat mutatnak be: $\ scriptstyle C? VCVC \ ldots V?$ $\ scriptstyle C? (VC) ^ {m} V?$ $m$

$m = 0$ : fa, által
$m = 1$ : baj, zab, fák, borostyán
$m = 2$ : bajok, magán, zab, orrery

A deuffixation / rootization szabályok formában vannak kifejezve, ami azt jelenti, hogy ha egy szó véget ér, és az előtag kielégíti a feltételt, akkor az utótag helyébe a következő lép: $\ scriptstyle (feltétel) S_ {1} \ mapsto S_ {2}$ $\ scriptstyle S_ {1}$ $\ scriptstyle S_ {1}$ $\ scriptstyle S_ {2}$

$\ scriptstyle ^ {*} e$ : az előtag betűvel végződik $\ forgatókönyv e$
$\ scriptstyle ^ {*} v ^ {*}$ : az előtag magánhangzót tartalmaz
$\ scriptstyle ^ {*} d$ : az előtag kettős mássalhangzóval végződik
$\ scriptstyle ^ {*} o$ : az előtag ott végződik, ahol a második nem , se , se . $\ scriptstyle cvc$ $\ forgatókönyv c$ $\ forgatókönyv w$ $\ scriptstyle x$ $\ forgatókönyv y$

Lehetséges logikai operátorok használata: és, vagy nem

A Porter gyökérkezelője által nyert gyökerek

1. lépés	Nak nek	SSES → SS IES → I SS → SS S →	simogatás → simogató pónik → poni simogatás → cirógatás macskák → macska
	b	(m> 0) EED → EE (* v ) ED → ( v *) ING →	takarmány → etetés, megbeszélt → megegyezik vakolt → gipsz, elvéreztetett → vérzett motorozás → motor, ének → ének
	vs.	(* v *) Y → I	boldog → happi, ég → ég
2. lépés		(m> 0) ATIONÁLIS → ATE (m> 0) TIONÁLIS → TION (m> 0) ENCI → ENCE (m> 0) ANCI → ANCE ...	relációs → relatív feltételes → feltétel, racionális → racionális valenci → → valencia hesitansi → habozás ...
3. lépés		(m> 0) ICATE → IC (m> 0) ATIVE → (m> 0) ALIZE → AL (m> 0) ICITI → IC ...	három példány → formatív triplikus → forma formalizál → formális elektromos → → elektromos …
4. lépés		(m> 1) AL → (m> 1) ANCE → (m> 1) ENCE → (m> 1) ER → ...	újjászületés → újjáélesztési juttatás → következtetés engedélyezése → következtetési utasszállító repülőgép → repülőgép …
5. lépés		(m> 1) E → (m = 1 és nem * o) E → (m> 1 és * d és * L) → vonalas betű	probate → probat , rate → rate cease → ceas control → control, roll → roll

Tesztelje ezt az algoritmust 2 szóval: Általánosítások és oszcillátorok

Általánosítások 1. lépés: Általánosítás 2. lépés: Általánosítás 3. lépés: Általános 4. lépés: Gener Oszcillátorok 1. lépés: oszcillátor 2. lépés: oszcillál 4. lépés: Oscill 5. lépés: Oscil

Porter algoritmusa szabadon terjeszthető, és számos nyelven megvalósult. 2000-ben Martin Porter biztosította saját algoritmusának megvalósítását több nyelven, mivel a többiek enyhe hibákat tartalmaztak. Porter algoritmusa hatékony az angol nyelv számára, de nem túl alkalmas a francia nyelvre. Ezért egy újabb algoritmust fejlesztenek ki a francia nyelvre.

Carry, gyökérkezelési algoritmus a franciához

A Porter algoritmusához hasonlóan a Carry algoritmusa is különböző szakaszokban zajlik, amelyeken keresztül a feldolgozandó szavak egymást követik. A szabályok szerint, amikor az elemző felismer egy utótagot a listából, vagy eltávolítja, vagy átalakítja. Itt is a leghosszabb utótag határozza meg az alkalmazandó szabályt.

A francia morfológia tanulmányozásához hordozási szabályokat javasoltak, amelyek ingyenesen letölthetők a GALILEI projekt webhelyéről (Generic Analyzer and Listener for Indexed and Linguistics Entities of Information).

Paice / Husk algoritmus

A Paice / Husk algoritmus az algoritmikus eredetűek családjába tartozik. A gyökerek kibontásához egy sor szabályra támaszkodik, és mi több, ezeket a szabályokat a kódon kívül tárolja. Így lehetséges egy másik szabályhalmazból származó új nyelv ugyanúgy kezelése a kód átírása nélkül, bizonyos kiigazításokkal (minden nyelvhez meg kell adni az elfogadott magánhangzók listáját és a gyökér érvényességi szabályokat). Így az algoritmus könnyebben hordozható egy új nyelv kezelésében.

Ezt az algoritmust Chris Paice fejlesztette ki a Lancaster Egyetemen az 1980-as években, majd Pascal, C, PERL és Java kódolással látták el.

A Paice / Husk algoritmus megvalósítása egy sor olyan funkcióból áll, amelyek bemenetként a megadott szóra vonatkozó gyökérkivonási szabályokat fogják használni, és ellenőrzik a javasolt gyökér elfogadhatóságát.

Gyökeresedés vs. lemmatizálás

Rootization és lemmatization két nagyon hasonló fogalmak, de vannak alapvető különbségek:

A lemmatizáláshoz és a desuffixáláshoz alkalmazott módszerek nem azonosak
A lemmatizálás célja megtalálni egy szó lemmáját, például az igék infinitívjét. A Származás a szavak végének eltávolítása, ami olyan szót eredményezhet, amely nem létezik a nyelvben. Például az angol "dividing" szó disuffixjának eredménye az "divid", amely nem létezik angolul.

Gyökeresedés ( eredő ) az összes morfológiai változatban közös csonka forma megszerzése

Az inflexiók kiküszöbölése
Az utótagok eltávolítása

Ex: ló, lovak, lovag, lovagi út ⇒ " cheva " (de nem "lovas") Cél : növelni a visszahívást IR-ben Kockázat : alacsonyabb pontosság

A gyökeresedés olyan formákhoz vezet, amelyek nem szavak. Ezért ez egy végső kezelés, amely nem enged finomabb lemaradást.
A gyökeresedés nagyon különböző formákat is összesít

marmaille, fazék ⇒ marm

A gyökeresedés nagyon gyors, a lemmatizálás része a morfoszintaktikus jelölés folyamatának

Lemmatization a kanonikus forma (a lemma ) megszerzése a szóból

Igéhez: alakja az infinitivumban
Főnév, melléknév, cikk, ... esetében: férfias egyes alakja

A lemmatizáció csak az inflexiós variánsokat összesíti

( ló ≡ lovak ) ≠ lovagiasság ≠ lovaglás

Alkalmazás

A keresőmotorok stemmereket használnak az információk visszakeresésének javítására. A lekérdezés vagy a dokumentum kulcsszavait gyökereik képviselik, nem pedig az eredeti szavak. A kifejezés több változata tehát egyetlen reprezentatív formában csoportosítható, ami csökkenti a szótár méretét, vagyis a dokumentumok halmazának megjelenítéséhez szükséges különálló kifejezések számát. A kis szótárméret mind helyet, mind végrehajtási időt megtakarít. De a törzsek használata a pontosságot is csökkenti.

Hivatkozások

(fr) Ez a cikk kivonatokat tartalmaz a Számítástechnika Ingyenes On-line Szótárából, amely engedélyezi annak tartalmának felhasználását a GFDL licenc alapján .

Julie Beth Lovins (1968). Létező algoritmus kidolgozása. Mechanikai fordítás és számítási nyelvészet 11 : 22–31.
Porter hivatalos algoritmus webhelye: http://tartarus.org/~martin/PorterStemmer/
Paice / Husk Rootizer: http://alx2002.free.fr/utilitarism/stemmer/stemmer_fr.html
http://www-igm.univ-mlv.fr/~lecroq/cours/porter.pdf
http://www.limsi.fr/~xtannier/fr/Enseignement/tal_eisd/M2PRO_TAL_Morphosyntaxe.pdf
„ Porter Stemming Algorithm ”, a tartarus.org oldalon (hozzáférés : 2021. május 16. ) .
M. Paternostre, P. Francq, J. Lamoral. Carry, deuffixation algoritmus a franciához
„ GALILEI Platform ” , a www.otlet-institute.org oldalon (hozzáférés : 2016. április 12. )
Paice / Husk algoritmus hivatalos webhelye: http://www.comp.lancs.ac.uk/computing/research/stemming/

Lásd is

Bibliográfia

Lovins, J. (1971) Error Evaluation for Stemming Algorithms as Clustering Algorithms , JASIS, 22: 28–40
Lovins, JB "Szűkítő algoritmus kidolgozása". Mechanikai fordítás és számítási nyelvészet 11, 1968, 22-31.

Külső linkek

A hógolyó - számos nyelvre kiterjedő algoritmusok tartalmazzák a forráskódot, beleértve az öt romantikus nyelvhez tartozó stemmereket
Ruby-Stemmer - Ruby kiterjesztés a Snowball API-ra
PECL - PHP kiterjesztés a Snowball API-ra
Oleander Porter algoritmusa - BSD alatt kiadott C ++ könyvtár
A Lovins eredetű algoritmus nem hivatalos honlapja - forráskóddal, több nyelven
A Porter eredetű algoritmus hivatalos honlapja - beleértve a több nyelven elérhető forráskódot is
A Lancaster eredetű algoritmus hivatalos honlapja - Lancaster University, Egyesült Királyság
A Lancaster eredetű algoritmus módosítása - kiterjesztések a szabályok hibakezelésének javítása érdekében, lehetővé teszik az interaktív tesztelést, pontosabb szárak biztosítását és némi rugalmasságot adnak a véges állapotú automaták megvalósításához.
Az UEA-Lite Stemmer - University of East Anglia, Egyesült Királyság hivatalos honlapja
A keletkező algoritmusok áttekintése
PTStemmer - Java / Python / .Net tagolókészlet a portugál nyelvhez
jsSnowball - a Snowball nyílt forráskódú JavaScript implementációja sok nyelven