Gyökeresedés

Gyökeresedés
Alosztály Kanonikus (informatika)

A nyelvészet , rootization vagy desuffixation egy átalakításának folyamata hajlítások a saját csoport vagy root. A szó gyöke a szó azon része, amely az előtag (ok) és az utótag (ok), azaz a szár eltávolítása után marad. Ellentétben azzal a lemmával, amely megfelel a nyelv beszélőinek szokásos használatából eredő kifejezésnek, a gyök általában csak egy ilyen típusú elemzésből származó kifejezésnek felel meg. Például a keres szónak van egy kutatási szára, amely nem felel meg a használt kifejezésnek, eltekintve az erre a szárra való hivatkozásról. Különleges esetekben a szár egybeeshet egy közönséges szókincs kifejezéssel. Ez például a frontális, amely a gyökér homlokát adja .

Az alkalmazott technikák, hogy ezt általában egy lista alapján a toldalékok (képzők, eleji, közti tagokat, circumfixes) a nyelv tekinthető, és egy sor rootization / deuffixation szabályokat kialakítani a priori , amelyek lehetővé teszik, mivel egy szót, hogy megtalálják a gyökér.

A számítógépes gyökereztető programot gyökérzetnek nevezzük. A legismertebb algoritmusokat Julie Beth Lovins  (in) (1968) és Martin Porter  (in) (1980) dolgozta ki . A gyökérkezelés a természetes nyelvű feldolgozó alkalmazásokban gyakori folyamat , például gépi fordítás, információ-visszakeresés ( entitásfelismerés ) és keresőmotor-indexelés során.

Példák

Például az angol, a rootization a „  halászat”, „  halásztak  ”, „  hal  ” és a „  halász  ” ad „  hal  ”. Ha csak az egyes szavakat tartanák az indexben, akkor a keresés során lehetetlen lenne  a " halász  " kifejezésre hivatkozni olyan dokumentumokra, amelyek csak a " halászat "  szót tartalmazzák  . A gyökeresedésnek köszönhetően tudjuk, hogy ugyanaz a gyökérzetük van, és eleve ugyanannak a lexikonnak a részei.

Ezzel szemben a gyökeresedés szintén hibaforrás. Például angolul az " egyetem  " és az "  univerzum  " szavak  ugyanazzal a gyökérrel (" univerzum ") rendelkeznek, bár még a két szót használó dokumentumok is nagyon gyenge kapcsolatban lehetnek.

A különböző algoritmusok

Ezek a különféle gyökereztető algoritmusok két szakaszban haladnak: egy deuffixációs lépés, amely a lehető leghosszabb előre meghatározott végződések eltávolításából áll, és egy újrakódolási lépés, amely előre definiált végződéseket ad hozzá a kapott gyökerekhez. Lovins algoritmusa külön-külön végzi a két lépést, Porter algoritmusa azonban mindkét lépést egyszerre.

Fontos megjegyezni, hogy a Porter algoritmusa által biztosított gyökerek nem feltétlenül igaz morfémák.

A gyökérkezelők két fő családja van jelen az irodalomban: algoritmikus gyökérkezelők és a szótárt használók.

Az algoritmikus gyökérkezelő gyakran gyorsabb lesz, és lehetővé teszi a gyökerek kivonását ismeretlen szavakból (bizonyos értelemben ismeretlen minden szó, amellyel találkozik). Ugyanakkor magasabb lesz a hibaaránya, és olyan szavakat csoportosít, amelyeknek nem szabad (túlgyökeresedés). A szótár megközelítés nem hibázik az ismert szavakkal, de hibákat okoz azokon, amelyeket nem sorol fel. Ez szintén lassabb, és még mindig szükséges az utótagok eltávolítása, mielőtt a megfelelő gyökért keresné a szótárban.

Porter algoritmusa

A Porter által kifejlesztett algoritmus körülbelül ötven gyökereztető / deszefixáló szabályból áll, amelyek hét egymást követő fázisba vannak besorolva (többes számok és igék feldolgozása egyes szám harmadik személyben, a múlt idő és a progresszív feldolgozása ...). Az elemzendő szavak az összes fázist átmennek, és ha több szabály is alkalmazható lenne rájuk, akkor mindig a leghosszabb utótagot választják. A rootizálást / desuffixálást ugyanabban a lépésben kódolási szabályok kísérik. Így például a "zavaró" a problémamegoldássá válik, ha eltávolítja a jelző utótagot a progresszív hangzásból, majd "problémává" alakul át, ha az "bl" szabályt "ble" -re fordítja. Ez az algoritmus öt kontextusszabályt is tartalmaz, amelyek megjelölik azokat a feltételeket, amelyek mellett az utótagot el kell távolítani. Például az -ing végződés csak akkor kerül eltávolításra, ha a szárnak legalább egy magánhangzója van. Ily módon a "nyugtalanító" "problémává" válik, amint láttuk, míg az "éneklés" marad "énekelni".

Porter algoritmusának részletei

Vagy magánhangzót képvisel (az „y” magánhangzónak tekintendő, ha mássalhangzó előzi meg), mássalhangzót képvisel; vagy magánhangzók sorozatát, mássalhangzók sorozatát képviseli, akkor egy angol nyelvű szó a következő 4 forma egyikének lehet:

amelyet vagy ha képviselhetünk egy szó mértékének. A különböző értékek különböző szavakat mutatnak be:

  • : fa, által
  • : baj, zab, fák, borostyán
  • : bajok, magán, zab, orrery

A deuffixation / rootization szabályok formában vannak kifejezve, ami azt jelenti, hogy ha egy szó véget ér, és az előtag kielégíti a feltételt, akkor az utótag helyébe a következő lép:

  •  : az előtag betűvel végződik
  •  : az előtag magánhangzót tartalmaz
  •  : az előtag kettős mássalhangzóval végződik
  •  : az előtag ott végződik, ahol a második nem , se , se .

Lehetséges logikai operátorok használata: és, vagy nem

A Porter gyökérkezelője által nyert gyökerek

1. lépés

Nak nek

  • SSES → SS
  • IES → I
  • SS → SS
  • S →

simogatás → simogató
pónik → poni
simogatás → cirógatás
macskák → macska

b

  • (m> 0) EED → EE
  • (* v *) ED →
  • (* v *) ING →

takarmány → etetés, megbeszélt → megegyezik
vakolt → gipsz, elvéreztetett → vérzett
motorozás → motor, ének → ének

vs.

  • (* v *) Y → I

boldog → happi, ég → ég

2. lépés

  • (m> 0) ATIONÁLIS → ATE
  • (m> 0) TIONÁLIS → TION
  • (m> 0) ENCI → ENCE
  • (m> 0) ANCI → ANCE
  • ...

relációs → relatív
feltételes → feltétel, racionális → racionális
valenci → → valencia
hesitansi → habozás
...

3. lépés

  • (m> 0) ICATE → IC
  • (m> 0) ATIVE →
  • (m> 0) ALIZE → AL
  • (m> 0) ICITI → IC
  • ...

három példány →
formatív triplikus → forma
formalizál → formális
elektromos → → elektromos

4. lépés

  • (m> 1) AL →
  • (m> 1) ANCE →
  • (m> 1) ENCE →
  • (m> 1) ER →
  • ...

újjászületés → újjáélesztési
juttatás →
következtetés engedélyezése → következtetési
utasszállító repülőgép → repülőgép

5. lépés

  • (m> 1) E →
  • (m = 1 és nem * o) E →
  • (m> 1 és * d és * L) → vonalas betű


probate → probat , rate → rate cease → ceas
control → control, roll → roll

Tesztelje ezt az algoritmust 2 szóval: Általánosítások és oszcillátorok

Általánosítások 1. lépés: Általánosítás 2. lépés: Általánosítás 3. lépés: Általános 4. lépés: Gener Oszcillátorok 1. lépés: oszcillátor 2. lépés: oszcillál 4. lépés: Oscill 5. lépés: Oscil

Porter algoritmusa szabadon terjeszthető, és számos nyelven megvalósult. 2000-ben Martin Porter biztosította saját algoritmusának megvalósítását több nyelven, mivel a többiek enyhe hibákat tartalmaztak. Porter algoritmusa hatékony az angol nyelv számára, de nem túl alkalmas a francia nyelvre. Ezért egy újabb algoritmust fejlesztenek ki a francia nyelvre.

Carry, gyökérkezelési algoritmus a franciához

A Porter algoritmusához hasonlóan a Carry algoritmusa is különböző szakaszokban zajlik, amelyeken keresztül a feldolgozandó szavak egymást követik. A szabályok szerint, amikor az elemző felismer egy utótagot a listából, vagy eltávolítja, vagy átalakítja. Itt is a leghosszabb utótag határozza meg az alkalmazandó szabályt.

A francia morfológia tanulmányozásához hordozási szabályokat javasoltak, amelyek ingyenesen letölthetők a GALILEI projekt webhelyéről (Generic Analyzer and Listener for Indexed and Linguistics Entities of Information).

Paice / Husk algoritmus

A Paice / Husk algoritmus az algoritmikus eredetűek családjába tartozik. A gyökerek kibontásához egy sor szabályra támaszkodik, és mi több, ezeket a szabályokat a kódon kívül tárolja. Így lehetséges egy másik szabályhalmazból származó új nyelv ugyanúgy kezelése a kód átírása nélkül, bizonyos kiigazításokkal (minden nyelvhez meg kell adni az elfogadott magánhangzók listáját és a gyökér érvényességi szabályokat). Így az algoritmus könnyebben hordozható egy új nyelv kezelésében.

Ezt az algoritmust Chris Paice fejlesztette ki a Lancaster Egyetemen az 1980-as években, majd Pascal, C, PERL és Java kódolással látták el.

A Paice / Husk algoritmus megvalósítása egy sor olyan funkcióból áll, amelyek bemenetként a megadott szóra vonatkozó gyökérkivonási szabályokat fogják használni, és ellenőrzik a javasolt gyökér elfogadhatóságát.

Gyökeresedés vs. lemmatizálás

Rootization és lemmatization két nagyon hasonló fogalmak, de vannak alapvető különbségek:

  1. A lemmatizáláshoz és a desuffixáláshoz alkalmazott módszerek nem azonosak
  2. A lemmatizálás célja megtalálni egy szó lemmáját, például az igék infinitívjét. A Származás a szavak végének eltávolítása, ami olyan szót eredményezhet, amely nem létezik a nyelvben. Például az angol "dividing" szó disuffixjának eredménye az "divid", amely nem létezik angolul.
Gyökeresedés ( eredő ) az összes morfológiai változatban közös csonka forma megszerzése
  • Az inflexiók kiküszöbölése
  • Az utótagok eltávolítása
Ex: ló, lovak, lovag, lovagi út ⇒ "  cheva  " (de nem "lovas") Cél : növelni a visszahívást IR-ben Kockázat : alacsonyabb pontosság
  • A gyökeresedés olyan formákhoz vezet, amelyek nem szavak. Ezért ez egy végső kezelés, amely nem enged finomabb lemaradást.
  • A gyökeresedés nagyon különböző formákat is összesít
marmaille, fazék ⇒ marm Lemmatization a kanonikus forma (a lemma ) megszerzése a szóból
  • Igéhez: alakja az infinitivumban
  • Főnév, melléknév, cikk, ... esetében: férfias egyes alakja
  • A lemmatizáció csak az inflexiós variánsokat összesíti
( ló ≡ lovak ) ≠ lovagiasság ≠ lovaglás

Alkalmazás

A keresőmotorok stemmereket használnak az információk visszakeresésének javítására. A lekérdezés vagy a dokumentum kulcsszavait gyökereik képviselik, nem pedig az eredeti szavak. A kifejezés több változata tehát egyetlen reprezentatív formában csoportosítható, ami csökkenti a szótár méretét, vagyis a dokumentumok halmazának megjelenítéséhez szükséges különálló kifejezések számát. A kis szótárméret mind helyet, mind végrehajtási időt megtakarít. De a törzsek használata a pontosságot is csökkenti.

Hivatkozások

(fr) Ez a cikk kivonatokat tartalmaz a Számítástechnika Ingyenes On-line Szótárából, amely engedélyezi annak tartalmának felhasználását a GFDL licenc alapján .

  1. Julie Beth Lovins (1968). Létező algoritmus kidolgozása. Mechanikai fordítás és számítási nyelvészet 11 : 22–31.
  2. Porter hivatalos algoritmus webhelye: http://tartarus.org/~martin/PorterStemmer/
  3. Paice / Husk Rootizer: http://alx2002.free.fr/utilitarism/stemmer/stemmer_fr.html
  4. http://www-igm.univ-mlv.fr/~lecroq/cours/porter.pdf
  5. http://www.limsi.fr/~xtannier/fr/Enseignement/tal_eisd/M2PRO_TAL_Morphosyntaxe.pdf
  6. „  Porter Stemming Algorithm  ”, a tartarus.org oldalon (hozzáférés : 2021. május 16. ) .
  7. M. Paternostre, P. Francq, J. Lamoral. Carry, deuffixation algoritmus a franciához
  8. „  GALILEI Platform  ” , a www.otlet-institute.org oldalon (hozzáférés : 2016. április 12. )
  9. Paice / Husk algoritmus hivatalos webhelye: http://www.comp.lancs.ac.uk/computing/research/stemming/

Lásd is

Bibliográfia

Külső linkek

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">