Teljes szöveges keresés

A kutatás ( a ) teljes szövege (más néven a teljes szöveges keresést , vagy szabad szöveges keresés ) egy keresési technika egy elektronikus dokumentum vagy adatbázis szöveget, amely a kereső , hogy minden szót figyelembe az egyes tárolt dokumentum és próbálják illessze őket a felhasználó által szállítottakhoz .

A keresési technikák az 1970-es években váltak általánossá az online bibliográfiai adatbázisokban . A legtöbb webhely és alkalmazás (például szövegszerkesztő szoftver ) teljes szöveges keresést biztosít. A webes keresőmotorok, például az AltaVista , teljes szövegű keresési technikákat alkalmaznak, míg mások az indexelő rendszere által vizsgált weboldalaknak csak egy részét indexelik.

A teljes szöveges keresésben a leggyakoribb megközelítés az, hogy teljes indexet vagy egyezést hozzon létre az összes kereshető dokumentum számára. Minden szóhoz (kivéve azokat az eszközszavakat, amelyek túl gyakoriak ahhoz, hogy hasznosak legyenek) egy bejegyzés jön létre, amely felsorolja a szó minden előfordulásának pontos helyét a dokumentum-adatbázisban. Egy ilyen lista használatával viszonylag egyszerű az összes dokumentum lekérése, amelyek megfelelnek egy lekérdezésnek , anélkül, hogy minden dokumentumot be kellene szkennelni. Bár a nagyon kicsi dokumentum korpuszok a teljes szöveges keresést lehet tenni egymás utáni böngészés, indexelés az előnyben részesített módszer szinte minden teljes szöveges keresést.

A hamis pozitívok problémája

Mint bárki, aki teljes szöveges keresést végzett, felismeri, a teljes szöveges keresés valószínűleg sok olyan dokumentumot kap le, amelyek irrelevánsak a feltett kérdés szempontjából . Az ilyen dokumentumokat hamis pozitívnak nevezzük . A lényegtelen dokumentumok visszakeresését gyakran a természetes nyelvben rejlő kétértelműség okozza  ; például a szó ügyvéd jelöl mind a gyümölcs- és a szakma , és a dokumentumok kezeléséhez irreleváns a kutató érdekel a többi.

Kompromisszum a pontosság és a visszacsatolás között

A természetes nyelvi kétértelműségek miatt a teljes szöveges keresés általában olyan keresési listát hoz létre, amelynek alacsony pontossága van  : a legtöbb a visszanyert anyag irreleváns. Ellenőrzött szókészlet kutatás célja, hogy megoldja ezt a problémát, jelölésével dokumentumokat oly módon, hogy félreérthető megszűnt. Ezzel a módszerrel azonban hiányozhatnak azok a releváns dokumentumok, amelyeket egy teljes szöveges keresés tartalmazott volna.

Javítsa a teljes szöveges keresés teljesítményét

A teljes szöveges keresés hiányosságait kétféleképpen orvosolták: olyan eszközökkel látták el a felhasználókat, amelyek lehetővé teszik számukra a lekérdezések pontosabb kifejezését, valamint új keresési algoritmusok kifejlesztésével, amelyek javítják a visszakeresések pontosságát.

Továbbfejlesztett lekérdező eszközök

Továbbfejlesztett keresési algoritmusok

A technológia fejlődése nagymértékben javította a teljes szöveges keresés teljesítményét. Például a Google PageRank algoritmusa nagyobb jelentőséget tulajdonít azoknak a dokumentumoknak, amelyekre hiperhivatkozások révén számos más weboldal mutat . Ez az algoritmus jelentősen javítja a felhasználók felfogását a keresés pontosságában, ami megmagyarázza annak népszerűségét az internetezők körében . További példákat a keresőmotorban talál .

Megjegyzések

  1. véleménye az Általános Bizottság a terminológia és nyelvújítás: Computer Vocabulary (kifejezések listáját, kifejezések és definíciók elfogadott) , JORF n o  93 ápr 20, 2007, p.  7078, szöveges n o  84, NOR CTNX0710138K a Lgifrance .
  2. A gyakorlatban nehéz lehet meghatározni, hogy az adott kereső hogyan teljesít. A webes keresési szolgáltatások által használt keresési algoritmusokat ritkán hozzák nyilvánosságra, attól tartva, hogy a webre szakosodott vállalatok optimalizálási technikákat alkalmaznak a keresők számára, hogy javítsák fontosságukat a helyreállítási listán.

Lásd is