Indexelő robot

A bejáró (in English keresőrobotjaként vagy pók , szó pók a web ) egy szoftver , amely automatikusan feltérképezi a web . Ez általában úgy van kialakítva, hogy összegyűjtse források ( weboldalak , képek , videók , dokumentumok, a Word , PDF vagy PostScript stb), hogy a kereső „s index .

Ugyanezen elv alapján működik néhány rosszindulatú robot ( spam robot ) az erőforrások archiválására vagy e-mail címek gyűjtésére, amelyekre e- maileket küldenek .

Francia nyelven 2013 óta a bejárót helyettesítheti a gyűjtő szó .

Vannak olyan gyűjtők is, amelyek alaposan elemzik a tartalmat annak érdekében, hogy információiknak csak egy részét hozzák vissza. Néhány olyan keret, amely mind Scrapy néven készült, létezik ilyen robotok írására.

Indexelési elvek

Hogy index új erőforrásokat, a robot úgy megy végbe, rekurzív következő a hivatkozásokat találtam egy pivot oldalt. Ezt követően előnyös minden letöltött erőforrás URL-jét tárolni, és a látogatások gyakoriságát az erőforrás frissítésének megfigyelt gyakoriságához igazítani. Ha azonban a robot betartja a robots.txt fájl szabályait, akkor sok erőforrás elkerüli ezt a rekurzív feltárást. Ezt a felderítetlen erőforráskészletet mély webnek vagy láthatatlan webnek hívják .

A webhely gyökerében elhelyezett kizárási fájl ( robots.txt) arra szolgál, hogy a robotok listát adjanak a figyelmen kívül hagyandó erőforrásokról. Ez a megállapodás segít csökkenteni a webszerver terhelését és elkerülni a felesleges erőforrásokat. Egyes botok azonban nem törődnek ezzel a fájllal.

A web két jellemzője megnehezíti a webrobot munkáját: az adatmennyiség és a sávszélesség . Mivel a számítógépek feldolgozási és tárolási kapacitása, valamint az internetfelhasználók száma jelentősen megnőtt, ez összefügg a Web 2.0 típusú oldalfenntartó eszközök fejlesztésével, amelyek lehetővé teszik, hogy bárki könnyedén feltölthesse a rendelkezésre álló oldalak, elérhető oldalak számát és összetettségét. , és azok módosulása jelentősen megnőtt a XXI .  század első évtizedében . Mivel a passband által engedélyezett átviteli sebesség nem tapasztalt egyenértékű előrehaladást, a probléma az egyre növekvő mennyiségű információ feldolgozása, viszonylag korlátozott átviteli sebességgel. A robotoknak ezért előtérbe kell helyezniük a letöltéseket.

Az indexrobot viselkedése a következő elvek kombinációjából adódik:

Web 3.0 robotok

A Web 3.0 határozza meg az új fejlesztéseket, és találjon műszaki elvek Internet , hogy kell támaszkodni részben a szabványok a szemantikus web . A Web 3.0 botok az indexelési módszereket használják ki, amelyek intelligensebb személy-gép társításokat tartalmaznak, mint a ma gyakoroltak.

A szemantikus web megkülönbözteti a nyelvekre alkalmazott szemantikát : míg a nyelvi szemantika magában foglalja az összetett szavak jelentését, valamint a nyelv összes szava közötti kapcsolatokat, a szemantikus web csak az interneten jelen lévő kapcsolatok és tartalom architektúráját képviseli.

Robotok

Megjegyzések és hivatkozások

  1. Olivier Robillart, "A gyűjtő és a billentyűzár helyettesíti a" Crawler "és a" Keylogger "kifejezéseket , Clubic , 2013. január 2.
  2. (in) hivatalos honlapja Hulladék .
  3. (in) YaCy-Bot  " , 2012.

Lásd is

Kapcsolódó cikkek

Külső linkek