A bejáró (in English keresőrobotjaként vagy pók , szó pók a web ) egy szoftver , amely automatikusan feltérképezi a web . Ez általában úgy van kialakítva, hogy összegyűjtse források ( weboldalak , képek , videók , dokumentumok, a Word , PDF vagy PostScript stb), hogy a kereső „s index .
Ugyanezen elv alapján működik néhány rosszindulatú robot ( spam robot ) az erőforrások archiválására vagy e-mail címek gyűjtésére, amelyekre e- maileket küldenek .
Francia nyelven 2013 óta a bejárót helyettesítheti a gyűjtő szó .
Vannak olyan gyűjtők is, amelyek alaposan elemzik a tartalmat annak érdekében, hogy információiknak csak egy részét hozzák vissza. Néhány olyan keret, amely mind Scrapy néven készült, létezik ilyen robotok írására.
Hogy index új erőforrásokat, a robot úgy megy végbe, rekurzív következő a hivatkozásokat találtam egy pivot oldalt. Ezt követően előnyös minden letöltött erőforrás URL-jét tárolni, és a látogatások gyakoriságát az erőforrás frissítésének megfigyelt gyakoriságához igazítani. Ha azonban a robot betartja a robots.txt fájl szabályait, akkor sok erőforrás elkerüli ezt a rekurzív feltárást. Ezt a felderítetlen erőforráskészletet mély webnek vagy láthatatlan webnek hívják .
A webhely gyökerében elhelyezett kizárási fájl ( robots.txt) arra szolgál, hogy a robotok listát adjanak a figyelmen kívül hagyandó erőforrásokról. Ez a megállapodás segít csökkenteni a webszerver terhelését és elkerülni a felesleges erőforrásokat. Egyes botok azonban nem törődnek ezzel a fájllal.
A web két jellemzője megnehezíti a webrobot munkáját: az adatmennyiség és a sávszélesség . Mivel a számítógépek feldolgozási és tárolási kapacitása, valamint az internetfelhasználók száma jelentősen megnőtt, ez összefügg a Web 2.0 típusú oldalfenntartó eszközök fejlesztésével, amelyek lehetővé teszik, hogy bárki könnyedén feltölthesse a rendelkezésre álló oldalak, elérhető oldalak számát és összetettségét. , és azok módosulása jelentősen megnőtt a XXI . század első évtizedében . Mivel a passband által engedélyezett átviteli sebesség nem tapasztalt egyenértékű előrehaladást, a probléma az egyre növekvő mennyiségű információ feldolgozása, viszonylag korlátozott átviteli sebességgel. A robotoknak ezért előtérbe kell helyezniük a letöltéseket.
Az indexrobot viselkedése a következő elvek kombinációjából adódik:
A Web 3.0 határozza meg az új fejlesztéseket, és találjon műszaki elvek Internet , hogy kell támaszkodni részben a szabványok a szemantikus web . A Web 3.0 botok az indexelési módszereket használják ki, amelyek intelligensebb személy-gép társításokat tartalmaznak, mint a ma gyakoroltak.
A szemantikus web megkülönbözteti a nyelvekre alkalmazott szemantikát : míg a nyelvi szemantika magában foglalja az összetett szavak jelentését, valamint a nyelv összes szava közötti kapcsolatokat, a szemantikus web csak az interneten jelen lévő kapcsolatok és tartalom architektúráját képviseli.