Hva er edderkopper på nettsteder?

Edderkopper på World Wide Web er automatiske dataprogrammer som streifer, eller kryper, fra websiden til webside ifølge atferdsregler som er definert av sine skapere. Edderkopper vanligvis kopiere innholdet på websider de besøker i en database, slik at det kan analyseres av søkemotorer som Google og Yahoo !, men edderkopper kan også validere strukturen på websider eller samle spesifikk informasjon, for eksempel e-postadresser.

Crawling

De fleste nettsider inneholder linker til andre sider, så en edderkopp effektivt kan starte gjennomgangen nesten hvor som helst på World Wide Web. Men i praksis, edderkopper starter vanligvis med en eller flere kjente nettadresser, kjent som "frø". Edderkoppen velger en webadresse, laster den tilhørende websiden og trekker digital informasjon, inkludert linker til andre sider, fra det. Edderkoppen legger de eksterne linker til en liste, kjent som en Universal Resource Locator Frontier, som den bruker til å følge hver kobling i sving.

funksjonelle komponenter

Bortsett fra nettadressen Frontier, som er en liste over web-adresser en edderkopp ennå ikke har utforsket, kan en edderkopp bli brutt ned i flere andre funksjonelle komponenter. En Domain Name System modul bestemmer webserveren som edderkoppen mottar en webside, en hente modulen henter websiden og en analysemodul henter innhold og lenker fra det. En duplisering eliminering modul sikrer at hver webside hentes bare en gang.

Søkemotoredderkopper

Søkemotorer bruker edderkopper å gjøre søk på World Wide Web som raskt og enkelt som mulig, fra en brukers synspunkt. Store søkemotorer bruker mange edderkopper, som arbeider parallelt for å kopiere og indeksere webinnhold på en jevnlig basis. Dette betyr at når en bruker sender en spørring, kan søkemotoren søke sin lokale indeks for de mest relevante resultatene snarere enn å søke hele World Wide Web. Søkemotoren må imidlertid opprettholde en up-to-date indeks for å bevare sin troverdighet og pålitelighet, så søkemotor edderkopper operere kontinuerlig.

utvalg

The World Wide Web består av millioner av offentlig tilgjengelige nettsider, slik at selv store søkemotorene kan bare laste ned en brøkdel av dem. Edderkopper derfor ansette flere teknikker for å prioritere sider, eller sørge for at sidene de laster ned inneholder så mye nyttig informasjon som mulig. De kan for eksempel bare laste ned Hypertext Markup Language sider eller sider med innhold tilsvarer en forhåndsdefinert liste over emner.