Definer Edderkopper på datamaskinen

Definer Edderkopper på datamaskinen


Selv om Web edderkopper er ganske enkelt skript som kjører på en Internett-tilkoblet datamaskin, har navnet sitt en skummel konnotasjon på grunn av sin åttebeinte navnebror. Som et resultat, har ofte en rekke forestillinger om edderkopper og den måte at de opererer. I de fleste tilfeller, edderkopper er gunstig for nettstedet ditt, hjelpe folk til å finne deg og den informasjonen de søker etter. Noen edderkopper er parasitter imidlertid, og stjele innhold. Det er mulig å blokkere disse edderkoppene tilgang til nettstedet.

Hva er edderkopper?

I databehandling termer, edderkopper automatisert skript som gjennomgår Internett og hente informasjon. Edderkopper starte med et sett av frø adresser å besøke, og sende ut standard nett forespørsler om å laste ned sider fra disse adressene. Edderkoppen analyserer siden, og trekker målet informasjonen. Nye adresser funnet fra linker på de nedlastede sider legges til sin database, og i tid, er disse sidene gjennomgås og prosessen fortsetter. Dette gjør at edderkoppen å automatisk navigere seg rundt på nettet, ved hjelp av informasjonen det er programmert til å samles for å utvide sin database.

Hvordan fungerer de edderkopper?

Edderkopper typisk hente store mengder informasjon som de går via Internett, så for å unngå å gå tom for ressurser i form av båndbredde og lagringsplass, bruker edderkoppen et sett med regler for å gjennomgå intelligent. Forfatteren av skriptprogrammer disse reglene inn i manus, for å finne ut hvor mange nivåer dypt inn i en webside edderkoppen vil reise, og hvor ofte edderkoppen revisits området for å se etter oppdatert innhold. Automatiserte edderkopper kan generere mange flere web forespørsler enn et menneske kan i løpet av en kort periode, og dette kan påvirke en nettsteder ytelse. Skriptet forfatteren unngår vanligvis dette scenariet ved svimlende forespørsler, slik at området eieren har ingen grunn til å blokkere edderkoppen.

Hvorfor er Spiders brukt?

Edderkopper har mange formål, men er først og fremst informasjon samlere. Alle søkemotorer stole på edderkopper å skanne nettet for å skape en søkbar indeks, og uten edderkopper, ville nettsteder som Google eller Yahoo gir en mye mindre resultatsett. Pris sammenligning nettsteder bruker edderkopper til å finne leverandører som selger utvalgte produkter, skanning nettsteder med jevne mellomrom for å vise de siste prisene. Selv edderkopper har mange legitime og nyttige anvendelser, de er også brukt til skadelige formål, for eksempel skanning nettsteder på jakt etter e-postadresser for å selge til e-markedsførere. Andre edderkopper kan krype nettsteder på jakt etter utnyttbare skript og programvare med kjente sårbarheter, for å starte et angrep og stjele private data.

Blokkering edderkopper

Du kan blokkere søkemotor edderkopper fra å gjennomgå nettstedet ditt ved å opprette en robots.txt-fil. Dette er en ren tekstfil som lagres i roten av nettstedet ditt, noe som gjør det mulig å gi instruksjoner til kompatible crawlere å kontrollere sin atferd når de besøker nettstedet ditt. Du kan målrette enkelte edderkopper, eller bruke generelle instruksjoner for å målrette alle edderkopper. Et av problemene med denne tilnærmingen er at etterlevelse er frivillig, og bare legitime roboter følge reglene. Skadelige edderkopper vil rett og slett ignorere reglene, så du trenger en alternativ metode for å blokkere dem. Som edderkopper er ganske enkelt skript, de vanligvis kjøres fra en statisk base, så forespørsler kommer fra samme IP-adresse. Hvis du finner en edderkopp besøker nettstedet ditt ved hjelp av nettstedene loggfilen, kan du se IP-adressen, som du deretter kan blokkere for å stoppe edderkoppen tilgang til nettstedet.