Hva er Internett edderkopper?

Hva er Internett edderkopper?


Internett edderkopper er automatiserte dataprogrammer som kryper fra side til side på nettet. De utfører rutineoppgaver, som for eksempel elektroniske søk, og opererer i henhold til et sett av atferdsregler som er definert av sine skapere, slik at de hente, indeksere og kategorisere webinnhold mest passende for deres formål.

komponenter

Den viktigste komponenten av en Internett-edderkopp er kjent som en Universal Resource Locator (URL) Frontier. Webadressen Frontier er en liste over web-adresser som Internett edderkoppen har ennå til å utforske. De andre funksjonelle komponenter er en Domain Name System (DNS) modul, en hente modul, en analysemodul og en duplisering eliminering modul. DNS-modulen bestemmer webserveren som Internett edderkoppen henter en webside, de henter og tolke moduler hente og analysere innhold og duplisering eliminering modulen hindrer hver webside blir hentet mer enn én gang.

Operasjon

De fleste nettsider inneholder hyperkoblinger - ord, setninger, bilder eller ikoner som brukere kan klikke på for å navigere til andre websider - så teoretisk kan en Internett-edderkopp starte gjennomgangen hvor som helst på nettet. I praksis er imidlertid Internett edderkopper vanligvis starte med noen kjente websider, kjent som frø. Edderkoppen henter innholdet på en av disse sidene, inkludert linker til andre sider, og legger til koblinger til nettadressen Frontier, som gir grunnlag for videre gjennomgang.

Søkemotorer

Internett edderkopper er mye brukt av søkemotorer som Google og Yahoo !. Søkemotorer bruker vanligvis mange Internett-edderkopper, som opererer i parallell, for å hente og indeksere webinnhold. Edderkoppene kopiere innholdet de finner i en database og i realiteten opprette en lokal indeksen, som søkemotorer kan søke mye raskere enn hele nettet når en bruker sender en spørring. Internett edderkopper kan krype millioner av websider i løpet av kort tid, men selv mange edderkopper kan ikke håpe på å gjennomgå hele nettet før sidene er endret eller slettet, så søkemotoren edderkopper velge hvilke sider de besøker og hvor ofte.

E-post Høsting

Internett edderkopper kan validere strukturen på websider, inkludert hyperkoblinger, eller generere statistikk som gir bedre forståelse av innholdet på nettet. De kan også samle, eller "høste" spesifikk informasjon, for eksempel e-postadresser, som kan brukes av skruppelløse individer eller grupper for distribusjon av Internet søppelpost, ellers kjent som spam.