Hva er Spider programvare?

Spider programvare er programvare som selvstendig, eller uten kontroll fra utsiden, "kryper" fra side til side på World Wide Web. Spider programvare brukes vanligvis av søkemotorer, som for eksempel Yahoo! og Google, for å skape en up-to-date, lokal indeks over nettsider som søkemotoren kan søke raskere enn Internett i seg selv.

Hvordan Spider programvare fungerer

Spider programvare starter vanligvis med en eller flere web-adresser, tilsvarende kjente, ofte besøkte websider, kjent som frø. Programvaren velger en av disse nettadresser og hentinger, eller nedlastinger, websiden knyttet til den. En modul innenfor edderkoppen programvaren henter innhold fra siden, lagres i en database og indekser for fremtidig bruk. En annen modul legger eksterne lenker - det vil si, lenker til andre nettsider - til en liste kalt en URL Frontier, slik at edderkoppen kan gjennomgå dem én etter én.

atferds~~POS=TRUNC

Spider programvare er vanligvis i stand til å gjennomgå millioner av websider i en svært kort periode, men selve volumet av World Wide Web betyr at edderkoppen programvaren ikke kan muligens laste ned hver side. Spider-programvaren bruker derfor et sett av atferdsmessige retningslinjer for å finne ut hvilke nettsider den laster ned og hvor ofte den kryper disse sidene for å søke etter oppdatert innhold. Programvaren kan for eksempel bare laste sider som svarer til en forhåndsdefinert tema eller sett av emner, eller ekskludere sider med innhold er noe annet enn statisk Hypertext Markup Language (HTML) tekst.

Crawling

Dersom eiere ønsker edderkopp programvare for å gjennomgå sine nettsider, de kan inneholde koder skrevet i HTML - standard protokoll for å formatere og vise dokumenter på nettet - på hver nettside. HTML-tagger beskrive innholdet på siden og fortelle edderkoppen programvare hvordan å indeksere den. Alternativt, hvis eiere ikke ønsker sine nettsteder for å bli gjennomgått - eller innholdet er uegnet for gjennomgangen - de kan inneholde en utelukkelse robot protokoll, i en fil som heter "robot.txt," for å fortelle edderkopp programvare ikke å gjennomgå en side, eller sider.

Bruker

Mange søkemotorer bruker edderkopp programvare. Samt å skape et øyeblikksbilde av World Wide Web til enhver tid, kan edderkopp programvare også generere statistikk, eller bare validere struktur og linker til nettsider for administrasjonsformål. Imidlertid kan edderkopp programvare også samle spesifikk informasjon, inkludert e-postadresser, som skruppelløse individer og grupper bruker for å oversvømme nettet med uønsket, useriøs e-postmeldinger, ellers kjent som spam.