Hvordan lage en Web Spider

En web edderkopp er et dataprogram som laster ned en nettside, og deretter følger alle linkene på den siden og laster dem også. Web edderkopper er vant til å lagre websider for offline lesing, eller for lagring av websider i databaser for å bli brukt av en søkemotor. Opprette en web edderkopp er en utfordrende oppgave, egnet for en college-nivå programmerings klasse. Disse instruksjonene forutsetter at du har solid erfaring med programmering, men ingen kunnskap om edderkopp arkitektur. Trinnene legge ut en veldig spesiell arkitektur for å skrive en Web edderkopp i det språket du valgte.

Bruksanvisning

1 Initial programmet med den første nettsiden du ønsker å laste ned. Legg til URL for denne nettsiden til en ny database tabell over nettadresser.

2 Send en kommando til nettleseren instruere det å hente denne web-siden, og lagre den på en disk. Flytt databasen pekeren frem ett skritt forbi adressen du nettopp lastet ned, som nå vil peke på enden av bordet.

3 Les websiden inn i programmet, og analysere den for linker til flere nettsider. Dette gjøres vanligvis ved å søke etter tekststrengen "http: //" (. Eksempel "", "", eller ">") og fange teksten mellom strengen og en avslutningstegn. Legg til linker til nettadressen databasen bordet; databasen pekeren bør forbli på toppen av denne nye listen.

4 Test oppføringene i databasen tabellen for unikhet, og fjern eventuelle nettadresser som vises mer enn én gang.

5 Hvis du ønsker å søke en URL-filter (for eksempel for å hindre nedlasting av sider fra nettsteder på forskjellige domener), gjelder det nå å URL database tabell og fjerne eventuelle nettadresser som du ikke ønsker å laste ned.

6 Sett opp et programma løkke slik at edderkoppen tilbake til trinn 2 ovenfor. Dette vil rekursivt laste ned alle nettadressene dine edderkopp møter. Fjerne dupliserte webadresser sikrer at edderkoppen vil den skal opphøre når den når den siste unik nettadresse.

Hint

  • Hvis du bruker et operativsystem Unix, sjekk dokumentasjonen Unix (eller "man-sidene") for krøller og wget. Disse kommandoene har mange innebygde spidering alternativer, som i stor grad kan redusere programmering tid og kompleksitet.