Hvordan lage en Web Bot

Søkemotorer som Google eller Yahoo !, trekke websider i sine søkeresultater ved bruk av web-roboter (også noen ganger kalt edderkopper eller crawlers), som er programmer som skanner Internett og indeksere nettsteder i en database. Web roboter kan gjøres ved hjelp av de fleste programmeringsspråk, inkludert C, Perl, Python og PHP, som alle lar programmerere å skrive skript som utfører prosedyre oppgaver, for eksempel Web skanning og indeksering.

Bruksanvisning

1 Åpne tekstredigeringsprogram, for eksempel Notisblokk, som er inkludert med Microsoft Windows eller Mac OS X sin TextEdit, hvor du vil forfatte et Python Web bot applikasjon.

2 Initiere Python-skript ved å inkludere følgende linjer med kode, og erstatte eksempel URL med nettadressen til nettstedet du ønsker å skanne og navnet på eksempeldatabase med databasen som skal lagre resultatene:

import urllib2, re, string
enter_point = 'http://www.exampleurl.com'
db_name = 'example.sql'

3 Inkluder følgende linjer med kode for å definere rekkefølgen av operasjoner som Web bot vil følge:

def uniq (seq):
satt = {}
kartet (sett. setitem, seq, [])
tilbake set.keys ()

4 Skaff webadresser i nettstrukturen ved hjelp av følgende linjer med kode:

def geturls (URL):
elementer = []
request = urllib2.Request (url)
request.add.header ( 'Bruker', 'Bot_name;)')
content = urllib2.urlopen (forespørsel) .read ()
elementer = re.findall ( "href =" http:.? // & quot; ', innhold)
urls = []
tilbake webadresser

5 Definer databasen som web bot vil bruke, og angi hvilke opplysninger den skal lagre for å full gjøre nettet bot:

db = open (db_name, 'a')
allurls = uniq (geturls (enter_point))

6 Lagre tekstdokumentet og laste det opp til en server eller datamaskin med en Internett-tilkobling hvor du kan utføre skriptet og begynne å skanne nettsider.