En Spider Bot Prosjekt

En Spider Bot Prosjekt


Selv om du ikke eier en robot som kan lage middag eller rake løv, kan du i det minste lage en robot til å adlyde dine kommandoer på nettet med litt programmering kunnskap. En edderkopp bot prosjekt lar programmerere å lage et program, kalt en "bot", for å gjennomgå diverse sider og trekke ut informasjon for senere bruk. Mange kjente selskaper er avhengige av edderkopp bots å "gjennomgå" på nettet og hente data. Selv om kodeeksempler ofte vises i C # og .NET, kan du lett tilpasse dem til alle språk.

Miljø

For å starte prosjektet, opprette en ny fil i utviklingsmiljøet til valg, slik som Eclipse eller Visual Studio. Du kan bruke nesten alle språk sammen med en passende klassebibliotek for å få tilgang til og manipulere data. Riktig utviklingsmiljø gir nesten uendelige Internett programmeringsmuligheter. For eksempel kan du bruke Web programmeringsfunksjoner for ditt rammeverk for å lage en edderkopp for å varsle deg når en prisen har falt ned eller når en webside har inkludert nytt materiale.

URI

De fleste programmerere lage en URI objekt før de lage selve edderkoppen bot. Instantiate en URI objekt ved hjelp av nettsiden du ønsker å gjennomgå med edderkopp bot som et argument:

Uri uri = ny Uri ( "http; // www.SampleSite.com/");

Den URI objektet representerer websiden edderkoppen bot vil etter hvert gjennomgå. Her URI objekt peker på "SampleSite" nettsted. Når du har opprettet en URI eller liste over URIer, er du klar til å begynne å bygge boten selv.

HttpWebRequest

Bruke et HttpWebRequest bruker URI å skape kjernen i bot:

WebRequest sampleWebRequest = HttpWebRequest.Create (URI);

Den WebRequest ligger i kjernen av edderkoppen bot. Det ber hovedsak websider på samme måte som en nettleser, for eksempel Internet Explorer eller Firefox. Men i stedet for å laste innholdet på siden for visning, den WebRequest bare holder filene som inneholder websiden i minnet. Nesten alle Web rammeverk inneholder en tilsvarende .NET er HttpWebRequest objekt.

HttpWebResponse

Sett bot for å jobbe med WebRequest og dens GetResponse metode for å be om websiden og legg den i en HttpWebResponse objekt:

HttpWebResponse SampleHttpWebResponse = (HttpWebResponse) http.GetResponse ();

Koden ovenfor laster ned www.SampleSite.com side fra Internett og plasserer det i lokalt minne. Du kan deretter transformere data til en HttpWebResponse objekt, som gjør det mulig å manipulere data.

Strøm

Hvis du ønsker å gjøre nettsiden leselig for et menneske som deg, må du gjøre det om til ASCII og tilordne den til en streng datatype variabel. Les HttpWebResponse ved hjelp av en StreamReader, og kode det inn i ASCII. Lukk HttpWebResponse:

StreamReader sampleStreamReader = ny StreamReader (
SampleHttpWebResponse.GetResponseStream ()
System.Text.Encoding.ASCII);
String resultat = sampleStreamReader.ReadToEnd ();
SampleHttpWebResponse.Close ();
sampleStreamReader.Close ();

Fra dette trinnet, kan du lagre webside data til en database, laste det opp til en server eller vise det. Mulighetene er nesten uendelige.