The Robots Exclusion Protocol

The Robots Exclusion Protocol


Roboter i Internet sammenheng betyr program som skanner et nettsted for å samle inn informasjon. Disse er ikke virus - det ingen kode plassert på din maskin, og når roboten er ferdig med nettstedet ditt, er det ingen bevis for at roboten var der. Informasjonen innsamlingen er ikke nødvendigvis skadelig - du kan ha nytte av besøket. The Robots Exclusion Protocol (REP) tillater deg å ha en viss kontroll over prosessen.

Historie

Den REP Ideen startet i 1994 med en robot leser gruppe ([email protected]) som en måte å lede roboter gjennom nettsteder. Den grunnleggende ideen var å installere et kort fil med kjent navn og plassering instruerer roboten hvor du skal lete. Disse retningene vil trolig bli ignorert av ondsinnede roboter, men kan brukes av godartede roboter for å spare dem litt tid ved å undersøke bare noen av filene dine. Den grunnleggende protokollen ble forbedret i 2008 av et stort antall av de store Internett-selskaper, inkludert Yahoo og Google.

godartede Robots

Det er noen roboter du faktisk ønsker å besøke nettstedet ditt. For eksempel søkemotorer bruker roboter å indeksere Internett. Starter med en enkel nettadresse, roboten klassifiserer som nettstedet og inneholder en liste over alle linker funnet på nettstedet. Da roboten går ned på listen over innsamlede nettstedet adresser. Som listen over nye nettsteder er opprettet hver måned er offentlig tilgjengelig, er det et etterslep av nettsteder for å sjekke som holder robotene som jobber dag og natt. Du ønsker disse robotbesøk fordi du vil at søkemotorer å vite og klassifisere ditt nettsted slik at potensielle kunder kan finne deg gjennom søkemotorer.

ondsinnede roboter

Roboter kan også brukes for destruktive formål. For eksempel kan roboter kompilere en liste over e-postadresser indeksert av interesser. For å gjøre dette, de ser etter alt som har en "@" symbol og ta strengen rundt det som er bundet med mellomrom. Dette er grunnen til at du vil se noen informatikk professorer gi sin adresse som Professor.Abc {krøllalfa} University.edu - det er å folie onde roboter. For å klassifisere din e-post adresse etter interesse, ser roboten i META uttalelse som er en del av koden bak hvert nettsted.

REP Syntax

Robots.txt-filen er installert i en katalog. Hvis nettstedet ditt er www.widgits.com, vil stien til robots.txt-filen bli www.widgits.com/robots.txt~~V. Den første linjen i filen vil være "user-agent:" og den neste linjen vil bli "Forby:" - den første linjen velger bestanden av roboter og den andre linjen viser hvilke kataloger er utenfor grensene. Ved hjelp av ";" for å indikere et linjeskift, "bruker-id:; / abc /" er de to linje uttalelser som direkte alle roboter å unngå abc-katalogen. Å tillate SearchBot å undersøke alt, men forby alle andre roboter, ville koden være "bruker-id: SearchBot, forby:; user-id:; forby: /" - * betyr alle roboter, / betyr at alle kataloger og en blank plass betyr ingen kataloger.