Hvordan lage en web-robot

Hvordan lage en web-robot


Selv om det høres usannsynlig, blokkere søkemotor edderkopper med roboter er faktisk hva en robot.txt fil gjør. Søkemotorer bruker edderkopper (eller roboter, eller roboter) for å gjennomgå eller indeksere ditt nettsted, søke etter ord å bruke for å få opp ditt nettsted i et søk. En robot.txt fil er en fil du kan enkelt lage å la edderkoppen vite at du ikke vil at det skal krype på siden din, eller deler av siden din.

Bruksanvisning

1 Åpne din favoritt teksteditor. Det spiller ingen rolle hva tekstredigeringsprogram du bruker. Notepad fungerer helt fint hvis du er på en PC, og kan finnes under "Tilbehør".

2 Skriv to linjer, en for navnet på edderkoppen som vil gjennomgå websiden din, og en for katalog eller filnavnet du ønsker å utelukke for søket. Dette er syntaksen:

User-Agent: [Spider eller Bot navn]
Disallow: [Directory eller filnavn]

For eksempel:

User-Agent: Googlebot
Forby: /mywebsite/private.html

hvor «Googlebot» er roboten sendt ut av Google, og "private.html" er filen i mappen "mywebsite" som du ikke vil at roboten til indeksen.

3 Ekskludere en del av området ditt fra alle edderkopper. Hvis du ikke vil at noen roboter å indeksere en viss del av nettstedet ditt, kan du bruke "*" karakter etter User-Agent. Filen vil se slik ut:

Bruker agent: *
Forby: /mywebsite/private.html

4 Ekskluder hele området fra alle roboter. Hvis du ikke vil at noen av nettstedet skal være synlig ved roboter, (for eksempel hvis du bygger ditt nettsted, og det er ikke klar for å bli sett av publikum), sett inn en "*" karakter etter User-Agent, og den "/" etter Disallow. For eksempel:

Bruker agent: *
Disallow: /

5 Hvis du vil tillate alle roboter for å få tilgang til hele nettstedet, legger stjernen som før, og la Disallow delen tom, som følger:

Bruker agent: *
forby:

6 Lagre filen som robot.txt, og legg den i rotkatalogen på ditt nettsted. For eksempel, http://www.mywebsite.com/robots.txt.

Hint

  • Denne teknikken er ikke et sikkerhetstiltak. Sider som ikke er indeksert kan fremdeles nås. Det er hundrevis av roboter der ute, noen som ikke vil respektere dine ønsker, og vil søke i begrensede deler av nettstedene uansett. Atter andre er laget for å søke bare de begrensede områdene.
  • Hvis du begrenser hele området mens det er under bygging, må du huske å løfte den begrensningen når området er klar for visning slik at det kan bli indeksert.