Slik bruker Apache Crawl Via Java

October 8

Apache Nutch er en åpen kildekode web crawler program skrevet i programmeringsspråket Java. Den ble utviklet av Apache Software Foundation. For å bruke Apache-utviklet crawler, må du ha Apache Tomcat og Java 1.4 av Sun eller IBM installert på din Linux-maskin. Når programmet er installert, kan du bruke Apache Nutch som en web crawler til frø en database med en liste over noen web-adresser, akkurat som Internett-gigantene som Google og Yahoo gjør med sine søkemotorer.

Bruksanvisning

1 Åpne en teksteditor og redigere "crawl-urlfilter.txt" filen i "conf" katalogen. Bytt domenenavnet med navnet på nettsiden du ønsker å gjennomgå. For eksempel bør hele linjen med tekst ser ut som dette en gang redigert, med det faktiske domenenavnet i stedet for "example.com":

+ ^ Http: // (. [A-Z0-9] * \) * example.com /

2 Starte terminalteksten på datamaskinen og utføre en gjennomgang av det angitte nettstedet. Skriv "./nutch crawl ../urls -dir ../crawled/ -depth 1" og trykk "Enter" -tasten.

3 Start Apache Tomcat server. Skriv "catalina.sh start" ved ledeteksten og trykke "Enter" -knappen.

4 Åpne en nettleser og gå til "http: // localhost:. 8080 / & quot; for å få tilgang til søkefunksjonen Skriv ett eller flere søkeord i grensesnittet søkeboksen, og klikk på knappen" Søk "Resultatet av søket vises på. neste side.