Hvordan legge til ODP Dmoz data til ditt nettsted

I tillegg til å være et nyttig sted å finne nye nettsteder, DMOZ Open Directory Project (ODP) er en community-drevet stedet av åpne data. Dette betyr at data er tilgjengelig i sin rå form under en fri - som i frihet og null pris - lisens for deg å bruke og legge til ditt eget nettsted. Så lenge du har litt programmering kunnskap, kan du legge ODP data til nettstedet ditt med relativ letthet.

Bruksanvisning

1 Velg en kategori du ønsker å vise på nettstedet ditt. DMOZ Open Directory-prosjektet er stort - det er tusenvis av kategorier og hundrevis av tusenvis av nettsteder som å velge. Velge en liten, fokusert kategorien er viktig.

2 Naviger til DMOZ er RDF (Resource Description Framework) indeksen i nettleseren din (se Ressurser nedenfor). Denne siden er ikke det samme som DMOZ Open Directory hjemmeside. Det er et ikke-grafisk-intensiv katalogoppføring av alle sine offentlig tilgjengelige data.

3 Last ned "categories.txt" ved å høyreklikke på "categories.txt" linken og velge "Lagre lenke som ..." Dette er en liste over hver kategori. Selv om de fleste er tekstfiler (eller gzip komprimert tekstfiler), de fleste er svært store, og det er ikke anbefalt at du prøver å åpne dem i nettleseren din.

4 gjennom denne liste med søkefunksjonen i din favoritt teksteditor eller ved å surfe på filsøk. Hold filen for senere referanse som du også kan bruke dette til å generere koblinger til DMOZ kataloger eller validere katalognavn.

5 Last ned "content.example.txt" ved å høyreklikke på "content.example.txt" og velge "Lagre lenke som ..." XML-filen er et eksempel på katalogen oppføringer format og kan leses av alle programmeringsspråk eller verktøy med XML parsing evner.

6 Merk at hver "Emne" i filen inneholder en liste med lenker til relaterte sider. Under hver "Topic" delen er en rekke "ExternalPage" seksjoner som inneholder mer data om linkene oppført i "Emne" -delen. Dataene inneholder informasjon som koblingen tittel og beskrivelse.

7 Last ned den komplette data. Høyreklikk på "content.rdf.u8.gz" og velg "Lagre lenke som ..." Denne filen er ekstremt stor - ukomprimert det kan være så stor som en gigabyte. Fordi det er så stor og tar opp så mange av datamaskinens ressurser, være sikker på at den er lagret helt og riktig. Du trenger kanskje ikke å pakke denne filen, som det vil være ukomprimert under parsing prosessen.

8 Filtrere dataene. Du har sannsynligvis bare vil legge til en liten mengde av disse dataene til nettstedet ditt, men for å filtrere det du trenger noen kunnskap om programmering (eller hjelp) og grunnleggende UNIX-verktøy.

9 Skriv et program i en strøm-orientert XML parser og en spørrespråk (som XPath) om å kjøpe bare de dataene du ønsker. For eksempel, hvis du ønsket å få alle filmanmeldelser om filmen "The 13th Warrior" fra dataene, vil du ta alle Topic tags som r: id-feltet er "Top/Arts/Movies/Titles/1/13th_Warrior,_The" samt alle ExternalLinks koder som emne-feltet er den samme.

10 Skriv din program for å ta XML stream på stdin for å kunne bruke den komprimerte datafilen. Bruk en kommando som ligner på følgende:

gunzip content.rdf.u8.gz | ./my_filter_program

11 Innlemme dataene inn på området. Hvis nettstedet ditt er manus, kan dette være en automatisert prosess. Nå som du har en liste over linker i en liten XML-fil, kan du enten analysere denne filen under kjøring for å generere en liste med linker eller kopiere og lime inn liste over linker til ditt nettsted.

12 Automatisere prosessen. DMOZ Open Directory-prosjektet er et pågående prosjekt. Lenker dø og bli fjernet og nye koblinger få lagt. Når databasen endringer, er det best å ha hele prosessen automatisert i et script fil så for å oppdatere listen over linker, du trenger bare å kjøre skriptfilen igjen.

Hint

  • En strøm-orientert XML-parser (eller "SAX" parser) er nødvendig på grunn av filstørrelsen tallet. En DOM XML parser kan ikke brukes i dette tilfellet som det ville kreve mange gigabyte RAM og en strøm parser kan gjøre det samme.