Definisjonen av en HTML-parser

Definisjonen av en HTML-parser


Nettsiden du nå leser er et produkt av HTML, eller Hypertext Markup Language. Det er en organisert samling av tekst, har formateringskommandoer, kalt tags, rundt klartekst du lese på skjermen. Programmet du bruker til surfing, for eksempel Internet Explorer, leser nettsiden data, analyserer kodene og viser ferdige, formatert tekst. I tillegg til nettlesere som folk bruker, automatisk HTML-parser programmer skanne nettet for data.

HTML formatering

HTML er et spesialisert programmeringsspråk laget for å vise formatert tekst på en side. Den består av formateringskoder som sted og vise tekst som vanlig, fet skrift, i farger og i andre forskjellige måter. I en HTML-fil, vinkelparenteser alltid omgir en kode, noe som gjør kodene lett å finne. For eksempel starter HTML-dokument med et "<html>" tag og slutter med en "</ html>" tag. Mellom disse taggene er andre koder som beskriver sidens layout. Selve teksten på siden ligger innenfor den dypeste settet med tags. En HTML-parser er programmert til å "forstå" disse kodene slik at den kan vise en nettside eller utlede informasjon fra den.

HTML Parsing

En HTML-parser ber om en nettside fra en webserver, akkurat som du skriver nettadresser i adressefeltet i nettleseren din. Serveren sender HTML til parser, som deretter skanner gjennom siden, på jakt etter koder og tekst. Den kontrollerer filen for å sørge for at den har HTML-koder og i riktig rekkefølge; ellers kan det være en Acrobat-fil eller en annen type dokument. Hvis forfatteren forberedt på siden av hånden, kan han ha gjort feil i HTML, fører parseren å avvise det. Hvis siden sjekker ut, parseren plukker den fra hverandre i henhold til HTML regler. Parseren deretter organiserer, viser og gleans informasjon fra nettsiden.

Nettlesere lesere~~POS=HEADCOMP

Den opprinnelige intensjonen i Web var å gjøre lesbar sider, og det er det en nettleser gjør. Det analyserer HTML og skaper en synlig, formatert side fra innholdet. Leseren vet når man skal gjøre noe av teksten større enn andre, hvordan du viser Web-koblinger og hvordan å vise bilder. Når nettleseren er ferdig oppretter siden, venter det for brukeren til å klikke på musen, skriver tekst eller utføre en annen handling. Hvis brukeren klikker på en lenke eller skriver inn en adresse, henter leseren en annen webside.

web Crawling

Web søkesider som Google, Bing og Ask har programmer som automatisk skanne hele Internett, på jakt etter fersk informasjon. Disse såkalte "Web crawlere" lese en nettside, katalogisere sin tekst og undersøke den for linker til andre sider. For å finne lenker og annen viktig informasjon, web belte programmene analysere hmtl. I motsetning til en nettleser, men de vises ikke sidene på en skjerm.

Screen Skraping og Spam

Programmerere skrive HTML-parsere for en rekke formål. Noen automatisk trekke tabellrapporten data fra nettsteder, andre samle bilder. Programmerere kaller dette "skjermskraping" som programmet ekstrakter, eller "skraper" dataene fra websiden og samler det. En ulovlig praksis som kalles "spamming" innebærer en automatisk Web parser som undersøker sider for e-postadresser, som parseren lett kan identifisere. Når parser ekstrakter adressen, legger det den til spammer database. Andre programmer da automatisk sende e-post salg meldinger, eller "spam", til adressen. For å unngå at innboksen oversvømmet med salg meldinger, ikke inkluderer e-postadressen din på offentlig tilgjengelige nettsider.