Koden til Strip topp- og bunntekst fra HTML filer

Koden til Strip topp- og bunntekst fra HTML filer


Strukturen og syntaksen til Hypertext Markup langauge, eller HTML, forteller ikke bare en nettleser hvordan du kan vise innholdet av en fil, men identifiserer også strukturelle data om selve filen. Disse kodene er også uvurderlig hvis du er en programmerer som ønsker å kode et program som vil strippe bort bestemte deler av en HTML-fil, for eksempel topptekst og bunntekst.

HTML Anatomy

HTML bruker et enkelt system av mark opp koder for å identifisere ulike deler av et HTML-dokument. HTML-filen header er preget av "<head>" tag, bunnteksten av <footer> tag. En HTML-leser vil tolke noe mellom startkoden og koden som angir delen nære, "</ header"> gjennom "</ bunntekst>", som en del av den angitte delen. Andre koder, for eksempel "<body>" svarer til andre deler av filen.

Identifisere topp- og bunntekst

Når du oppretter kode for å strippe bort HTML topp- og bunntekst, kan du ikke stole på å vite nøyaktig hvor lenge topp- eller bunnteksten vil bli. Mens noen topp- og bunntekst består av en enkelt linje, kan de være mye lenger. Følgelig kan koden ikke bare søk etter "<header> / <footer>" tag deretter på '\ n' symbol som indikerer slutten av en linje. Når du leser HTML filens innhold i en tegnstreng, må du identifisere indeksen posisjonen til den første "<" av den opprinnelige koden samt ">" av terminalen tag.

Finne String Posisjoner

Både lavt nivå språk som C og C ++ og høyt nivå språk som Python og Ruby har metoder for å hjelpe deg med å finne elementer av teksten innenfor en gitt streng. Disse metodene vil returnere indeksen posisjonen til det første tegnet i teksten du leter etter. Når du søker ut de første kodene, vil dette gi deg ditt utgangspunkt for å fjerne tekst. Når du søker terminalen tag, husk at det punktet du ønsker er enten seks ( "</ head>") eller sju ( "</ bunntekst>") posisjoner foran nummeret metoden gir deg.

Striping Kode

Når du har indeksposisjoner for topp- eller bunnsegmentet du ønsker å fjerne, kan du gå om du gjør det på én av to generelle måter. Det ene er å påkalle de riktige metodene for å slette tegnene mellom første og siste indeksposisjoner for segmentet. Dette vil forandre den opprinnelige strengen. Du kan også opprette en ny streng å lage to versjoner av HTML filens innhold: den opprinnelige filen og en versjon strippet for topp- og bunntekst kode. Dette gjøres ved å tildele innholdet i den opprinnelige strengen opp til den første indeksstilling, og deretter alt etter den siste indeksstilling, til den nye strengen.