Hvordan bruke Html5lib i Python

Programmeringsspråket Python støtter HTML 5 nettsider ved hjelp av bibliotekets Html5lib. Dette biblioteket kan du skrive Python-skript som tolke HTML 5 sider ved hjelp av en trestruktur. Trestrukturer er hierarkiske visninger av web sideelementer. Tilgang web sideelementer gjøres ved hjelp av et tre walker. Treet walker 'turer' langs tilkoblinger av tre noder, og kan krysse hele treet. Du kan bruke Python med "Html5lib" for å åpne, vise og skrive ut en HTML 5 nettside.

Bruksanvisning

1 Åpne IDLE teksteditor i Program Files (eller Programmer for Macintosh) i Python katalogen. En tom kildekode fil åpnes.

2 Importer "Html5lib" modul ved å skrive følgende utsagn på toppen av kildekoden filen:

import html5lib

fra html5lib import treebuilders, treewalkers, serialisering

import urllib2

3 Opprett en ny HTML 5 parser, som du vil bruke for å lese en HTML-webside. Erklære en ny parser ved å skrive følgende:

parser = html5lib.HTMLParser ()

4 Åpne en nettside ved å sende sitt navn inn i urllib2.urlopen funksjon. For eksempel, hvis du ønsker å åpne "www.website_adddress.com," skriver følgende:

URL = urllib2.urlopen ( "http://www.website_address.com") .read ()

5 Pass nettstedet i HTML 5 parser for å motta et tre representasjon. Lagre denne representasjonen til en variabel kalt "tree" ved å skrive følgende uttalelse:

treet = parser.parse (URL)

6 Lag et tre walker som dette:

treeWalker = treewalkers.getTreeWalker ( "dom")

7 Gå gjennom treet ved hjelp av tre rullator. Treet walker vil returnere en strøm av informasjon som den finner i HTML 5 nettsiden. Å gå gjennom treet, skriver følgende:

stream = treeWalker (tre)

8 Serial strømmen, slik at du enkelt kan sende den til konsollen. Du kan serial strømmen ved hjelp av følgende to utsagn:

serie = serializer.htmlserializer.HTMLSerializer (omit_optional_tags = False)

output = serial.serialize (stream)

9 Iterere gjennom serie utgangen av bekken som dette:

for element i produksjonen:

10 Rykke linjen umiddelbart etter den forrige setningen og skrive en print-funksjon, som dette:

print (element)

11 Kjør programmet ved å trykke F5. Skriptet vil åpne, og deretter analysere en HTML 5 nettside. Skriptet serialiserer da trestrukturen på siden og utganger det til konsollen. Utgangen vil variere avhengig av websiden valgt, men kan se omtrent slik ut:

<Html>

<Head>

</ Head>

<Body>

Velkommen til en web-side!

</ Body>

</ Html>