Hvordan Skill HTML & Python-kode

Python er en åpen kildekode, objektorientert programmeringsspråk som er optimalisert for å bygge dynamiske webapplikasjoner. Ved programmering i Python, må du kanskje å skille HTML formatering fra Python-kode. For eksempel kan en bruker oppgi en webside i et datafelt, at du må kle ut HTML-koder for å lagre tekstdata. For å fjerne HTML-koder fra en streng, må du bruke den innebygde Python Regular Expression modul, "Regex."

Bruksanvisning

1 Åpne Python editor.

2 Laste Regular Expression-modulen ved å skrive følgende:

import re

3 Definer en funksjon for å fjerne alle HTML-koder. For eksempel, skriver du følgende:

def delete_html (data):

4 Skill HTML kode elementer ved å bruke "re.compile" -funksjonen for å kompilere regulære uttrykk mønstre i et objekt som du kan bruke for mønstergjenkjenning. Fortsetter eksempel skriver dette:

htmlPattern = re.compile (r '<. *?>')

I dette eksemplet er "re.compile" attributtet forteller Python for å søke etter strengen "<..>" som betyr begynnelsen og slutten HTML-koder.

Den kvalifiseringskamp ". *?" forteller Python å matche bare kodene. Uten kvalifiseringen, returnerer Python strengen "<h2> subhead </ h2>"; med kvalifiseringen, returnerer Python "<h2> og </ h2>".

5 Erstatte en plass for all HTML-kode ved hjelp av "sub" funksjon. Fortsetter eksempel inn følgende:

returnere htmlPattern.sub ( '', data)

I dette tilfellet, strimler Python ut HTML-koden og erstatter det med et mellomrom. På dette punktet, avhengig av hvordan du ønsker å strukturere data, kan du bruke strengen "stripen" funksjon for å fjerne mellomrom eller bruke vanlige uttrykk, for eksempel "\ s +," for å fjerne ekstra mellomrom.