Hvordan å analysere en HTML-fil med Ruby

Ruby er en web skriptspråk som ligner på filosofien til PHP eller Python. Ruby ble utviklet for å skape lett å distribuere skript med lesbar kode, lett å implementere og feilsøke. Ruby inneholder også en enkel bibliotek installatør som heter "perle" som lar deg installere moduler for å utføre forskjellige oppgaver. For eksempel ved å installere "Nokogiri" modul gjennom perle, kan du enkelt analysere gjennom HTML-filer med noen få enkle funksjonskall.

Bruksanvisning

1 Last ned Nokogiri, en HTML-parser for Ruby, ved hjelp av perle installatør. Utstede følgende kommando i et kommandovindu:

sudo gem installere Nokogiri

2 I Ruby-kode, krever Nokogiri modul med "kreve" søkeord:

1 / usr / bin / ruby

krever 'Nokogiri'

3 Analyser et eksempel HTML-dokument med en Nokogiri objekt: Objektet vil inneholde alt innhold og HTML i objektet:

krever 'Nokogiri'
doc = Nokogiri :: HTML (<< - eohtml)
<Html>
<Body>
<H1> Hei, verden </ h1>
</ Div>
</ Body>
</ Html>
eohtml