Slik konverterer HTML-tagger med vanlig tekst i C #

Nettsiden du ser i nettleseren din ikke viser deg alt på siden. Bak kulissene, nettleseren laster stadig innhold som inneholder kryptiske HTML-kode. Denne koden består av "tags" som "<p>". At tag forteller leseren til å vise et avsnitt på websiden. Ved hjelp av C #, Microsofts utvikling språk som fungerer med Visual Studio, kan du konvertere alle stedets HTML til tekst og fjerne disse kodene.

Bruksanvisning

1 Start Microsoft Visual Studio. Klikk på "File" og deretter "New Project".

2 Klikk på "Visual C #" for å markere det, og dobbeltklikk på "Windows Forms Application". Visual Studio vil opprette et nytt prosjekt og vise en tom form i utformingsvinduet.

3 Klikk på "Vis" og deretter "Toolbox" for å åpne verktøykassen. Rull ned til WebBrowser kontroll, og dobbeltklikk på den. At kontroll vil vises på skjemaet. Visual Studio navnene det "webBrowser1."

4 Trykk "F4". Den "Properties" vinduet åpnes. Finn "Lightning Bolt" -ikonet øverst i dette vinduet. Ikonet er formet som et lyn. Klikk på ikonet. Den "Properties" vinduet vil vise en liste over hendelser som du kan feste til "webBrowser1" kontroll.

5 Finn "DocumentCompleted" element i listen, og dobbeltklikk på den. En kode vindu åpnes og viser følgende kode:

private void webBrowser1_DocumentCompleted (objekt avsenderen, WebBrowserDocumentCompletedEventArgs e)

{

}

Denne koden kjøres når "webBrowser1" kontroll avslutter laste en webside.

6 Endre denne koden slik at den ser slik ut:

private void webBrowser1_DocumentCompleted (objekt avsenderen, WebBrowserDocumentCompletedEventArgs e)

{

HtmlDocument doc = webBrowser1.Document;

string websiteText = doc.Body.InnerText;

MessageBox.Show (websiteText);

}

Etter en webside lastes, griper denne koden teksten fra siden. Det viser deretter teksten i et pop-up meldingsboks.

7 Høyreklikk hvor som helst i koden vinduet, og klikk deretter på "Vis Designer." Skjemaet vil dukke opp igjen i utformingsvinduet.

8 Dobbeltklikk den form tittellinje. En annen kode vindu vil dukke opp og vise skjemaets "Load" metoden. Koden i denne metoden går når skjemaet lastes. Koden vises som vist nedenfor:

private void Form1_Load (objekt avsenderen, EventArgs e)

{

}

9 Bytt ut den koden med følgende kode:

private void Form1_Load (objekt avsenderen, EventArgs e)

{

string hjemmeside = "http://www.whitehouse.gov";

WebBrowser1.Navigate (nettside);

}

Denne koden gjør at "webBrowser1" kontrollen for å navigere til webadresse lagret i variabelen som heter "hjemmeside". I dette eksempelet er at URL "http://www.whitehouse.gov."

10 Trykk "F5" for å kjøre koden. Skjemaet vil laste inn og kjør "Form1_Load" kode. Denne koden gjør at "webBrowser1" kontrollen for å navigere til nettstedet "whitehouse.gov". Den "DocumentCompleted" koden vil kjøre etter at nettleseren er ferdig lasting det området. En pop-up meldingsboks vil vise deg teksten fra dette nettstedet uten HTML-koder.

Hint

  • I dette eksempel navigerer "webBrowser1" kontroll for å Whitehouse området. Bytt ut som URL med noe du liker. For eksempel, for å konvertere HTML-kodene og viser teksten for "http://www.xyz.com," sett verdien av variabelen som heter "hjemmeside" til denne nettadressen. Det variable er i Form_Load metode, som vist i disse trinn.