Wie Konvertieren von HTML-Tags mit Klartext in c#

November 25

Die Webseite, die Sie in Ihrem Browser sehen zeigt Sie alles auf der Seite nicht. Hinter den Kulissen lädt Ihr Browser ständig Inhalt, kryptischen HTML-Code enthält. Dieser Code besteht aus "Tags" z. B. "< p >." Dieser Markierung weist den Browser an einen Absatz auf der Webseite angezeigt. Mit c#, Microsofts Programmiersprache, die mit Visual Studio funktioniert jede Website HTML in Text konvertieren und diese Tags zu entfernen.

Anweisungen

1 Starten Sie Microsoft Visual Studio. Klicken Sie auf "Datei", und klicken Sie auf "Neues Projekt".

2 Klicken Sie "Visual c#", um es zu markieren, und doppelklicken Sie auf "Windows-Forms-Anwendung." Visual Studio ein neues Projekt erstellen und ein leeres Formular im Designer-Fenster angezeigt.

3 Klicken Sie auf "Ansicht", und klicken Sie auf "Toolbox", um die Toolbox zu öffnen. Scrollen Sie das WebBrowser-Steuerelement, und doppelklicken Sie darauf. Dieses Steuerelement wird im Formular angezeigt. Visual Studio nennt ihn "webBrowser1."

4 Presse "F4." Das Fenster "Eigenschaften" wird geöffnet. Suchen Sie das "Blitz"-Symbol am oberen Rand dieses Fensters. Das Symbol ist wie ein Blitzschlag geformt. Klicken Sie auf das Symbol. Das Fenster "Eigenschaften" zeigt eine Liste der Ereignisse, die das Steuerelement "webBrowser1" zugeordnet werden können.

5 Suchen Sie das "DocumentCompleted-Ereignis" Element in der Liste, und doppelklicken Sie darauf. Ein Codefenster wird geöffnet und zeigt den folgenden Code:

private void webBrowser1_DocumentCompleted (Object Sender, WebBrowserDocumentCompletedEventArgs e)

{

}

Dieser Code wird ausgeführt, wenn das Steuerelement "webBrowser1" abgeschlossen ist, Laden einer Web-Seite.

6 Ändern Sie diesen Code, sodass er wie folgt aussieht:

private void webBrowser1_DocumentCompleted (Object Sender, WebBrowserDocumentCompletedEventArgs e)

{

HtmlDocument Doc = webBrowser1.Document;

Zeichenfolge WebsiteText = Doc. Body.InnerText;

MessageBox.Show(websiteText);

}

Nachdem eine Webseite geladen wird, greift dieser Code den Text von der Seite. Es zeigt dann den Text in einem Popup-Meldung angezeigt.

7 Klicken Sie mit der rechten Maustaste im Codefenster, und klicken Sie auf "Ansicht-Designer." Das Formular wird im Designer-Fenster verschwinden.

8 Doppelklicken Sie auf die Titelleiste des Formulars. Ein weiteres Codefenster erscheint und zeigt das Formular "Load"-Methode. Der Code in dieser Methode wird beim Laden des Formulars. Der Code wird angezeigt, wie unten dargestellt:

private void Form1_Load (Object Sender, EventArgse)

{

}

9 Ersetzen Sie diesen Code durch folgenden Code:

private void Form1_Load (Object Sender, EventArgse)

{

Webseite der Zeichenfolge = "http://www.whitehouse.gov";

webBrowser1.Navigate(website);

}

Dieser Code bewirkt, dass das "webBrowser1" Steuerelement navigieren zu der Website-URL gespeichert in der Variablen mit dem Namen "Website." In diesem Beispiel wird die URL "http://www.whitehouse.gov."

10 Drücken Sie "F5", um den Code auszuführen. Das Formular wird geladen und führen Sie den Code "Form1_Load". Dieser Code bewirkt, dass das Steuerelement "webBrowser1" Navigieren zu "whitehouse.gov" Website. Der "DocumentCompleted-Ereignis" Code wird ausgeführt, nach Abschluss der Browser beim Laden dieser Seite. Ein Popup-Meldungsfeld zeigt Ihnen den Text von dieser Seite ohne HTML-Tags.

Tipps & Warnungen

  • In diesem Beispiel navigiert das "webBrowser1"-Steuerelement zu der Whitehouse-Website. Ersetzen Sie diese URL mit alles, was Sie mögen. Z. B. zum Konvertieren von HTML-Tags und zeigen den Text für "http://www.xyz.com", legen Sie den Wert der Variable mit dem Namen "Website" zu dieser URL. Diese Variable ist in der Form_Load-Methode, wie in den folgenden Schritten dargestellt.