Ein Spider Bot-Projekt

February 14

Ein Spider Bot-Projekt

Auch wenn Sie keinen Roboter, der können Kochen Abendessen oder rake Blätter besitzen, erstellen Sie mindestens einen Roboter, Ihre on-line-Befehle mit ein wenig Programmier-Know-how zu gehorchen. Eine Spinne Bot-Projekt ermöglicht Programmierern, erstellen Sie ein Programm namens "Bot", um verschiedene Webseiten Crawlen und Extraktion von Informationen für die spätere Verwendung. Viele namhafte Unternehmen Vertrauen auf Spinne Bots "crawlen" im Web und Abrufen von Daten. Aber Code-Beispiele in c# und net oft erscheinen, können Sie sie leicht an jeder Sprache anpassen.

Umgebung

Um Ihr Projekt zu beginnen, erstellen Sie eine neue Datei in der Wahl, wie Eclipse oder Visual Studio-Entwicklungsumgebung. Können Sie fast jede Sprache zusammen mit einer entsprechenden Klassenbibliothek zugreifen und manipulieren Sie beliebig Daten. Die richtige Entwicklungsumgebung bietet für fast endlose Möglichkeiten der Internet-Programmierung. Beispielsweise könnten Sie das Web-Programmierung Funktionen Ihres Frameworks erstellen verwenden eine Spinne um Sie zu warnen, wenn ein Preis gesunken ist oder wenn eine Webseite neues Material aufgenommen hat.

URI

Die meisten Programmierer erstellen ein URI-Objekt, bevor sie den tatsächlichen Spinne Bot erstellen. Ein URI-Objekt mithilfe der Web-Seite, die Sie mit Ihrem Spinne Bot als Argument crawlen möchten zu instanziieren:

Uri-Uri = neue Uri ("http; / / www.SampleSite.com/");

Das URI-Objekt repräsentiert die Web-Seite der Spinne Bot schließlich crawlt. Hier zeigt das URI-Objekt auf der Website "SampleSite". Sobald Sie eine URI oder Liste von URIs erstellt haben, können Sie den Aufbau der Bot selbst beginnen.

HttpWebRequest

Instanziieren Sie eine HttpWebRequest mit dem URI zum Kern der Bot zu erstellen:

WebRequest-SampleWebRequest = HttpWebRequest.Create(uri);

Die WebRequest liegt das Herzstück der Spinne Bot. Er bittet im Wesentlichen Web-Seiten in der gleichen Weise wie einen Web-Browser wie Internet Explorer oder Firefox. Jedoch anstatt der Inhalt der Seite für die Anzeige geladen, hält die WebRequest einfach die Dateien, die die Web-Seite im Arbeitsspeicher enthalten. Fast alle Web-Framework enthält ein Äquivalent. NET die HttpWebRequest-Objekt.

HttpWebResponse

Setzen Sie Ihr Bot mit WebRequest und dessen GetResponse-Methode zum Anfordern der Web-Seite und legen Sie sie in einem HttpWebResponse-Objekt zu arbeiten:

HttpWebResponse-SampleHttpWebResponse = (HttpWebResponse) http. GetResponseStream();

Der obige Code downloads die www.SampleSite.com-Seite aus dem Internet und speichert sie im lokalen Speicher. In einem HttpWebResponse-Objekt, die Ihnen erlaubt, die Daten zu manipulieren, können dann die Daten transformiert werden.

Stream

Wenn Sie die Webseite lesbar an ein menschliches Wesen wie Sie selbst vornehmen möchten, müssen Sie in ASCII umwandeln und einer String-Variablen vom Typ Daten zuweisen. Die HttpWebResponse mit einem StreamReader lesen, und es in ASCII codiert. Schließen Sie die HttpWebResponse:

StreamReader-SampleStreamReader = neue StreamReader ()SampleHttpWebResponse.GetResponseStream(),System.Text.Encoding.ASCII);String-Ergebnis = sampleStreamReader.ReadToEnd();SampleHttpWebResponse.Close();sampleStreamReader.Close();

Von diesem Schritt kann der Web-Seite Daten in einer Datenbank speichern, auf einen Server hochladen oder es. Die Möglichkeiten sind fast endlos.