Wie man ein Web Bot

March 26

Suchmaschinen wie Google oder Yahoo!, ziehen Sie Webseiten in ihren Suchergebnissen mithilfe von Web Bots (manchmal auch Spider oder Crawler genannt), die Programme, die das Internet und Index-Websites in einer Datenbank zu scannen. Web-Bots können mit den meisten Programmiersprachen wie C, Perl, Python und PHP, die erlauben Software-Ingenieure von Skripten, die verfahrenstechnische Aufgaben wie Web Scannen und indizieren vorgenommen werden.

Anweisungen

1 Nur-Text-Bearbeitung Anwendung, z. B. Editor, die ist im Lieferumfang von Microsoft Windows oder Mac OS x TextEdit, wo Sie eine Python Bot Webanwendung erstellen werden geöffnet.

2 Initiieren Sie das Python-Skript, einschließlich der folgenden Codezeilen, und ersetzen die Beispiel-URL mit der URL der Website, die Sie scannen möchten und den Namen der Beispieldatenbank mit der Datenbank, die die Ergebnisse gespeichert werden:

Import urllib2 Rück, ZeichenfolgeEnter_point = 'http://www.exampleurl.com'Db_name = 'example.sql'

3 Umfassen Sie die folgenden Codezeilen, die Reihenfolge der Operationen definieren, die Folgen der Web-Bot:

DEF uniq(seq):Set = {}Karte (Satz. SetItem, Seq, [])zurück set.keys()

4 Beziehen Sie die URLs in der Website-Struktur mithilfe von die folgenden Codezeilen:

DEF geturls(url):Elemente =]Anfrage = urllib2. Request(URL)Request.Add.Header ('User', ' Bot_name ;)')Inhalt = urllib2.urlopen(request).read()Elemente = re.findall ("Href =" Http://.? & Quot;', Content)URLs =]Zurückgeben von urls

5 Definieren Sie die Datenbank, die der Web-Bot verwenden und geben Sie werden welche Informationen es speichern sollten, um so die Web-Bot:

DB = offen (Db_name, 'a')Allurls = uniq(geturls(enter_point))

6 Speichern Sie das Textdokument und laden Sie sie auf einem Server oder Computer mit Internet-Anschluss können Sie das Skript ausführen und Scannen Webseiten beginnen.