Gewusst wie: Erstellen eine Web-Spider

January 10

Eine Web-Spider ist eine EDV-Anwendung, die eine Webseite herunterlädt und dann folgt alle Links auf dieser Seite und lädt sie auch. Web-Spider dienen zum Speichern von Websites zum offline-lesen oder zur Speicherung von Webseiten in Datenbanken von einer Suchmaschine verwendet werden. Erstellen einer Web-Spider ist eine anspruchsvolle Aufgabe, für eine College-Ebene Programmierung Klasse geeignet. Diese Anweisungen setzen voraus, dass Sie solide Programmiererfahrung aber keine Kenntnis von Spinne Architektur haben. Die Schritte legen eine sehr spezifische Architektur für ein Web-Spider in der gewählten Sprache zu schreiben.

Anweisungen

1 Initialisieren Sie Ihr Programm mit der ersten Webseite, die Sie herunterladen möchten. Fügen Sie die URL für diese Seite zu einer neuen Datenbanktabelle von URLs.

2 Senden eines Befehls an den Webbrowser anweist, um diese Webseite zu holen und auf einen Datenträger zu speichern. Verschieben der Datenbank-Zeiger vorwärts einen Schritt hinter die URL, die Sie gerade heruntergeladen, die jetzt am Ende der Tabelle wird.

3 Lesen Sie die Web-Seite ins Programm und Links zu weiteren Webseiten analysieren. Dies erfolgt in der Regel durch Suchen nach die Zeichenfolge "http://" und der Erfassung des Textes zwischen diesen String und ein abschließendes Zeichen (wie z. B. "","", oder ">"). Diese Links zu den URL-Datenbank-Tabelle hinzufügen; der Datenbank-Zeiger sollte am Anfang dieser neuen Liste bleiben.

4 Testen Sie die Einträge in der Datenbanktabelle für Einzigartigkeit, und entfernen Sie alle URLs, die mehr als einmal angezeigt werden.

5 Wenn Sie einen URL-Filter anwenden möchten (z.B. um zu verhindern, dass Download-Webseiten von den Aufstellungsorten mit verschiedenen Domänen), jetzt auf der URL-Datenbank-Tabelle anwenden und entfernen Sie alle URLs, die Sie nicht herunterladen möchten.

6 Richten Sie eine programmgesteuerte Schleife, so dass die Spinne in Schritt 2 oben zurückkehrt. Diese wird rekursiv herunterladen alle URLs Ihrer Spinne entdeckt. Entfernen von doppelten URLs wird sichergestellt, dass die Spinne richtig beendet wird, wenn es die letzte eindeutige URL erreicht.

Tipps & Warnungen

  • Wenn Sie ein Unix-Betriebssystem verwenden, prüfen Sie die Unix-Dokumentation (oder "Man-Pages") für Curl und Wget. Diese Befehle sind viele Optionen, eingebaute Spidern, die Programmierung Zeit und Komplexität deutlich reduzieren können.