ODP Dmoz Daten zu Ihrer Website hinzufügen

December 23

Zusätzlich zum sein ein handliches Ort, um neue Websites zu finden, ist das DMOZ Open Directory Projekt (ODP) eine Community-getriebene Seite von offenen Daten. Dies bedeutet, dass die Daten in seiner rohen Form unter ein frei verfügbar sind--wie in Freiheit und NULL Preis--Lizenz-für Sie und fügen Sie zu Ihrer eigenen Website verwenden. Solange Sie einige Programmierkenntnisse Computer haben, können Sie Ihre Website mit relativer Leichtigkeit ODP-Daten hinzufügen.

Anweisungen

1 Wählen Sie eine Kategorie, die Sie auf Ihrer Website anzeigen möchten. DMOZ Open Directory Project ist riesig--es gibt Tausende von Kategorien und Hunderte von Tausenden von Websites zur Auswahl. Eine kleine Auswahl, ist fokussierte Kategorie wichtig.

2 Navigieren Sie zu DMOZs rdf (Resource Description Framework) Index in Ihrem Webbrowser (siehe Ressourcen unten). Diese Seite ist nicht das gleiche wie DMOZ Open Directory Home Page. Es ist eine nicht-grafisch-Intensive Verzeichnisliste aller ihrer öffentlich verfügbaren Daten.

3 Download "categories.txt" durch Rechtsklick auf den Link "categories.txt" und wählen Sie "Link speichern als..." Dies ist eine Liste von jeder Kategorie. Obwohl die meisten sind Text-Dateien (oder Gzip-komprimierte Textdateien), die meisten extrem groß sind und es wird nicht empfohlen, die Sie versuchen, sie in Ihrem Webbrowser zu öffnen.

4 Dieses Angebot mit der Suchfunktion von Ihrem bevorzugten Texteditor oder durchsuchen einfach die Datei durchsuchen. Halten Sie die Datei zur späteren Bezugnahme, wie Sie auch Hiermit können Links auf DMOZ Verzeichnisse erzeugen oder Verzeichnisnamen zu überprüfen.

5 Download "content.example.txt" durch einen Rechtsklick auf "content.example.txt" und wählen Sie "Link speichern als..." Die XML-Datei ist ein Beispiel für das Verzeichnis Inserate-Format und kann von jeder Programmiersprache oder Tool mit XML Parsen Funktionen gelesen werden.

6 Beachten Sie, dass jeder "Thema"-Abschnitt in der Datei eine Liste mit Links zu verwandten Webseiten enthält. Unter jedes "Thema" ist eine Reihe von "ExternalPage"-Abschnitten, die enthalten mehr Daten über die Links im Abschnitt "Thema" aufgeführt. Die Daten umfassen Informationen wie Titel und Beschreibung des Links.

7 Laden Sie die kompletten Daten. Rechtsklick auf "content.rdf.u8.gz", und wählen Sie "Link speichern als..." Diese Datei ist extrem große--es ist so groß wie 1 Gigabyte unkomprimierter. Denn es ist so groß und dauert bis so viele Ressourcen Ihres Computers, achten Sie darauf, dass es vollständig und korrekt gespeichert wird. Sie müssen nicht dekomprimieren Sie die Datei, wie es während des Analyseprozesses unkomprimiert sein wird.

8 Die Daten zu filtern. Sie vermutlich nur wollen, eine kleine Datenmenge zu Ihrer Website hinzufügen, aber um sie filtern, indem Sie benötigen einige Programmier-Kenntnisse (oder Hilfe) und grundlegende UNIX-Tools.

9 Schreiben Sie ein Programm in einen streamorientierten XML-Parser und eine Abfragesprache (wie XPath) erwirbt nur die Daten, die Sie wollen. Beispielsweise wenn Sie alle Filmkritiken über den Film "The 13th Warrior" aus den Daten zu erhalten wollten, Sie nehmen alle Thema-Tags, deren R: Id-Feld ist "Top/Arts/Movies/Titles/1/13th_Warrior,_The" sowie alle ExternalLinks Tags, deren Thema-Feld das gleiche ist.

10 Schreiben Sie Ihr Programm den XML-Stream auf Stdin zu ergreifen, um die komprimierten Daten-Datei verwenden. Verwenden Sie einen Befehl ähnlich dem folgenden:

gunzip content.rdf.u8.gz | ./my_filter_program11 Integrieren Sie die Daten in Ihre Website. Wenn Ihre Site Skript ist, kann dies einen automatisierten Prozess sein. Nun, da Sie eine Liste mit Links in eine kleine XML-Datei haben, können Sie entweder diese Datei zur Laufzeit erstellen Sie eine Liste von Links oder kopieren und fügen die Liste der Links in Ihrer Website analysieren.

12 Automatisieren Sie den Prozess. DMOZ Open Directory Project ist ein laufendes Projekt. Links sterben und holen Sie sich entfernt und neue Links hinzugefügt bekommen. Wenn der Datenbank ändern, es am besten ist, den gesamten Prozess automatisiert in einer Skriptdatei also um die Liste der Links zu aktualisieren, müssen Sie nur die Skriptdatei erneut ausführen.

Tipps & Warnungen

  • Wegen der Dateigröße ist ein XML-Parser streamorientierten (oder "SAX" Parser) erforderlich. Ein DOM-XML-Parser kann nicht in diesem Fall verwendet werden, da es viele Gigabytes RAM müssten und ein Stream-Parser kann das gleiche tun.