Erstellen Sie eine "robots.txt"-Datei für Ihre Webseite

October 5

Die "robots.txt"-Datei enthält Richtlinien für jede Web-Roboter Scannen Ihrer Website. Suchmaschinen wie Google und Bing verwenden Web-Robots im Web automatisch indiziert. In der Standardeinstellung Crawlen Roboter Ihre gesamte Website. Die meisten Websites enthalten jedoch Dateien, die nicht dazu gedacht sind gecrawlt werden, da sie als Teil des Display Teils der Website oder verwaltungstechnischen Gründen entworfen waren nicht. Die Datei "robots.txt" gibt an, welche Verzeichnisse sollten nicht gecrawlt werden. Denken Sie daran, dass Malware Roboter und andere Programme, die für anfällige Systeme scan die Datei, also benutze es als Sicherheitsmaßnahme nicht ignorieren.

Anweisungen

1 Öffnen Sie eine nur-Text-Textverarbeitungs-Programm wie z. B. Editor. Geben Sie die folgende Zeile am Anfang der Datei:

Benutzer-Agent: *

Dies gilt allen Regeln, die alle Roboter zu folgen.

2 Fügen Sie Disallow-Zeile für jedes Verzeichnis gecrawlten nicht gewünschten hinzu:

Abweisen: Administrator

Diese Disallow-Zeile sagt dem Roboter, Sie wollen nicht, dass es in das Verzeichnis, welche folgt, ohne Ihre ganze URL in dieser Zeile einzuschließen. Zum Beispiel um "mysite.com/dontcrawl" zu unterbinden, geben Sie "Disallow: /dontcrawl" in der robots.txt-Datei.

3 Fügen Sie eine zusätzliche Disallow-Zeile für jedes Verzeichnis gecrawlten nicht gewünschten. Setzen Sie nicht mehr als ein Verzeichnis pro Zeile. Sie können auch eine bestimmte Datei oder Seite unterbinden, indem man den genauen Dateinamen.

4 Speichern Sie die Datei als "robots.txt" auf Ihrem Computer. Der Dateiname muss alle Kleinbuchstaben sein. Laden Sie die Datei in das Stammverzeichnis Ihrer Website mit FTP oder Ihre Web-Host-Tools.

Tipps & Warnungen

  • Wenn Ihr Provider nicht Sie ändern oder eigene Datei "robots.txt" haben erlaubt, geben Sie eine Anfrage mit ihnen, eine benutzerdefinierte Datei für Ihre Website auf ihren Servern zu platzieren.
  • Technisch gesehen sind Sie den Suchmaschinen sagen, was sie sehen und indiziert haben, ihnen zu sagen, was Sie nicht sehen.
  • Da Sie keine robots.txt-Datei auf Ihrer Website, übernehmen Suchmaschinen, dass alles in Ordnung zum Index ist.
  • Überprüfen Sie die Datei "robots.txt" auf anderen Seiten zu sehen, was sie blockiert sind (einschließlich Suchmaschinen)
  • Um die Spinnen zu kein komplettes Verzeichnis Index zu informieren, stellen Sie sicher, den Namen des Verzeichnisses mit einem nachgestellten Schrägstrich zu folgen. IE: /directory/. Der nachgestellte Schrägstrich sagt dem Roboter, dass dies ist ein Verzeichnis.
  • Obwohl die meisten Roboter von UNIX-Servern ausgeführt werden, ist es eine gute Idee um sicherzustellen, dass alle Verzeichnisse oder Dateien mit den Namen der Datei "robots.txt" sind genau den gleichen Fall als Dateinamen auf dem Server. (Windows-Servern werden Server Datei Namen der gemischte Groß-und Kleinschreibung), UNIX-Server werden auch gemischte Fallakte Namen dienen, solange sie dafür konfiguriert sind.
  • Es wird empfohlen, alle Kleinbuchstaben schreiben Systeme keine Rolle Dateinamen auf welche Serverplattform Sie verwenden.
  • Automatisch generierte robots.txt-Datei, die etwas anderes als den Text senden könnte eine Suchmaschine nicht indizieren Ihrer Website machen.
  • Wenn die automatisch generierte robots.txt Datei senden und die HTML-Seite auf Anfrage zurück, können Ihre Website von Suchmaschinen nicht indiziert.