Seo

8 häufige Probleme mit Robots.txt und wie man sie behebt

Robots.txt ist ein nützliches und leistungsstarkes Tool, mit dem Sie Suchmaschinen-Crawlern mitteilen können, wie sie Ihre Website crawlen sollen. Die Verwaltung dieser Datei ist eine Schlüsselkomponente guter technischer Suchmaschinenoptimierung.

Es ist nicht allmächtig – in den eigenen Worten von Google: „Es ist kein Mechanismus, um eine Webseite von Google fernzuhalten“ – aber es kann helfen, zu verhindern, dass Ihre Website oder Ihr Server durch Crawler-Anfragen überlastet wird.

Wenn Sie diesen Crawling-Block auf Ihrer Website haben, müssen Sie sicherstellen, dass er ordnungsgemäß verwendet wird.

Dies ist besonders wichtig, wenn Sie dynamische URLs oder andere Methoden verwenden, die theoretisch unendlich viele Seiten generieren.

In diesem Leitfaden befassen wir uns mit einigen der häufigsten Probleme mit der robots.txt-Datei, ihren Auswirkungen auf Ihre Website und Ihre Suchpräsenz und wie Sie diese Probleme beheben können, wenn Sie glauben, dass sie aufgetreten sind.

Aber werfen wir zunächst einen kurzen Blick auf robots.txt und seine Alternativen.

Was ist Robots.txt?

Robots.txt verwendet ein Nur-Text-Dateiformat und wird im Stammverzeichnis Ihrer Website abgelegt.

Es muss sich im obersten Verzeichnis Ihrer Site befinden. Suchmaschinen ignorieren es einfach, wenn Sie es in einem Unterverzeichnis ablegen.

Trotz seiner großen Leistungsfähigkeit ist robots.txt oft ein relativ einfaches Dokument und eine einfache robots.txt-Datei kann mit einem Editor wie Notepad in Sekundenschnelle erstellt werden. Sie können damit Spaß haben und zusätzliche Nachrichten hinzufügen, damit Benutzer sie finden können.

” alt=”8 häufige Probleme mit Robots.txt und wie man sie behebt” width=”311″ height=”279″ srcset=”” src=”https://behmaster.ir/wp-content/uploads/2024/03/localimages/robots.txt-files-can-be-fun-65cbd3741bba1-sej.png”>Bild vom Autor, Februar 2024

Es gibt andere Möglichkeiten, einige der gleichen Ziele zu erreichen, für die robots.txt normalerweise verwendet wird.

Einzelne Seiten können im Seitencode selbst ein Robots-Meta-Tag enthalten.

Sie können den HTTP-Header X-Robots-Tag auch verwenden, um zu beeinflussen, wie (und ob) Inhalte in Suchergebnissen angezeigt werden.

Was kann Robots.txt?

Robots.txt kann bei unterschiedlichen Inhaltstypen vielfältige Ergebnisse erzielen:

Das Crawlen von Webseiten kann blockiert werden.

Sie werden möglicherweise weiterhin in den Suchergebnissen angezeigt, verfügen jedoch nicht über eine Textbeschreibung. Nicht-HTML-Inhalte auf der Seite werden ebenfalls nicht gecrawlt.

Mediendateien können für die Anzeige in den Google-Suchergebnissen blockiert werden.

Dazu gehören Bilder, Video- und Audiodateien.

Wenn die Datei öffentlich ist, „existiert“ sie weiterhin online und kann angezeigt und verlinkt werden, dieser private Inhalt wird jedoch nicht in der Google-Suche angezeigt.

Ressourcendateien wie unwichtige externe Skripte können blockiert werden.

Wenn Google jedoch eine Seite crawlt, für deren Laden diese Ressource erforderlich ist, „sieht“ der Googlebot-Roboter eine Version der Seite, als ob diese Ressource nicht vorhanden wäre, was sich auf die Indexierung auswirken kann.

Sie können robots.txt nicht verwenden, um die Anzeige einer Webseite in den Google-Suchergebnissen vollständig zu blockieren.

Um dies zu erreichen, müssen Sie eine alternative Methode verwenden, beispielsweise das Hinzufügen eines Noindex-Meta-Tags zum Kopf der Seite.

Wie gefährlich sind Robots.txt-Fehler?

Ein Fehler in robots.txt kann unbeabsichtigte Folgen haben, ist aber oft nicht das Ende der Welt.

Die gute Nachricht ist, dass Sie durch die Reparatur Ihrer robots.txt-Datei etwaige Fehler schnell und (normalerweise) vollständig beheben können.

Googles Leitfaden für Webentwickler besagt Folgendes zum Thema robots.txt-Fehler:

„Webcrawler sind im Allgemeinen sehr flexibel und lassen sich normalerweise nicht durch kleinere Fehler in der robots.txt-Datei beeinflussen. Generell gilt, dass das Schlimmste, was passieren kann, so falsch ist [or] Nicht unterstützte Anweisungen werden ignoriert.

Bedenken Sie jedoch, dass Google bei der Interpretation einer robots.txt-Datei keine Gedanken lesen kann; Wir müssen die robots.txt-Datei interpretieren, die wir abgerufen haben. Wenn Sie jedoch Probleme in Ihrer robots.txt-Datei bemerken, können diese in der Regel leicht behoben werden.“

8 häufige Robots.txt-Fehler

  1. Robots.txt nicht im Stammverzeichnis.
  2. Schlechte Verwendung von Platzhaltern.
  3. Noindex in Robots.txt.
  4. Blockierte Skripte und Stylesheets.
  5. Keine Sitemap-URL.
  6. Zugriff auf Entwicklungsseiten.
  7. Verwendung absoluter URLs.
  8. Veraltete und nicht unterstützte Elemente.

Wenn sich Ihre Website in den Suchergebnissen seltsam verhält, ist Ihre robots.txt-Datei ein guter Ort, um nach Fehlern, Syntaxfehlern und überzogenen Regeln zu suchen.

Schauen wir uns jeden der oben genannten Fehler genauer an und sehen, wie Sie sicherstellen können, dass Sie über eine gültige robots.txt-Datei verfügen.

1. Robots.txt nicht im Stammverzeichnis

Suchroboter können die Datei nur finden, wenn sie sich in Ihrem Stammordner befindet.

Aus diesem Grund sollte in der URL Ihrer robots.txt-Datei nur ein Schrägstrich zwischen der .com-Domain (oder einer entsprechenden Domain) Ihrer Website und dem Dateinamen „robots.txt“ stehen.

Wenn dort ein Unterordner vorhanden ist, ist Ihre robots.txt-Datei wahrscheinlich für die Suchroboter nicht sichtbar und Ihre Website verhält sich wahrscheinlich so, als gäbe es überhaupt keine robots.txt-Datei.

Um dieses Problem zu beheben, verschieben Sie Ihre robots.txt-Datei in Ihr Stammverzeichnis.

Beachten Sie, dass Sie hierfür Root-Zugriff auf Ihren Server benötigen.

Einige Content-Management-Systeme laden Dateien standardmäßig in ein „Medien“-Unterverzeichnis (oder etwas Ähnliches) hoch. Daher müssen Sie dies möglicherweise umgehen, um Ihre robots.txt-Datei an den richtigen Ort zu bringen.

2. Schlechte Verwendung von Platzhaltern

Robots.txt unterstützt zwei Platzhalterzeichen:

  • Sternchen
  • – stellt alle Instanzen eines gültigen Zeichens dar, wie z. B. einen Joker in einem Kartenspiel. Dollarzeichen ($)

– bezeichnet das Ende einer URL, sodass Sie Regeln nur auf den letzten Teil der URL anwenden können, beispielsweise auf die Dateityperweiterung.

Es ist sinnvoll, bei der Verwendung von Platzhaltern einen minimalistischen Ansatz zu wählen, da diese das Potenzial haben, Einschränkungen auf einen viel größeren Teil Ihrer Website anzuwenden.

Es ist auch relativ einfach, mit einem schlecht platzierten Sternchen den Roboterzugriff auf Ihre gesamte Website zu blockieren.

Testen Sie Ihre Platzhalterregeln mit einem robots.txt-Testtool, um sicherzustellen, dass sie sich wie erwartet verhalten. Seien Sie bei der Verwendung von Platzhaltern vorsichtig, um zu verhindern, dass versehentlich zu viel blockiert oder zugelassen wird.

3. Noindex in Robots.txt

Dieses Problem tritt häufiger auf Websites auf, die älter als ein paar Jahre sind.

Google befolgt seit dem 1. September 2019 die Noindex-Regeln in robots.txt-Dateien nicht mehr.

Wenn Ihre robots.txt-Datei vor diesem Datum erstellt wurde oder Noindex-Anweisungen enthält, werden diese Seiten wahrscheinlich in den Google-Suchergebnissen indexiert angezeigt.

Die Lösung für dieses Problem besteht darin, eine alternative „noindex“-Methode zu implementieren.

Eine Option ist das Robots-Meta-Tag, das Sie in den Kopf jeder Webseite einfügen können, die Sie von der Indexierung durch Google abhalten möchten.

4. Blockierte Skripte und Stylesheets

Es mag logisch erscheinen, den Crawler-Zugriff auf externe JavaScripts und Cascading Stylesheets (CSS) zu blockieren.

Bedenken Sie jedoch, dass der Googlebot Zugriff auf CSS- und JS-Dateien benötigt, um Ihre HTML- und PHP-Seiten korrekt zu „sehen“.

Wenn sich Ihre Seiten in den Google-Ergebnissen seltsam verhalten oder es den Anschein hat, dass Google sie nicht richtig erkennt, prüfen Sie, ob Sie den Crawler-Zugriff auf erforderliche externe Dateien blockieren.

Eine einfache Lösung hierfür besteht darin, die Zeile aus Ihrer robots.txt-Datei zu entfernen, die den Zugriff blockiert.

Oder, wenn Sie einige Dateien blockieren müssen, fügen Sie eine Ausnahme ein, die den Zugriff auf das erforderliche CSS und JavaScript wiederherstellt.

5. Keine XML-Sitemap-URL

Hier geht es mehr um SEO als um alles andere.

Sie können die URL Ihrer XML-Sitemap in Ihre robots.txt-Datei einfügen.

Da dies der erste Ort ist, an dem der Googlebot beim Crawlen Ihrer Website sucht, verschafft dies dem Crawler einen Vorsprung bei der Kenntnis der Struktur und der Hauptseiten Ihrer Website.

Auch wenn dies nicht unbedingt ein Fehler ist – da sich das Weglassen einer Sitemap nicht negativ auf die tatsächliche Kernfunktionalität und das Erscheinungsbild Ihrer Website in den Suchergebnissen auswirken sollte – lohnt es sich dennoch, Ihre Sitemap-URL zu robots.txt hinzuzufügen, wenn Sie Ihren SEO-Bemühungen mehr Gewicht verleihen möchten Schub.

6. Zugriff auf Entwicklungsseiten

Das Blockieren von Crawlern auf Ihrer Live-Website ist ein Tabu, aber das Gleiche gilt auch dafür, ihnen das Crawlen und Indexieren Ihrer Seiten zu erlauben, die sich noch in der Entwicklung befinden.

Es empfiehlt sich, der robots.txt-Datei einer im Aufbau befindlichen Website eine Disallow-Anweisung hinzuzufügen, damit die Öffentlichkeit sie erst sieht, wenn sie fertig ist.

Ebenso ist es wichtig, die Nichtzulassungsanweisung zu entfernen, wenn Sie eine fertige Website starten.

Das Vergessen, diese Zeile aus robots.txt zu entfernen, ist einer der häufigsten Fehler unter Webentwicklern; Es kann verhindern, dass Ihre gesamte Website korrekt gecrawlt und indiziert wird.

User-Agent: *


Disallow: /

Wenn Ihre Entwicklungsseite scheinbar realen Traffic erhält oder Ihre kürzlich gestartete Website bei der Suche überhaupt nicht gut abschneidet, suchen Sie in Ihrer robots.txt-Datei nach einer universellen Regel zum Verbieten von Benutzeragenten:

Wenn Sie dies sehen, obwohl Sie es nicht sehen sollten (oder nicht sehen, wenn Sie es sehen sollten), nehmen Sie die erforderlichen Änderungen an Ihrer robots.txt-Datei vor und prüfen Sie, ob die Suchdarstellung Ihrer Website entsprechend aktualisiert wird.

7. Verwendung absoluter URLs

Während die Verwendung absoluter URLs in Dingen wie Canonicals und Hreflang eine bewährte Vorgehensweise ist, gilt für URLs in der robots.txt das Gegenteil.

Die Verwendung relativer Pfade in der robots.txt-Datei ist der empfohlene Ansatz, um anzugeben, auf welche Teile einer Website Crawler nicht zugreifen sollen.

Dies wird in der robots.txt-Dokumentation von Google detailliert beschrieben, in der es heißt:

Ein Verzeichnis oder eine Seite relativ zur Stammdomäne, die vom gerade erwähnten Benutzeragenten gecrawlt werden kann.

Wenn Sie eine absolute URL verwenden, gibt es keine Garantie dafür, dass Crawler diese wie beabsichtigt interpretieren und dass die Verbots-/Zulassungsregel befolgt wird.

8. Veraltete und nicht unterstützte Elemente

  • Während sich die Richtlinien für robots.txt-Dateien im Laufe der Jahre nicht wesentlich geändert haben, sind zwei Elemente häufig enthalten:
  • Crawl-Verzögerung.

Kein Index.

Während Bing die Crawl-Verzögerung unterstützt, unterstützt Google dies nicht, wird jedoch häufig von Webmastern angegeben. Früher konnte man Crawling-Einstellungen in der Google Search Console festlegen, diese wurden jedoch gegen Ende 2023 entfernt.

Google kündigte an, die Unterstützung der noindex-Direktive in robots.txt-Dateien im Juli 2019 einzustellen. Vor diesem Datum konnten Webmaster die noindex-Direktive in ihrer robots.txt-Datei verwenden.

Dies war keine allgemein unterstützte oder standardisierte Vorgehensweise, und die bevorzugte Methode für noindex war die Verwendung von On-Page-Robots oder X-Robots-Maßnahmen auf Seitenebene.

So beheben Sie einen Robots.txt-Fehler

Wenn ein Fehler in robots.txt unerwünschte Auswirkungen auf die Suchdarstellung Ihrer Website hat, besteht der erste Schritt darin, robots.txt zu korrigieren und zu überprüfen, ob die neuen Regeln die gewünschte Wirkung haben.

Einige SEO-Crawling-Tools können hilfreich sein, damit Sie nicht warten müssen, bis die Suchmaschinen Ihre Website als nächstes crawlen.

Wenn Sie sicher sind, dass sich robots.txt wie gewünscht verhält, können Sie versuchen, Ihre Website so schnell wie möglich erneut zu crawlen.

Plattformen wie die Google Search Console und die Bing Webmaster Tools können dabei helfen.

Reichen Sie eine aktualisierte Sitemap ein und fordern Sie ein erneutes Crawlen aller Seiten an, die fälschlicherweise aus der Liste entfernt wurden.

Leider sind Sie dem Willen des Googlebots ausgeliefert – es gibt keine Garantie dafür, wie lange es dauern kann, bis fehlende Seiten wieder im Google-Suchindex angezeigt werden.

Alles, was Sie tun können, ist, die richtigen Maßnahmen zu ergreifen, um diese Zeit so weit wie möglich zu minimieren, und so lange zu prüfen, bis der Googlebot die korrigierte robots.txt implementiert.

Abschließende Gedanken

Bei robots.txt-Fehlern ist Vorbeugen immer besser als Heilen.

Auf einer großen umsatzgenerierenden Website kann ein verirrter Platzhalter, der Ihre gesamte Website von Google entfernt, unmittelbare Auswirkungen auf die Einnahmen haben.

Änderungen an der robots.txt-Datei sollten sorgfältig von erfahrenen Entwicklern vorgenommen, doppelt überprüft und gegebenenfalls eine zweite Meinung eingeholt werden.

Wenn möglich, testen Sie es in einem Sandbox-Editor, bevor Sie es auf Ihrem realen Server live schalten, um zu vermeiden, dass versehentlich Verfügbarkeitsprobleme entstehen.

Denken Sie daran: Wenn das Schlimmste passiert, ist es wichtig, nicht in Panik zu geraten.

Diagnostizieren Sie das Problem, führen Sie die notwendigen Reparaturen an robots.txt durch und reichen Sie Ihre Sitemap erneut für einen neuen Crawl ein.Ihr Platz in der Suche ist gelaufen Die Könige werden hoffentlich innerhalb weniger Tage wiederhergestellt.

Mehr Ressourcen:

  • Hat Google ein Problem mit großen Robots.txt-Dateien?
  • 7 Warnungen und Fehler des SEO-Crawling-Tools, die Sie getrost ignorieren können
  • Das ultimative technische SEO-Audit-Arbeitsbuch

Ausgewähltes Bild: M-SUR/Shutterstock

Leave a Reply