Seo

WordPress Robots.txt: Was sollten Sie einschließen?

Die Humble Robots.txt -Datei sitzt häufig ruhig im Hintergrund einer WordPress -Site, aber die Standardeinstellung ist etwas grundlegend außerhalb der Box und trägt natürlich nicht zu maßgeschneiderten Richtlinien bei, die Sie möglicherweise übernehmen möchten.

Kein Intro mehr benötigt – lassen Sie uns direkt in das eintauchen, was Sie sonst noch einschließen können, um es zu verbessern.

(Ein kleiner Hinweis zum Hinzufügen: Dieser Beitrag ist nur für WordPress -Installationen im Stammverzeichnis einer Domäne oder einer Subdomain nützlich, z. B. Domain.com oder Beispiel.Domain.com.)

Wo genau ist die Datei wordPress robots.txt?

Standardmäßig generiert WordPress eine virtuelle Robots.txt -Datei. Sie können es sehen, indem Sie /Robots.txt Ihrer Installation besuchen, z. B.:

https://yoursite.com/robots.txt

Diese Standarddatei existiert nur im Speicher und wird nicht durch eine Datei auf Ihrem Server dargestellt.

Wenn Sie eine benutzerdefinierte Robots.txt -Datei verwenden möchten, müssen Sie lediglich einen in den Root -Ordner der Installation hochladen.

Sie können dies entweder mit einer FTP -Anwendung oder einem Plugin wie Yoast SEO (Yoast SEO (SEO → Tools → Datei -Editor), Dies enthält einen Robots.txt -Editor, auf den Sie im Bereich WordPress Admin zugreifen können.

Der Standard -WordPress Robots.txt (und warum es nicht genug ist)

Wenn Sie nicht manuell eine Robots.txt -Datei erstellen, sieht WordPress ‘Standardausgabe so aus:

User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.php

Dies ist zwar sicher, aber nicht optimal. Lass uns weiter gehen.

Fügen Sie immer Ihre XML -Sitemaps (s) hinzu

Stellen Sie sicher, dass alle XML -Sitemaps explizit aufgeführt sind, da dies bei der Suche nach Suchmaschinen alle relevanten URLs entdeckt.

Sitemap: https://example.com/sitemap_index.xmlSitemap: https://example.com/sitemap2.xml

Manche Dinge nicht zu blockieren

Es gibt jetzt datierte Vorschläge, um einige Kernverzeichnisse wie/wp-includes/,/wp-content/plugins/oder sogar/wp-content/uploads/zu verbieten. Nicht!

Hier ist der Grund, warum Sie sie nicht blockieren sollten:

  1. Google ist klug genug, um irrelevante Dateien zu ignorieren. Das Blockieren von CSS und JavaScript kann die Darstellbarkeit beeinträchtigen und Indexierungsprobleme verursachen.
  2. Sie können wertvolle Bilder/Videos/andere Medien unbeabsichtigt blockieren, insbesondere diejenigen, die von/wp-content/uploads/hochgeladen wurden, das alle hochgeladenen Medien enthält, die Sie auf jeden Fall krabbeln möchten.

Lassen Sie sich stattdessen Crawler die CSS, JavaScript und Bilder abrufen, die sie für eine ordnungsgemäße Renderung benötigen.

Verwaltungsseiten verwalten

Es ist ratsam, sicherzustellen, dass Staging -Sites nicht sowohl für SEO- als auch für allgemeine Sicherheitszwecke gekrabbt werden.

Ich empfehle immer, die gesamte Website zu verbieten.

Sie sollten immer noch das NoIndex -Meta -Tag verwenden, aber um sicherzustellen, dass eine andere Ebene abgedeckt ist, ist es immer noch ratsam, beides zu tun.

Wenn Sie navigieren zu Einstellungen> LesenSie können die Option „Suchmaschinen abhalten, diese Site zu indizieren“, die in der Datei robots.txt Folgendes ausreicht (oder Sie können diese in sich selbst hinzufügen).

User-agent: *Disallow: /

Google kann immer noch Seiten indexieren, wenn es Links an anderer Stelle entdeckt (normalerweise verursacht durch Aufrufe zur Inszenierung von Produktion, wenn die Migration nicht perfekt ist).

WICHTIG: Wenn Sie zur Produktion wechseln, stellen Sie sicher, dass Sie diese Einstellung erneut überprüfen, um sicherzustellen, dass Sie jegliche Ablehnung oder NoIndexing zurückversetzen.

Reinigen Sie einige nicht esszielle Kernwordpresswege

Nicht alles sollte blockiert werden, aber viele Standardpfade fügen keinen SEO -Wert hinzu, wie z. B. die folgenden:

Disallow: /trackback/Disallow: /comments/feed/Disallow: */feed/Disallow: */embed/Disallow: /cgi-bin/Disallow: /wp-login.phpDisallow: /wp-json/

Bestimmte Abfrageparameter nicht zulassen

Manchmal möchten Sie Suchmaschinen daran hindern, URLs mit bekannten Abfrageparametern mit niedrigem Wert zu kriechen, z. B. Verfolgungsparameter, Kommentarantworten oder Druckversionen.

Hier ist ein Beispiel:

User-agent: *Disallow: /*?replytocom=Disallow: /*?print=

Sie können das URL-Parameter-Tool von Google Search Console verwenden, um die parameterorientierten Indexierungsmuster zu überwachen und zu entscheiden, ob zusätzliche Ablehnung zusätzlich hinzugefügt werden.

Taxonomien und SERPs nicht zu umgeben

Wenn Ihre WordPress -Site Tag -Archive oder interne Suchergebnisse enthält, die keinen Mehrwert bieten, können Sie sie auch blockieren:

User-agent: *Disallow: /tag/Disallow: /page/Disallow: /?s=

Wiegen Sie dies wie immer gegen Ihre spezifische Inhaltsstrategie.

Wenn Sie Tag -Taxonomie -Seiten als Teil des Inhalts verwenden, den Sie indexiert und krabbeln möchten, dann ignorieren Sie dies, aber im Allgemeinen fügen sie keine Vorteile hinzu.

Stellen Sie außerdem sicher, dass Ihre interne Verknüpfungsstruktur Ihre Entscheidung unterstützt und die interne Verknüpfung mit Bereichen minimiert, in denen Sie nicht die Absicht haben, zu indizieren oder zu kriechen.

Überwachen Sie Crawl -Statistiken

Sobald Ihr Robots.txt vorhanden ist, überwachen Sie Crawl -Statistiken über Google Search Console:

  • Schauen Sie sich Crawl -Statistiken unter Einstellungen an, um festzustellen, ob Bots Ressourcen verschwenden.
  • Verwenden Sie das URL -Inspektionstool, um zu bestätigen, ob eine blockierte URL indiziert ist oder nicht.
  • Überprüfen Sie die Sitemaps und stellen Sie sicher, dass sie nur auf die Sitemaps verweisen, die Sie tatsächlich krabbeln und indiziert haben möchten.

Darüber hinaus können einige Serververwaltungs -Tools wie Plesk, CPanel und CloudFlare über Google hinaus extrem detaillierte Crawl -Statistiken liefern.

Zuletzt verwenden Sie die Konfiguration von Screcing Frog, um Änderungen zu simulieren und die Crawl -Optimierungsfunktionen von Yoast SEO erneut zu besuchen, von denen einige die oben genannten lösen.

Letzte Gedanken

Während WordPress ein großartiges CMS ist, wird es nicht mit den idealsten Standard -Robots.txt oder mit der Crawl -Optimierung eingerichtet.

Nur ein paar Codezeilen und weniger als 30 Minuten Ihrer Zeit können Ihnen Tausende unnötiger Crawl -Anfragen für Ihre Website ersparen, die es nicht wert sind, identifiziert zu werden, und in Zukunft ein potenzielles Skalierungsproblem zu sichern.

Weitere Ressourcen:

  • Der moderne Leitfaden zu Robots.txt: Wie man sie benutzt, vermeidet die Fallstricke
  • 8 GROSSE ROBOTS.TXT -Probleme und wie man sie behebt
  • Das vollständige Arbeitsbuch für technische SEO -Audit

Ausgewähltes Bild: SKLYAREEK/SHLATTERSTOCK

Leave a Reply