Seo

Fragen Sie einen SEO: So verhindern Sie, dass Filterergebnisse Ihr Crawling-Budget verschlingen

Die heutige Ask An SEO-Frage kommt von Michal aus Bratislava, der fragt:

„Ich habe einen Kunden, der eine Website mit Filtern hat, die auf Kartenstandorten basieren. Wenn sich der Besucher auf der Karte bewegt, wird eine neue URL mit Filtern erstellt. Sie sind nicht in der Sitemap enthalten. Es gibt jedoch über 700.000 URLs in der Search Console (nicht indiziert) und verschlingt das Crawling-Budget.

Was wäre der beste Weg, diese URLs loszuwerden? Meine Idee ist, den Basisstandort „Index, Follow“ beizubehalten und neu erstellte URLs des umgebenden Bereichs mit Filtern auf „Noindex, No Follow“ umzustellen. Markieren Sie außerdem umgebene Gebiete mit Canonicals zum Basisstandort und disavowen Sie die unerwünschten Links.“

Tolle Frage, Michal, und gute Neuigkeiten! Die Antwort ist einfach umzusetzen.

Schauen wir uns zunächst an, was Sie versuchen, und wenden Sie es auf andere Situationen wie E-Commerce und Verlage an. Auf diese Weise können mehr Menschen davon profitieren. Gehen Sie dann oben auf Ihre Strategien ein und schließen Sie mit der Lösung ab.

Was ist ein Crawl-Budget und wie werden Parameter erstellt, die es verschwenden?

Wenn Sie nicht sicher sind, was Michal meint Crawl-BudgetDies ist ein Begriff, den einige SEO-Profis verwenden, um zu erklären, dass Google und andere Suchmaschinen nur eine begrenzte Anzahl von Seiten Ihrer Website crawlen, bevor das Crawlen stoppt.

Wenn Ihr Crawling-Budget für geringwertige, dünne oder nicht indexierbare Seiten verwendet wird, werden Ihre guten und neuen Seiten möglicherweise nicht beim Crawlen gefunden.

Wenn sie nicht gefunden werden, werden sie möglicherweise nicht indiziert oder aktualisiert. Wenn sie nicht indiziert sind, können sie Ihnen keinen SEO-Traffic bringen.

Aus diesem Grund ist es wichtig, das Crawling-Budget im Hinblick auf Effizienz zu optimieren.

Michal hat ein Beispiel dafür gegeben “dünn” Aus SEO-Sicht werden URLs erstellt, indem Kunden Filter verwenden.

Das Erlebnis für den Nutzer ist zwar wertsteigernd, aber aus SEO-Sicht wäre eine standortbasierte Seite besser. Dies gilt auch für E-Commerce und Verlage.

In E-Commerce-Shops wird nach Farben wie Rot oder Grün und Produkten wie T-Shirts und Kartoffelchips gesucht.

Diese erstellen URLs mit Parametern wie bei einer Filtersuche nach Standorten. Sie könnten auch durch die Verwendung von Filtern nach Größe, Geschlecht, Farbe, Preis, Variation, Kompatibilität usw. im Einkaufsprozess erstellt werden.

Die gefilterten Ergebnisse helfen dem Endbenutzer, konkurrieren jedoch direkt mit der Sammlungsseite, und die Sammlung wäre die „nicht dünn“ Version.

Verlage haben das Gleiche. Jemand könnte auf SEJ sein und im Suchfeld nach SEO oder PPC suchen und ein gefiltertes Ergebnis erhalten. Das gefilterte Ergebnis enthält Artikel, aber die Kategorie der Veröffentlichung ist wahrscheinlich das beste Ergebnis für eine Suchmaschine.

Diese gefilterten Ergebnisse können indiziert werden, weil sie in sozialen Medien geteilt werden oder jemand sie als Kommentar in einem Blog oder Forum hinzufügt und so einen crawlbaren Backlink erstellt. Es kann auch sein, dass ein Mitarbeiter im Kundenservice auf eine Frage im Unternehmensblog oder auf andere Weise geantwortet hat.

Das Ziel besteht nun darin, sicherzustellen, dass Suchmaschinen keine Zeit mit dem Crawlen verschwenden “dünn” Versionen, damit Sie Ihr Crawling-Budget optimal nutzen können.

Der Unterschied zwischen Indizierung und Crawling

Bevor wir auf die vorgeschlagenen Ideen und Lösungen eingehen, müssen wir noch etwas lernen: den Unterschied zwischen Indexierung und Crawling.

  • Unter Crawling versteht man das Entdecken neuer Seiten innerhalb einer Website.
  • Bei der Indexierung werden der Seitendatenbank diejenigen Seiten hinzugefügt, die es wert sind, einer Person angezeigt zu werden, die die Suchmaschine verwendet.

Seiten können gecrawlt, aber nicht indiziert werden. Indizierte Seiten wurden wahrscheinlich gecrawlt und werden wahrscheinlich erneut gecrawlt, um nach Aktualisierungen und Serverantworten zu suchen.

Aber nicht alle indizierten Seiten generieren Traffic oder landen auf der ersten Seite, da sie möglicherweise nicht die bestmögliche Antwort auf gesuchte Suchanfragen darstellen.

Kommen wir nun zur effizienten Nutzung von Crawling-Budgets für diese Art von Lösungen.

Verwendung von Meta-Robotern oder X-Robotern

Die erste Lösung, auf die Michal hinwies, war eine „indexieren, folgen“ Richtlinie. Dadurch wird eine Suchmaschine angewiesen, die Seite zu indizieren und den darin enthaltenen Links zu folgen. Das ist eine gute Idee, aber nur, wenn das gefilterte Ergebnis das ideale Erlebnis ist.

Soweit ich weiß, wäre dies nicht der Fall, daher würde ich empfehlen, es zu machen „noindex,follow.“

Noindex würde sagen: „Dies ist keine offizielle Seite, aber hey, crawlen Sie weiter meine Website, Sie werden hier gute Seiten finden.“

Und wenn Sie Ihr Hauptmenü und die internen Navigationslinks korrekt eingerichtet haben, wird der Spider sie hoffentlich weiter crawlen.

Canonicals zur Lösung verschwendeten Crawl-Budgets

Kanonische Links werden verwendet, um Suchmaschinen dabei zu helfen, die offizielle Seite zu erkennen, die indexiert werden soll.

Wenn ein Produkt in drei Kategorien auf drei verschiedenen URLs vorhanden ist, sollte es nur eine geben „der Beamte“ Version, daher sollten die beiden Duplikate einen kanonischen Verweis auf die offizielle Version haben. Der offizielle Link sollte einen kanonischen Link haben, der auf sich selbst verweist. Dies gilt für die gefilterten Standorte.

Wenn die Standortsuche zu mehreren Stadt- oder Nachbarschaftsseiten führen würde, wäre das Ergebnis wahrscheinlich ein Duplikat der offiziellen Seite, die Sie in Ihrer Sitemap haben.

Sorgen Sie dafür, dass die gefilterten Ergebnisse kanonisch auf die Hauptseite der Filterung verweisen, statt auf sich selbst zu verweisen, wenn der Inhalt der Seite derselbe bleibt wie die ursprüngliche Kategorie.

Wenn der Inhalt Ihre lokalisierte Seite mit denselben Speicherorten abruft, verweisen Sie das Canonical stattdessen auf diese Seite.

In den meisten Fällen erbt die gefilterte Version die Seite, von der aus Sie gesucht oder gefiltert haben, daher sollte die kanonische Version auf diese Seite verweisen.

Wenn Sie sowohl noindex als auch ein selbstreferenzierendes Canonical verwenden, was übertrieben ist, wird es zu einem widersprüchlichen Signal.

Das Gleiche gilt, wenn jemand auf Ihrer Website nach einem Produkt anhand des Namens sucht. Das Suchergebnis konkurriert möglicherweise mit der tatsächlichen Produkt- oder Serviceseite.

Mit dieser Lösung weisen Sie den Spider an, diese Seite nicht zu indizieren, weil es sich nicht lohnt, sie zu indizieren, es handelt sich aber auch um die offizielle Version. Es macht keinen Sinn, dies zu tun.

Verwenden Sie stattdessen einen kanonischen Link, wie oben erwähnt, oder noindexieren Sie das Ergebnis und verweisen Sie den kanonischen auf die offizielle Version.

Disavow zur Steigerung der Crawl-Effizienz

Disavowing hat nichts mit der Crawling-Effizienz zu tun, es sei denn, die Suchmaschinen-Spider finden Ihr „dünn” Seiten durch Spam-Backlinks.

Mit dem Disavow-Tool von Google können Sie sagen: „Hey, diese Backlinks sind Spam und wir wollen nicht, dass sie uns schaden.“ Bitte zählen Sie sie nicht zur Autorität unserer Website.“

In den meisten Fällen spielt das keine Rolle, da Google gut darin ist, Spam-Links zu erkennen und zu ignorieren.

Sie möchten nicht Ihre eigene Website und Ihre eigenen URLs zum Disavow-Tool hinzufügen. Sie sagen Google, dass Ihre eigene Website Spam ist und nichts wert ist.

Darüber hinaus hindert das Einreichen von Backlinks zum Disavowen einen Spider nicht daran, zu sehen, was Sie wollen und nicht gecrawlt zu werden, da dies nur dazu dient, zu sagen, dass ein Link von einer anderen Website Spam ist.

Das Disavowen trägt weder zur Crawling-Effizienz noch zur Einsparung des Crawling-Budgets bei.

So gestalten Sie Crawling-Budgets effizienter

Die Antwort ist robots.txt. Auf diese Weise teilen Sie bestimmten Suchmaschinen und Spidern mit, was sie crawlen sollen.

Sie können die Ordner einschließen, die gecrawlt werden sollen, indem Sie sie als vermarkten “erlauben,” und man kann sagen „verbieten“ auf gefilterte Ergebnisse, indem Sie das „?“ nicht zulassen oder „&“-Symbol oder was auch immer Sie verwenden.

Wenn einige dieser Parameter gecrawlt werden sollen, fügen Sie das Hauptwort „like“ hinzu „?filter=Standort“ oder ein bestimmter Parameter.

Mit Robots.txt definieren Sie Crawl-Pfade und arbeiten an der Crawl-Effizienz. Wenn Sie das optimiert haben, schauen Sie sich Ihre internen Links an. Ein Link von einer Seite Ihrer Website zu einer anderen.

Diese helfen Spinnen, Ihre wichtigsten Seiten zu finden und gleichzeitig zu erfahren, worum es auf den einzelnen Seiten geht.

Zu den internen Links gehören:

  • Paniermehl.
  • Menünavigation.
  • Links innerhalb des Inhalts zu anderen Seiten.
  • Unterkategoriemenüs.
  • Fußzeilen-Links.

Sie können auch eine Sitemap verwenden, wenn Sie eine große Website haben und die Spider die gewünschten Seiten nicht mit Priorität finden.

Ich hoffe, das hilft bei der Beantwortung Ihrer Frage. Das verstehe ich oft – Sie sind nicht der Einzige, der in dieser Situation steckt.

Weitere Ressourcen:

  • So verwalten Sie das Crawling-Budget für große Websites
  • 9 Tipps zur Optimierung des Crawl-Budgets für SEO
  • Das komplette technische SEO-Audit-Arbeitsbuch

Ausgewähltes Bild: Paulo Bobita/Search Engine Journal

Leave a Reply