Seo

Der lokale Jobtyp -Algorithmus von Google, der in Forschungspapier aufgeführt ist

Google veröffentlichte ein Forschungspapier, in dem beschrieben wird, wie es “Services angebotene” Informationen von lokalen Geschäftsstandorten extrahiert, um sie zu Geschäftsprofilen in Google Maps und der Suche hinzuzufügen. Der Algorithmus beschreibt spezifische Relevanzfaktoren und bestätigt, dass das System seit einem Jahr erfolgreich verwendet wird.

Besonders bemerkenswert ist, dass einer der Autoren Marc Najork ist, ein angesehener Wissenschaftler bei Google, der mit vielen Meilensteinen in Bezug auf Informationsabruf, Verarbeitung natürlicher Sprache und künstliche Intelligenz verbunden ist.

Der Zweck dieses Systems ist es, den Benutzern die Suche nach lokalen Unternehmen zu erleichtern, die die von ihnen gesuchten Dienste anbieten. Das Papier wurde im Jahr 2024 (gemäß dem Internetarchiv) veröffentlicht und datiert 2023.

Das Forschungspapier erklärt:

„… Um die Benutzeranstrengungen zu reduzieren, haben wir eine Pipeline entwickelt und bereitgestellt, um die Jobtypen automatisch von Geschäftswebsites zu extrahieren. Wenn eine Webseite eines Installationsgeschäfts im Besitz von Websites steht:„ Wir bieten Toiletteninstallation und Wasserhahnreparaturservice an “, gibt unsere Pipeline die Toiletteninstallation und die Reparatur von Faucet als Jobtyp für dieses Geschäft aus.”

Entwicklung eines lokalen Suchsystems

Der erste Schritt zum Erstellen eines Systems zum Krabbeln und Extrahieren von Jobtypinformationen bestand darin, Trainingsdaten von Grund auf neu zu erstellen. Sie wählten Milliarden von Heimseiten aus, die in Google Business -Profilen aufgeführt sind, und extrahierten Informationen zu Jobtypen aus Tabellen und formatierten Listen auf Homepages oder Seiten, die nur einen Klick von den Heimseiten entfernt waren. Diese Jobtypdaten wurden zum Seed -Satz von Jobtypen.

Die extrahierten Jobtypdaten wurden als Suchabfragen verwendet, die mit Abfrageerweiterung (Synonyme) erweitert wurden, um die Liste der Jobtypen so zu erweitern, dass alle möglichen Variationen der Schlüsselwort -Phrasen der Arbeitsplatztyp enthalten sind.

Zweiter Schritt: Behebung eines Relevanzproblems

Die Forscher von Google wandten ihr System auf die Milliarden Seiten an und es funktionierte nicht wie beabsichtigt, da auf vielen Seiten Phrasen auf Arbeitsplätze verfügte, die keine angebotenen Dienste beschrieben haben.

Das Forschungspapier erklärt:

„Wir haben festgestellt, dass auf vielen Seiten Namensnamen für andere Zwecke wie Geben von Lebenstipps erwähnt werden. Eine Webseite, die den Lesern beigebracht hat, mit Bettwanzen umzugehen, kann einen Satz wie eine Lösung enthalten, um Home -Reinigungsdienste anzurufen, wenn Sie Bettwanzen in Ihrem Zuhause in Ihrem Zuhause finden. Sie bieten normalerweise Dienste wie Bettwanzensteuerung an.

Die Begrenzung des Krabbelns und der Indexierung auf die Identifizierung von Schlüsselwortphrasen des Arbeitsplatztyps führte zu Fehlalarmen. Die Lösung bestand darin, Sätze einzubeziehen, die die Keyword -Phrasen umgeben, damit sie den Kontext der Schlüsselwortphrasen des Arbeitsplatztyps besser verstehen konnten.

Der Erfolg der Verwendung umgebender Text wird erklärt:

“Wie in Tabelle 2 gezeigt, funktioniert JobModelsurround signifikant besser als Jobmodel, was darauf hindeutet, dass die umgebenden Wörter tatsächlich die Absicht der Saatgut -Jobtyp -Erwähnungen erklären könnten. Dies verbessert das semantische Verständnis erfolgreich, ohne den gesamten Text jeder Seite zu verarbeiten und unsere Modelle effizient zu halten.”

SEO Insight
Der beschriebene lokale Suchalgorithmus schließt absichtlich alle Informationen auf der Seite aus und nimmt auf den Keyword -Phrasen und die umliegenden Wörter und Phrasen um diese Schlüsselwörter auf Arbeitstypen aus. Dies zeigt, wie wichtig es ist, wie die Wörter um wichtige Schlüsselwort -Phrasen einen Kontext für die Keyword -Phrasen liefern und den Crawlern von Google erleichtern können, zu verstehen, worum es auf der Seite geht, ohne die gesamte Webseite verarbeiten zu müssen.

SEO Insight
Ein weiterer Einblick ist, dass Google die gesamte Webseite nicht für den begrenzten Zweck der Identifizierung von Keyword -Phrasen des Arbeitsplatztyps indiziert. Der Algorithmus sucht nach der Schlüsselwortphrase und den umgebenden Schlüsselwortphrasen.

SEO Insight
Das Konzept der Analyse von nur einem Teil einer Seite ähnelt der Annotation von Google, bei der ein Inhaltsabschnitt als Hauptthema der Seite identifiziert wird. Ich sage nicht, dass diese verwandt sind. Ich verweist nur auf eine Funktion von vielen, bei denen ein Google -Algorithmus nur in einem Abschnitt einer Seite aufgebraucht ist.

Das System verwendet Bert

Google verwendete das Bert -Sprachmodell, um zu klassifizieren, ob Phrasen, die aus Unternehmenswebsites extrahiert wurden, die tatsächlichen Jobtypen beschreiben. Bert wurde zu beschrifteten Beispielen fein abgestimmt und erhielt zusätzlichen Kontext wie Website-Struktur, URL-Muster und Geschäftskategorie, um die Präzision zu verbessern, ohne die Skalierbarkeit zu beeinträchtigen.

Das Extraktionssystem kann auf andere Kontexte verallgemeinert werden

Ein interessantes Ergebnis, das von der Forschungsarbeit ausführlich beschrieben wird, ist, dass das von ihnen entwickelte System in anderen Bereichen (Domains) als lokale Unternehmen verwendet werden kann, wie z.

Sie schreiben:

„Die Lektionen, die wir bei der Entwicklung der Largescale-Extraktionspipeline von Grund auf auch auf andere Informationen zur Informationsextraktion oder auf Aufgaben des maschinellen Lernens verallgemeinern können. Sie haben direkte Anwendungen für domänenspezifische Extraktionsaufgaben, die durch Fachwissen, rechtliche und medizinische Informationen zur Extraktion veranschaulicht werden.

Drei wichtigste Lektionen sind:

(1) Die Verwendung der Dateneigenschaften wie strukturierten Inhalte könnte das kaltes Startproblem der Datenannotation lindern;

(2) Die Formulierung der Aufgabe als Abrufproblem könnte Forschern und Praktikern helfen, mit einem großen Datensatz umzugehen;

(3) Die Kontextinformationen könnten die Modellqualität verbessern, ohne ihre Skalierbarkeit zu beeinträchtigen. “

Jobtypextrakt ist ein Erfolg

Das Forschungspapier besagt, dass ihr System ein Erfolg ist, ein hohes Maß an Präzision (Genauigkeit) hat und dass es skalierbar ist. Das Forschungsarbeit besagt, dass es bereits seit einem Jahr verwendet wird. Die Forschung ist 2023 datiert, aber laut dem Internet -Archiv (Wayback -Maschine) wurde sie irgendwann im Juli 2024 veröffentlicht.

Die Forscher schreiben:

“Unsere Pipeline wird regelmäßig ausgeführt, um den extrahierten Inhalt auf dem neuesten Stand zu halten. Sie wird derzeit in der Produktion bereitgestellt, und die Ausgangsauftragstypen werden auf Millionen von Google-Suche aufgetaucht und sind von Benutzern geordnet.”

Imbiss

  • Der Google -Algorithmus, der Jobtypen aus Webseiten extrahiert
    Google entwickelte einen Algorithmus, der „Jobtypen“ (dh angebotene Dienste) von Business -Websites extrahiert, um in Google Maps und Suche angezeigt zu werden.
  • Pipeline -Extrakte aus unstrukturiertem Inhalt
    Anstatt sich auf strukturierte HTML-Elemente zu verlassen, liest der Algorithmus freie Textinhalte, wodurch er auch dann effektiv ist, wenn Dienste in Absätzen begraben werden.
  • Die kontextbezogene Relevanz ist wichtig
    Das System bewertet die umliegenden Wörter, um zu bestätigen, dass servicebezogene Begriffe tatsächlich für das Unternehmen relevant sind und die Genauigkeit verbessern.
  • Modellverallgemeinerungspotential
    Der Ansatz kann auf andere Bereiche wie Rechts- oder medizinische Informationsextraktion angewendet werden, um zu zeigen, wie er auf andere Arten von Wissen angewendet werden kann.
  • Hohe Genauigkeit und Skalierbarkeit
    Das System wird seit über einem Jahr eingesetzt und liefert skalierbare, hochpräzise Ergebnisse in Milliarden von Webseiten.

Google veröffentlichte einen Forschungsarbeit über einen Algorithmus, der automatisch Servicemannungen aus lokalen Geschäftswebsites extrahiert, indem sie Schlüsselwort-Phrasen und deren umgebende Kontext analysieren und genauere und aktuellere Listings in Google Maps und Search ermöglichen. Diese Technik vermeidet die Abhängigkeit von der HTML -Struktur und kann für die Verwendung in anderen Branchen angepasst werden, in denen das Extrahieren von Informationen aus unstrukturiertem Text erforderlich ist.

Lesen Sie das Forschungspapier Zusammenfassung und laden Sie die PDF -Version hier herunter:

Jobtypextraktion für Serviceunternehmen

Ausgewähltes Bild von Shutterstock/Vidi Studio

Leave a Reply