Dies ist eine Übersetzung des Original-Beitrags Google Describes a Machine Learning Model For a Searchable Index von Bill Slawski.

Information Retrieval Ranking vs. Machine Learning Ranking

In der Vergangenheit wurden die Suchergebnisse als Reaktion auf die von den Suchenden in ein Suchfeld eingegebenen Suchbegriffe auf der Grundlage der Rückgabe von organischen Suchergebnissen gerankt, die auf einer Kombination aus Information Retrieval Score (Suche nach einer Relevanz zwischen diesen Begriffen und ihrer Verwendung in Ressourcen im Web) in Kombination mit einem Materiality Score, der auf einem Autoritätsmaß wie PageRank basiert. Aber Google könnte damit begonnen haben, ein Machine Learning Modell zu verwenden, um  Inhalte zu bewerten.

Diverse Search Engineers haben davon berichtet, dass Suchmaschinen jetzt möglicherweise Machine-Learning-Modelle verwenden, um Webseiten zu ranken. Es ist nicht ganz sicher, wie maschinelles Lernen eingesetzt werden könnten aber es gibt Beschreibungen, wie diese eingesetzt werden könnten um Suchergebnisse zu ranken.

Ein Patent, das Anfang Dezember 2020 erteilt wurde ist es wert einen genaueren Blick darauf zu legen.

Ein Erfinder hinter diesem Patent hat an der Implementierung von Sibyl gearbeitet (Tushar Chandra). Das folgende Video über dieses Projekt ist sehr empfehlenswert zu schauen:

Recommendation Engines können verschiedene Ranking-Stufen, die zu einen auf Information Retrieval und zum anderen auf Machine Learning beruhen.

Was ist der Unterschied zwischen diesen beiden Typen von Ergebnis-Ausgaben?

Die Information-Retrieval-Stufe wählt Dokumente (Videos, Werbung, Musik, Textdokumente usw.) aus einem Korpus basierend auf verschiedenen Signalen aus, während das maschinell lernende System die Ausgabe des Information-Retrieval-Systems bewertet.

Wenn zum Beispiel ein Suchender eine Suchanfrage wie „Katze“ eingibt, kann ein kontextbezogenes Information-Retrieval-System aus allen verfügbaren Inhalten eine Menge von Kandidaten-Inhalten auswählen, die das Wort „Katze“ enthalten.

Diese Inhalts-Kandidaten können dann auf der Grundlage eines maschinell erlernten Modells in Reihenfolge gebracht werden, das so trainiert wurde, dass es die Wahrscheinlichkeit vorhersagt, dass eine Anzeige von einem Suchenden angeklickt wird, und zwar auf der Grundlage verschiedener Merkmale, wie z. B.:

  • Die Art des Benutzers
  • Der Standort des Benutzers
  • Die Tageszeit, zu der die Suchanfrage gestellt wurde
  • Etc.

Das Patent erklärt uns den Unterschied:

An information retrieval tool is computationally efficient, but can only produce a rough estimate of which items are best recommended to a user.

A machine-learned model can produce more accurate recommendations but is often more computationally intensive than an information retrieval tool.

Because the information retrieval tool is less accurate, it can exclude certain candidates from consideration using the machine-learned model that would otherwise be highly ranked.

Laut dem Google-Patent werden Regeln von einem Machine-Learning-Modell empfangen, wobei jede der maschinellen Lernregeln eine Ausgabe, Features und eine vom Machine-Learning-Modell vorhergesagte Ausgabewahrscheinlichkeit für ein oder mehrere Features und die Ausgabe enthält.

Wenn man sich die LinkedIn-Profile der Erfinder dieses Patents ansieht, scheint es, dass dieser Ansatz des maschinellen Lernens wahrscheinlich für die Optimierung von Videos bei YouTube verwendet wird . Die Beispiele im Patent konzentrieren sich auf Videos.

Ein Eintrag für einen Token-basierten Index kann für jede der Regeln existieren und kann ein oder mehrere Token enthalten, die auf den Features der Regel, der Ausgabe der Regel und der Ausgabewahrscheinlichkeit der Regel basieren.

Eine Suchanfrage kann empfangen werden und eine Teilmenge von Token, die der Suchanfrage entsprechen, kann identifiziert werden.

Der Token-basierte Index kann verwendet werden, um mehrere Ausgabewahrscheinlichkeiten auf der Grundlage der Teilmenge von Token zu erhalten.

Eine Ausgabe kann basierend auf der Vielzahl von Ausgabewahrscheinlichkeiten ausgewählt und einem Benutzer zur Verfügung gestellt werden.

Eine Teilmenge der ausgegebenen Ergebnisse kann in eine Rangfolge gebracht werden.

Beispielsweise können hundert Videos (Ergebnisse) nach Wahrscheinlichkeit geordnet werden, wobei dem Benutzer die zwanzig besten, von der höchsten zur niedrigsten Wahrscheinlichkeit, angezeigt werden.

Systeme und Techniken gemäß der vorliegenden Beschreibung können einen oder mehrere Indizes auf der Grundlage von Regeln und Ergebnissen eines Modells, das durch eine maschinellen Lernsystems erstellt worden ist, erzeugen oder ändern.

Die generierten oder geänderten Indizes können verwendet werden, um Ergebnisse basierend auf einer Suchtechnik auzuliefern.

Weitere Merkmale, Vorteile und Ausführungsformen der beschriebenen Methode können aus der folgenden detaillierten Beschreibung, den Zeichnungen und den Claims ersichtlich gezogen werden.

Dieses Patent kann gefunden werden unter:

Searchable index
Inventors: Jeremiah HarmsenTushar Deepak Chandra, Marcus Fontoura
Assignee: Google LLC
US Patent: 10,853,360
Granted: December 1, 2020
Filed: March 27, 2019

Auszug:

Systems and techniques are disclosed for generating entries for a searchable index based on rules generated by one or more machine-learned models. The index entries can include one or more tokens correlated with an outcome and an outcome probability. A subset of tokens can be identified based on the characteristics of an event. The index may be searched for outcomes and their respective probabilities that correspond to tokens that are similar to or match the subset of tokens based on the event.

Wie sieht dieses Machine-Learning-Modell aus?

In diesem Patent geht es um einen durchsuchbaren Index, der mit Hilfe von Regeln aus einem Machine-Learning-Modell erstellt wird.

Dadurch kann die künstliche Intelligenz und Logik des Machine-Learning-Modells in einem leicht durchsuchbaren Index verkörpert sein.

Und klassische Information-Retrieval-Methoden sind in der Lage 4über den Index effizient Daten abzurufen.

Durch diese Kombination kann der Verlust von Kandidaten, die durch das Information-Retrieval-System eliminiert worden wären, aber durch das Machine-Learning-Modell hoch bewertet werden würden, verringert werden.

Die Techniken aus dem Patent könnten Machine-Learning-Modelle verwenden, die unter Verwendung von Supervised Learning, wie z. B. markierten Trainingsdaten, erstellt werden.

Diese markierten Trainingsdaten können in ein Machine-Learning-System eingegeben werden, um als Ausgabe ein Machine-Learning-Modell zur Bewertung zu erhalten.

Die gelabelten Trainingsdaten können sowohl eine Ausgabe/Eregbnis als auch Eigenschaften enthalten, die mit einer bestimmten Instanz verbunden sind.

Die Bewertung und Ergebnisse können einheitenlose numerische Werte, Prozentsätze, Häufigkeiten oder andere Quantifizierungen sein.

Ein ML-Modell kann eine oder mehrere Regeln erstellen.

Beispiel-Regeln für die Erstellung von SERPs

Dieses Beispiel scheint für die Verwendung mit Videos erstellt worden zu sein, die als Antwort auf eine Suchanfrage angezeigt werden können.

Eine Regel kann ein Ergebnis/Ausgabe, einen Satz von Merkmalen und eine Wahrscheinlichkeit enthalten. Zum Beispiel die Regel:

(Keyword:auto, video:autofabrikant_1).fwdarw.0.03

Dies sagt uns, dass, wenn ein Suchender das Suchwort „Auto“ bei einer Suchmaschine eingibt (ein Merkmal) und der Benutzer ein Video über Autohersteller_1 zurückbekommt (das Ergebnis), mit einer Wahrscheinlichkeit von 3 %, dass der Benutzer das Video auswählt, um es anzusehen (die Wahrscheinlichkeit).

Das Patent beschreibt, dass die Einträge in einem durchsuchbaren Index Dokumente und durchsuchbare Token enthalten können.

Wir wissen auch, dass ein Token in einem maschinengelernten tokenbasierten Index als indiziertes Token bezeichnet werden kann.

Und dass ein indiziertes Token ein Keyword enthalten oder nicht enthalten kann.

So kann ein Index ein Token enthalten, das das Keyword „Auto“ enthält, sowie andere Token, die keine Keywords enthalten, sich aber auf andere Merkmale wie Standort, Sprache und Browsereinstellungen beziehen.

In diesem Fall kann ein Merkmal jede Information enthalten, die über einen Benutzer bekannt ist, z. B. ein vom Benutzer eingegebener Suchterm eine vom Benutzer eingestellte Browserkonfiguration usw.

Ein Merkmal kann auch eine allgemeine Zustandsinformation sein, wie z. B:

  • Tageszeit
  • Geografischer Standort
  • Etc.

Eine Webseite kann einen Eintrag wie folgt erzeugen:

web_page_1: [text:boxcar, 4.0], [image:train, 2.0]

Dieser Eintrag zeigt an, dass eine Seite einer Website („web_page_1“, ein Dokument) viermal die Textfolge „boxcar“ und zwei Bilder von Zügen enthält.

Ein standardmäßiges regelbasiertes Machine-Learning-Modell kann also als eine Menge von Dokumenten und Token mit Bewertung dargestellt werden.

Die folgenden Regeln geben z. B. die Wahrscheinlichkeit an, dass ein Benutzer, der das Suchwort „Auto“ in eine Suchmaschine eingibt, ein Video über einen bestimmten Autohersteller auswählt:

(Keyword:Auto, Video:Autohersteller_1).fwdarw.0.03

(Keyword:Auto, Video:Autohersteller_2).fwdarw.0.05

Diese Regeln können zu Einträgen werden, die einen Satz von durchsuchbaren Tokens für jedes Video enthalten, z. B:

Autohersteller_1: [Keyword:Auto, 0.03]

Autohersteller_2: [Keyword:Auto, 0.05]

Ein Eintrag kann ein Ergebnis (z. B. „Autohersteller_1“), Token (z. B. keyword:2Auto) und eine Gewichtung (z. B. 3%) enthalten.

Die Token können auf dem Auftreten von Merkmalen in einer maschinell erlernten Regel basieren.

Eine Bewertung kann der Wahrscheinlichkeit entsprechen, dass die Ausgabe aufgrund des Auftretens bestimmter Merkmale eintritt.

Die beschriebene Methode kann die Notwendigkeit eines separaten Information-Retrieval-Schritts überflüssig machen und alle Ergebnisse mit Hilfe des maschinell erlernten Modells bewerten.

Dadurch können die Suchergebnisse für den Suchenden besser geeignet sein als bei einer klassischen nur auf Information Retrieval basierten Ausgabe von Suchergebnissen, z. B. basierend auf Eigenschaften des Benutzers, dem Kontext der Suche usw.

Zum Beispiel können Merkmale mit einem bestimmten Benutzer assoziiert werden.

So können das Vorhandensein (1) oder Fehlen (0) von Merkmalen (Suchanfrage, Standort des Benutzers (Europa, Amerika) und ob der Suchende eine Verbindung mit hoher Bandbreite hat) verwendet werden.

Ein Machine-Learning-Modell kann Bewertungen enthalten, die die relativen Beiträge verschiedener Features zur Wahrscheinlichkeit eines Ergebnisses anzeigen.

Aus den relativen Beiträgen von Merkmalen zur Wahrscheinlichkeit, dass ein Benutzer ein bestimmtes Video A-D auswählt, um es anzusehen.

Das Vorhandensein der Schlüsselwörter „Auto“ und „Amerika“ für Benutzer B in Kombination mit der Gewichtung dieser Merkmale für Video C (0,5 bzw. 0,2) kann zur Vorhersage der Wahrscheinlichkeit verwendet werden, dass Benutzer B Video C zum Ansehen auswählt

Es kann die Wahrscheinlichkeit berechnet werden, dass jeder Suchende die verschiedenen Videos zum Anschauen auswählt.

Eine Regel kann die Korrelation von mindestens einem Merkmal mit einer Wahrscheinlichkeit des Auftretens eines bestimmten Ergebnisses berücksichtigen.

Viele Regeln können auf Basis des Auftretens verschiedener Kombinationen von Merkmalen generiert werden.

Basierend auf den Merkmalen in einer Regel kann ein Satz von Token generiert werden.

Beispiele für solche Token sind [Keyword:Auto], [Ort:Europa] und [Bandbreite:hoch].

Token, die einem Satz von Merkmalen in einer Regel entsprechen, können in Kombination mit einer Wahrscheinlichkeit für ein bestimmtes Ergebnis betrachtet und indiziert werden.

Die Token [Keyword:Auto], [Ort:Europa] und [Bandbreite:hoch] können mit einer Wahrscheinlichkeit von 4 % korrelieren, dass Video C zum Anschauen ausgewählt wird:

Video C: [Keyword:Auto, Ort:Europa, Bandbreite:hoch, 0.04]

Diese Information kann als durchsuchbarer Indexeintrag zusammen mit anderen derartigen, aus anderen Regeln abgeleiteten Ergebnissen gespeichert werden.

Der aus diesen Ergebnissen erstellte Index kann dann über Standard-Information-Retrieval-Metoden durchsucht werden.

Ein auf diese Art und Weise erzeugter Index wird als tokenbasierter Index bezeichnet.

Er basiert auf Token, die nicht nur auf Keywords beschränkt sind.

Eine oder mehrere Ranking-Techniken können verwendet werden, um die Suchergebnisse zu verfeinern, um eine Suchanfrage zu beantworten.

Der Index kann verwendet werden, um nur die Token zu berücksichtigen, die den Merkmalen eines bestimmten Benutzers entsprechen.

Eine Suche im Index kann alle Videos abrufen, für die Wahrscheinlichkeiten für einen Benutzer berechnet wurden, dessen letztes angesehenes Video von Katzen handelte und dessen Standort Amerika ist.

Die ausgegebenen Videos können nach der Wahrscheinlichkeit von der höchsten bis zur geringsten Wahrscheinlichkeit geordnet werden, um zum Ansehen ausgewählt zu werden.

Dem Benutzer können Beschreibungen (z. B. Miniaturansichten) für die bestplatzierten Videos in der Liste empfohlen werden.

Folgende nutzerbasierter Faktoren können berücksichtigt werden:

  • Eine regression-basierte Vorhersage
  • Eine Ranking
  • Eine Conversion-Vorhersage
  • Eine Klick-Vorhersage
  • Eine Vorhersage der Verweildauer (e.g., wie lange sich der Nutzer mit dem ausgegebenen Content beschäftigt)

Andere Beispiele für Faktoren für eine Ausgabe können sein:

  • Auswählen einer Werbeaktion
  • Eröffnung eines Kontos
  • Kauf eines Produkts oder einer Dienstleistung
  • Die Dauer, für die ein Benutzer einen Inhalt ansieht (z. B. ein Video, ein Bild, einen Text usw.)
  • Wiederholter Zugriff (z. B. wie wahrscheinlich es ist, dass ein Benutzer einen Inhalt erneut aufruft) o. ä.

Eine Ergebniswahrscheinlichkeit kann in jeder sinnvollen Form dargestellt werden, einschließlich

  • Ganzzahlige Darstellungen
  • Boolesche Kategorisierung
  • Normalisierung (z. B. Umwandlung des Wahrscheinlichkeitswerts in eine normalisierte Wahrscheinlichkeit, Konversionsrate, Prozentsatz usw.)

Eine Ergebniswahrscheinlichkeit kann eine beliebige anwendbare Vorhersage sein, wie z. B. ein Prozentsatz, ein Verhältnis oder Ähnliches, und/oder kann einer Vorhersage des ausgegebenen Betrags (z. B. ausgegebene Dollar), der Expositionszeit (z. B. angesehene Videominuten) oder Ähnlichem entsprechen.

Die Ergebniswahrscheinlichkeit kann aus der Vorhersage des Machine-Learning-Modells abgeleitet werden.

Diese Ergebniswahrscheinlichkeit kann die prozentuale Chance darstellen, dass ein Benutzer Inhalte auswählt, die mit dem Ausgabe-Ergebnis verknüpft sind.

Wie können Ergebnisse basierend auf einem Machine-Machine-Learning-Modell aussehen?

Interessanterweise beziehen sich die Beispiele aus dem Patent auf Videos.

Dieser durchsuchbare, auf Tokens basierende Index kann Tokens verwenden, die mit einer Suchanfrage verbunden sind, die mit den Tokens im Index abgeglichen werden kann. Unter Verwendung eines Suchalgorithmus können Ergebnisse basierend auf einer oder mehreren Ergebniswahrscheinlichkeiten ausgewählt werden.

Ein Machine-Learning-System kann Modelle generieren und aktualisieren, um Vorhersagen zu treffen und Ranglisten zu erstellen.

Eine auf einem maschinellen Lernmodell basierende Vorhersage kann ein Ergebnis, ein oder mehrere Merkmale und einen Vorhersagewert enthalten.

Ein Machine-Learning-Modell, das vorhersagt, ob ein Suchender das Video Y ansehen wird (ein Beispiel für ein Ergebnis), kann mit Merkmalen versehen werden, dass der Benutzer sich in den Vereinigten Staaten befindet, in der Vergangenheit ein Musikvideo X angesehen hat und seine Standardsprache auf Englisch eingestellt hat (Beispiele für Merkmale).

Dieses Modell für maschinelles Lernen kann Bewertungen für jedes der Merkmale enthalten:

  • 0,5 für den Standort in den Vereinigten Staaten
  • 0,9 dafür, dass sie das Musikvideo X angesehen hat
  • 0,3 für die Einstellung der Standardsprache als Englisch

Das Machine-Learning-Modell kann Gewichtungen für andere Merkmale enthalten (z. B. die Nutzung befindet sich in Kanada), aber da diese Merkmale in dieser Beispielvorhersage nicht vorhanden sind, tragen ihre Gewichtungen möglicherweise nicht zur Vorhersage bei.

Das Nichtvorhandensein eines bestimmten Merkmals kann für die Vorhersage eines Ergebnisses wichtig sein und berücksichtigt werden.

Der Vorhersagewert kann normalisiert werden, um einen Prozentsatz oder eine Wahrscheinlichkeit in einer beliebigen anwendbaren Weise darzustellen.

Die Instanz könnte das Ergebnis enthalten: „ob der Benutzer das Video Y ansehen wird“, die Merkmale: „befindet sich in den Vereinigten Staaten“, „hat Video X angesehen“ und „Standardsprache Englisch“ und die Vorhersage: „0,9“ (normalisiert).

Ein Merkmal kann jede anwendbare Eigenschaft sein, die mit einer Instanz verbunden ist, und kann auf einem Benutzer (z. B. demografische Daten des Benutzers, Benutzergeschichte, Benutzerzuordnungen wie Benutzerkonten oder Vorlieben), einem Gerät (z. B. Gerätetyp des Benutzers, Gerätemerkmale, Gerätefähigkeiten, Gerätekonfiguration usw.), einem aktuellen Ereignis oder Ähnlichem basieren.

Merkmale können einen Sucherstandort, eine Sprachpräferenz des Suchers, eine Ansichtshistorie, ein Sucherkonto, ein Sucherabonnement, einen Gerätemodelltyp, eine Gerätebildschirmauflösung, ein Gerätebetriebssystem, eine Feiertagsbezeichnung, ein Sportereignis oder Ähnliches umfassen.

Zu Bill Slawski

Bill Slawski macht seit 1996 Online-Marketing für Websites, während er als technischer und juristischer Administrator für das höchste Prozessgericht in Delaware tätig war. Im Jahr 2005 wurde er Vollzeit-SEO und begann damals über suchbezogene Patente und Whitepaper zu schreiben. Seitdem bloggt er über Patente, weil er darin eine großartige Möglichkeit sieht, etwas über Suchmaschinen zu lernen und die Erkenntnisse auf SEO anzuwenden. Er lebt im nördlichen San Diego County, nur eine kurze Autofahrt vom Pazifischen Ozean entfernt. Er bloggt bei SEObythesea.com und ist Director bei der SEO-Agentur Go Fish Digital.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.