Dieser Beitrag meiner Artikelreihe zu Semantik und Entitäten in der SEO und bei Google beschäftigt sich mit der Rolle von Entitäten bei der Interpretation von Suchanfragen. Viel Spass beim Lesen!

Die Hauptaufgaben bei der Entitäten-basierten Suche

Bei Entitäten-basierten Such- bzw. Information-Retrieval-Systemen spielen Entitäten eine zentrale Rolle bei mehreren Aufgaben.

  1. Interpretation von Suchanfragen
  2. Relevanzbestimmung  auf Dokumentenebene
  3. Evaluation auf Domainebene bzw. Verfasser-Ebene
  4. Ausgabe einer Ad hoc Antwort in Form eines Knowledge Panel, Featured Snippet …

Bei all diesen Aufgaben gilt es das Zusammenspiel aus Entität, Suchanfrage und Relevanz. In diesem Beitrag geht es im Fokus um die Interpretation von Suchanfragen bzw. den Zusammenhang zwischen Entitäten und Suchanfragen.

Google will die Bedeutung und Suchintention der Suchanfragen erkennen

Die Interpretation von Suchanfragen ist in Zeiten von immer komplexer werdenden Suchanfragen, insbesondere durch Voice Search, eine der größten Herausforderungen für Suchmaschinen. Für den Nutzwert einer Suchmaschine ist entscheidend zu verstehen, was der Nutzer sucht. Das ist gerade bei unklar formulierten Suchanfragen keine leichte Aufgabe. Bei modernen Information-Retrieval-Systemen geht es immer weniger um die Keywords, die ein Suchterm beinhaltet als vielmehr um die Bedeutung der Suchanfrage. Hier spielen Entitäten bei vielen Suchanfragen eine zentrale Rolle.

Nahezu jeder Suchterm basiert auf einer impliziten oder expliziten Fragestellung und einer Suchintention. Die Suchintention ist sehr wichtig für den Abgleich mit dem Zweck von Dokumenten bzw. Inhalten des jeweiligen Korpus. In Zeiten von Voice Search und mobilen Endgeräten ist es für Google umso wichtiger, Suchanfragen und deren Nutzerintention bzw. deren Bedeutung so genau wie möglich zu identifizieren, um die individuell passenden Suchergebnisse auszugeben.

Zur Suchintention möchte ich hier aber nicht genauer eingehen. In diesem Beitrag möchte ich mich auf die Interpretation der Bedeutung von Suchanfragen mittels Entitäten konzentrieren.Mehr dazu findest Du im Beitrag Erklärung & Identifikation von Suchintention & Nutzerintention von Keywords.

In einem Interview von 2009 sagte Ori Allon, damaliger technischer Leiter des Google Search Quality Teams in einem Interview mit IDG :

We’re working really hard at search quality to have a better understanding of the context of the query, of what is the query. The query isn’t the sum of all the terms. The query has a meaning behind it. For simple queries like ‚Britney Spears‘ and ‚Barack Obama‘ it’s pretty easy for us to rank the pages. But when the query is ‚What medication should I take after my eye surgery?‘, that’s much harder. We need to understand the meaning…

Ein Beispiel für die Effektivität von Entitäten-basierten Suchsystemen im Gegensatz zu Term-basierten zeigt dieses Beispiel.

 

Quelle: https://mobilemoxie.com/blog/the-entity-language-series-translation-and-language-apis-impact-on-query-understanding-entity-understanding-4-of-5/

Eine rein Term-basierte Suchmaschine würde den Unterschied in der Bedeutung der Suchanfragen „red stoplight“ und „stoplight red“ nicht erkennen, da die Terme in der Suchanfrage gleich sind, nur anders angeordnet. Je nach Anordnung ist die Bedeutung aber unterschiedlich. Eine Entitäten-basierte Suchmaschine erkennt den unterschiedlichen Kontext basierend auf der unterschiedlichen Anordnung. „stoplight red“ ist eine eigene Entität während „red stoplight“ eine Kombination aus einem Attribut und einer Entität  „stoplight“ ist.

In diesem Beispiel wird klar, dass es nicht genügt über einen Term die Entität zu ermitteln. Auch die Wörter im Umfeld spielen eine wichtige Rolle, um die Bedeutung zu identifizieren. Gerade Terme mit je nach Kontext unterschiedlichen Bedeutungen sind eine Herausforderung für Google bzw. Suchmaschinen.

 

Google möchte Entitäten in Suchanfragen erkennen

Google will herauszufinden, um welche Entität es sich bei einer Frage handelt. Das ist gar nicht so einfach, wenn die Entität selbst im Suchterm gar nicht vorkommt. Durch im Suchterm vorkommende Entitäten und den Relationskontext zwischen Entitäten kann Google die gesuchte Entität identifizieren.

Ein Beispiel:

Die Frage „wer ist chef bei vw“ oder  die implizite Fragestellung „chef vw“ führt zur Auslieferung der folgenden Knowledge Graph Box:

 

In diesem Beispiel spielen zwei Entitäten und eine Verbindungsart bzw. Prädikatsphrase eine wichtige Rolle zur Beantwortung der Frage.

  • VW (Entität)
  • Chef (Verbindungsart)
  • Herbert Diess (Entität)

Nur über die Kombination der Entität „VW“ mit der Verbindungsart „Chef“ kann Google die Frage nach der Entität „Herbert Diess“ beantworten.

Deswegen ist Google die Identifikation von Entitäten im ersten Schritt so wichtig. Als zentrale Sammelstelle für alle als Entitäten  identifizierten Begriffe nutzt Google den Knowledge Graph.

Für Google ist es wichtig Entitäten in Suchtermen zu identifizieren und Verbindungen zu anderen Entitäten festzustellen. Mindestens genauso wichtig sind die Beziehungen zwischen den Entitäten. Denn nur so kann Google auch implizite Fragen nach Entitäten und somit auch konkrete Fragen nach Entitäten direkt in den SERPs beantworten. Hier noch ein Beispiel:

Die Suchanfrage „Wer ist der gründer von Adidas?“(explizite Fragestellung) und „Gründer Adidas“ (implizite Fragestellung) führt zu fast den gleichen Suchergebnissen:

 

Auch wenn die Ergebnisse sich marginal unterscheiden erkennt Google, dass hier nach der Entität Adolf Dassler gesucht wird, obwohl der Name in der Suchanfrage nicht vorkommt. Dabei ist es egal, ob ich eine implizite Frage in Form des Suchterms „Gründer Adidas“ stelle oder eine explizite Frage. Die Entität „Adidas“ und der Relationskontext „Gründer“ reichen  dafür aus.

 

Semantische Anreicherung von Suchanfragen

Quelle: Entity oriented Search, Krisztian Balog

Es ist für Google nicht immer einfach die relevanten Entitäten aus den Suchanfragen heraus zu interpretieren. Hier können Suchanfragen im Hintergrund automatisch mit semantische Zusatzinformationen bzw. Anntotationen angereichert werden oder per Autosuggest dem Nutzer vorgeschlagen werden. Dabei findet das Matching von der Suchanfrage und der Entität nicht mehr nur aufgrund des eingegebenen Texts statt, sondern auch unter Einbeziehung semantischer Beziehungen von Entitäten und Attributen.

Im folgenden Beispiel wird die Entität „Ann Dunham“ gesucht. Eine rein termbasierte Suchmaschine hätte Probleme die Suchanfrage nach dem „eltern von obama“ zu beantworten. Durch das Zusammenspiel aus termbasierter und entitätenbasierter Suche kann die Antwort „Ann Dunham“ als Mutter von der Suchmaschine ausgegeben werden.

Quelle: Entity oriented Search, Krisztian Balog

In der Praxis sieht das Ergebnis dann so aus. Neben der Mutter Ann Dunham wird auch die zweite gesuchte Entität des Vaters Barack Hussein Obama Senior als auch das Knowledge Panel von Barrack Obama ausgegeben. Das Knowledge Panel von Barrack Obama wird ausgespielt, da das System auf den Term Barack Obama in der Suchanfrage reagiert. Die beiden anderen Entitäten-Boxen werden aufgrund der semantischen Zusatzinformationen aus dem Knowledge Graph ausgegeben.

Durch Klick auf das Bild vergrößern

Das praktische an diesem dualen System bei der Interpretation von Suchanfragen ist, dass auch Ergebnisse ausgegeben werden können, wenn in einem Suchterm nach keiner Entität gesucht wird.

Neben der entitätenbaiserten Interpretation von Suchanfragen kann die termbasierte Methode auch durch Entitäts-Typenbasierte Methoden unterstützt werden. Das ist relevant bei Suchanfragen bei denen nach mehreren Entitäten aus einer Typen-Klasse gesucht wird wie z.B. „sehenswürdigkeiten hannover“. Hier wird eine Box ausgegeben, die mehrere Entitäten auflistet.

Durch Klick auf das Bild vergrößern

Häufig werden bei Suchanfragen bezogen auf einen Entitäts-Typ entweder die aktuell relevanteste Entität, Karussels oder die obige Art von Knowledge-Graph-Boxen ausgegeben. In solchen Boxen werden je nach Gewichtung bezogen auf die Suchanfrage die relevantesten Entitäten angezeigt. Die Nähe bzw. Relevanz der Entitäten zur Suchanfrage kann Google ähnlich wie bei Dokumenten über Vektorraumanalysen wie z.B. Word2Vec feststellen. Je kleiner der Winkel zwischen dem Suchanfragen-Vektor und dem Entitäten-Vektor desto relevanter bzw. näher sind sich Term und Entität.

Beispiel Vektorraumanalyse Entitäten zur Suchanfrage

 

Google-Patente zur Interpretation von Suchanfragen

Nachfolgend möchte ich einige  Google Patente vorstellen, die für die Interpretation von Suchanfragen eine Rolle spielen können. Einige der nachfolgenden Patente könnten die grundlegende Technologie auf der  Rankbrain mit seinen Maschine-Learning-Technologien aufgesetzt wird sein.

Beginnen möchte ich mit einer Reihe von Patenten, die sich mit der Verfeinerung von Suchanfragen beschäftigen. Das Erscheinungsdatum des ersten Patents zeigt, dass Google  sich schon sehr lange mit diesem komplexen Thema beschäftigt. Es ist eines der ersten Patente von Google zur semantischen Interpretation von Suchtermen und stammt von Ori Allon aus dem Jahr 2009.

Refining search queries

Das Patent beschäftigt sich in erster Linie mit der Interpretation von Suchanfragen sowie deren Verfeinerung. Laut dem Patent bezieht sich die Verfeinerung der Suchanfrage auf bestimmte Entitäten, die in den zur Original-Suchanfrage oder Synonymen rankenden Dokumenten häufig zusammen vorkommen. Dadurch lassen sich Entitäten gegenseitig referenzieren und auch bisher unbekannte Entitäten lassen sich somit schnell identifizieren.

Identification of acronym expansions

Dieses  Patent wurde erstmal im August 2011 von Google gezeichnet und im Oktober 2017 noch mal unter einem neuen Namen neu gezeichnet. Es ist sehr spannend, da einer der Erfinder der Deep Learning Spezialist Thomas Strohmann ist, der eine führende Rolle bei der Entwicklung von Rankbrain gespielt hat.

In diesem Patent wird nicht von Entitäten gesprochen aber es beschreibt eine weitere Methode wie Google ursprüngliche Suchanfragen basierend auf den Informationen aus einem ersten Subset von Dokumenten umschreibt bzw. verfeinert, um relevantere Suchergebnisse am Ende auszuspielen. In diesem Patent geht es zwar in erster Linie um die Deutung von Akronymen in Suchanfragen. Der beschriebene Prozess ist aber eine Blaupause für viele andere Methoden, die sich mit der Verfeinerung bzw. Umschreibung von Suchanfragen beschäftigen.

Die im Patent beschriebene Acronym- und Synonym-Engine lässt sich durch den Knowledge Graph ersetzen.

 

 

Query rewriting with entity detection

Dieses  Patent wurde erstmal im September 2004 von Google gezeichnet und im Oktober 2017 noch mal unter einem neuen Namen neu gezeichnet. Es ist besonders spannend weil die Wurzeln weit vor Rankbrain, Hummingbird und Knowledge Graph zu finden sind und anscheinend heute noch relevant ist, was die Vermutung nahelegt, dass die Methodik ein fester Bestandteil der heutigen Google-Suche ist.

Die Methodik beschreibt den Prozess wie Suchanfragen mit Entitäten-Bezug bei Bedarf umgeschrieben werden oder zumindest Suggest-Vorschläge auszuspielen um relevantere Suchergebnisse zu erhalten.

Das Patent wirkt auf den ersten Blick doch recht einfach und rudimentär, da sich die Umschreibungen der Suchanfrage in den aufgeführten Beispielen nur aus einer Ergänzung der Suchanfragen mit Suchoperatoren beziehen. So wird in einem der Beispiele die Suchanfrage „mutual funds business week“ ungeschrieben zu „mutual funds source:business week“. Spannend finde ich in dem Patent, dass in den Beispielen Entitäten-IDs über Domains vergeben werden. Das würde der Vermutung Futter geben, dass Domains eindeutige digitale Abbilder von Entitäten sind.

Zudem wird beschrieben, dass ein Umschreiben der Suchanfrage auch bei verschiedenen gleichbedeutenden Begriffen wie z.B. Synonymen oder Fehlschreibweisen  durchgeführt werden kann und als Suchergebnisse Inhalte sowohl passend zur ursprünglichen als auch umgeschriebenen Suchanfrage ausgeliefert werden.

Ein Beispel wäre die Suchanfrage „internet marketing“. Hier finden wir Ergebnisse, die zur ursprünglichen Suchanfrage als auch zum populäreren gleichbedeutenden Begriff „online marketing“ passen.

SERP zur Suchanfrage "internet marketing"

Discovering entity actions for an entity graph

Dieses Patent hat Google im Januar 2014 erstmals gezeichnet und im Oktober 2017 unter einem aktualisierten Namen neu gezeichnet. Es beschreibt wie Google basierend auf situativ bedingten kurzfristigen Schwankungen im Suchvolumen Entitäen-bezogene Aktivitäten identifiziert. Diese können dann z.B. in einem Knowledge Panel kurzfristig ergänzt werden oder es können Inhalte, die diese aktuellen Aktivitäten berücksichtigen vorübergehend in den Rankings nach oben geschoben werden. So kann Google auf situative Ereignisse rund um eine Entität reagieren und dementsprechend die SERPs anpassen.

Selecting content using entity properties

Dieses Patent wurde erstmals im April 2014 vund im Oktober 2017 unter einem neuen Namen von Google neu gezeichnet. Es beschreibt wie Google mit Hilfe eines Confidence Scores die Entitäten-Hierarchie in einer Suchanfrage bestimmen kann.

Um die Relevanz einer Entität in einer Suchanfrage zu erkennen kann Google einen Confidence Score einsetzen

The method can include identifying a property of the entity of the search query. The method can include the data processing system determining a match between a property of an entity of content selection criteria and the property of the entity of the search query. The method can include the data processing system selecting the content item as a candidate for display on the user device based on the match and the confidence score. Quelle: https://patents.google.com/patent/US9542450B1/en

Nach diesem Confidence Score wird dann entschieden welches die Hauptentität in der Suchanfrage ist und demnach werden die passenden Dokumente für die SERPs bestimmt. Dabei können sowohl über einen Query Graph als auch einen Content Selection Criteria Graph auch Entitäts-Attribute in der Auswahlprozess einbezogen werden.

The example of this shown below easily illustrates the impact that word-order can have on Google’s results.In the query for ‘red stoplight’ in the screenshot on the left, the words are in the standard order – ‘red’ describes ‘stoplight’. When the order is reversed, to ‘stoplight red,’ as it is in the query on the right, it becomes a query for the color ‘red’ that is as bright as a ‘stoplight’; here, ‘stoplight’ becomes the adjective and ‘red’ becomes the noun (a concept).

 

Identifying and ranking attributes of entities

Dieses im Jahr 2015 veröffentlichte Google Patent ist wohl eins der spannendsten Patente zu diesem Thema. Es beschreibt wie Google für jeden Suchterm Suchanfrage-Daten, Entitäten-beschreibende Teile und Anhänge bestimmt. Diese Anhänge können z.B. Attribute sein. Auf diesen Weg lassen sich Suchanfragen analysieren, um festzustellen, welche Arten von Informationen Benutzer normalerweise erhalten möchten.

In vielen Fällen unterscheiden sich die Informationstypen, an denen ein Benutzer für eine Entität (z. B. eine Person oder ein Thema) interessiert ist. Durch die Analyse von Suchanfragen können die am häufigsten angeforderten Informationene für eine bestimmte Entität identifiziert werden. Wenn dann ein Benutzer eine Abfrage sendet, die sich auf die bestimmte Entität bezieht, können die am häufigsten angeforderten Informationen als Antwort auf die Abfrage bereitgestellt werden. Beispielsweise kann eine kurze Zusammenfassung der am häufigsten angeforderten Fakten für die bestimmte Entität und andere ähnliche Entitäten bereitgestellt werden wie z.B. in einem Knowledge Panel oder Knowledge Card.

Dabei wird berücksichtigt wie häufig bestimmte Informationen zu der Entität selbst als auch generell für den Entitätstyp gesucht werden. Wird z.B. bezogen auf die Band Phoenix häufig nach den Alben, Lyrics und Tourdaten  und generell für Musiker nach Bandmitglieder und Songs ergeben sich daraus die im Knowledge Panel ausgelieferten Informationen.

 

Methods, systems, and media for interpreting queries

In diesem Patent, das Google im Jahr 2015 gezeichnet hat, werden verschiedene Methoden beschrieben wie Suchmaschinen Suchanfragen interpretieren können.

Dieses Patent beschreibt die grundlegende Problemstellung und Lösungsansätze mit den Herausforderungen umzugehen.

For example, in response to providing the search query “action movie with tom cruise,” these search engines can provide irrelevant search results like “Last Action Hero” and “Tom and Jerry” simply because a portion of the search query is included in the title of the pieces of content. Accordingly, gaining an understanding of the search query can produce more meaningful search results.

Bei der hier beschriebenen Methode werden Suchanfragen in einzelne Begriffe zerlegt. Für diese Begriffe wird geprüft, ob sie einen Bezug zu einer bekannten Entität haben. Über einen Entiäten-Score wird festgelegt wie nah die Begriffe zu den jeweiligen Entitäten stehen. Dabei spielt auch der Kontext der Suchanfrage, also auch die Begriffe ohne direkten Entitäten-Bezug im Suchterm eine Rolle. Basierend auf der relevantesten Entität wird dann eine Suche entsprechend des Entitätstyp ausgeführt und die dementsprechenden Suchergebnisse ausgeliefert.

 

Dazu ein Beispiel. Eine Suchanfrage wie „Action Film mit Tom Cruise“ würde in die einzelnen Bestandteile „Action“, „Film“,“Tom“ und „Cruise“ zerlegt werden. Der Begriff Action kann eine Entität des Entitstyps Film, Genre oder Serie sein. Welcher dieser Entitätstypen am ehesten gefragt ist kann z.B. nach der vorkommenden Häufigkeit bzw. Popularität  über einen Entitäten-Score bestimmt werden.

Je nach Art der Suchmaschine (Bilder-Suche, Video-Suche …) würden entsprechende Medienformate passend zu den gesuchten Entitätstyp „Action Film“ und der Entität „Tom Cruise“ ausgeliefert werden. In dem Patent wird Bezug auf unterschiedlichste Formen von Suchen genommen wie z.B. Suchanfragen in einer Bilder-Suche oder via Voice Search über einen digitalen Assistenten.

 

Query generation using structural similarity between documents

Dieses Patent wurde im September 2016 gezeichnet. Das spannende an diesem Patent ist, dass unter den Erfindern mit Paul Haahr und Yonhui Wu zwei bedeutende Deep-Learning-Engineers beteiligt waren. Zudem war Yonhui Wu einer führenden Köpfe bei der Rankbrain-Entwicklung.

In dem Patent wird eine Methode beschrieben wie eine Suchmaschine ergänzende Suchanfragen zu einer Entität generieren kann, um sie in einem Query Store zu speichern. Mit diesen Suchanfragen könnten dann z.B. Suchanfragen Verfeinerungen bzw. -Umschreibungen eines ursprünglichen Suchterms vorgenommen werden.

Anhand der inhaltlichen Struktur ähnlicher Dokumente können Suchanfragen-Verfeinerungen abstrahiert werden. So kann aus einem Dokument zum Autor Joseph Heller vorkommenden Satz „Joseph Heller wrote the influential novel catch 22 about americain serviceman in WW2.“ die Suchanfrage „joseph heller catch“ extrahiert werden.

 

Clustering query refinements by inferred user intent

Dieses Patent hat Google im März 2016 erstmals gezeichnet und im Oktober 2017 unter einem aktualisierten Namen neu gezeichnet. Es besschrebt eine Methode wie Google Verfeinerungen von Suchanfragen erstellt um och besser herauszufinden was der Nutzer wirklich sucht. DieseVerfeinerungen sind die vereandten Suchanfragen, die  unterhalb der Suchergebnisse  erscheinen.

Diese Verfeinerungen sind insbesondere bei einer unklaren Nutzer-Absicht wichtig, um relevantere Ergebnisse und verwandte Suchanfragen auszuspielen. Dafür werden alle möglichen Suchanfragen Verfeinerungen in Cluster organisiert, die die unterschiedlichen Aspekte in Bezug auf die ursprüngliche Suchanfrage abbilden. Diese Aspekte bedürfen unterschiedlichen Suchergebnissen.

Das Clustering von Suchanfragen wird über ein Graphen-Konstrukt gelöst. Dabei werden sowohl sessionabhängige Beziehungen von Suchtermen zueinander, als auch die Abfrage von bestimmten Dokumenten berücksichtigt. Der Graph berücksichtigt effektiv sowohl die inhaltsbasierte Ähnlichkeit als auch die Ähnlichkeit des gemeinsamen Auftretens von Sitzungen, die aus den Anfrageprotokollen ermittelt wurden. Sprich es werden sowohl Kookkurrenzen von aufeinanderfolgenden Suchanfragen als auch das Klickverhalten analysiert.

In dem Graph werden die ursprüngliche Suchanfrage als auch die Verfeinerungen und die dazu passenden Dokumente als Knoten dargestellt. Zusätzliche Knoten stellen die als Kookkurrenzen sessioninternen vorkommenden verwandten Suchanfragen dar.  Alle dieser Knoten sind über Kanten verbunden.

Cluster von Suchanfragen-Verfeinerungen und Dokumenten können über Besuchs-Wahrscheinlichkeits-Vektor gebildet werden.

In Bezug auf die verwandten Suchanfragen findet man in dem Patent eine interessante Passage, die beschreibt wie die verwandten Suchanfragen generiert werden:

Related queries are typically mined from the query logs by finding other queries that co-occur in sessions with the original query. Specifically, query refinements, a particular kind of related queries, are obtained by finding queries that are most likely to follow the original query is a user session. For many popular queries, there may be hundreds of related queries mined from the logs using this method. However, given the limited available space on a search results page, search engines typically only choose to display a few of the related queries.

Für diesen Zweck liefert Google möglichst diverse verwandte Suchanfragen aus, die die wichtigsten Aspekte zu einer diversen ursprünglichen Suchanfrage repräsentieren. Zu der Suchanfrage „mars“ liefert Google folgende verwandte Suchanfragen aus:

Folgende Aspekte bzw. Entitäten werden durch die verwandten Suchanfragen repräsentiert:

  • Gottfried Wilhelm Leipzig (Philosoph)
  • Leibniz Universität (Bildungseinrichtung)
  • Leibniz Keks (Nahrungsmittel)

Diese Entitäten bilden Cluster. Das populärste Cluster scheint laut den Suchergebnissen der Philosoph gefolgt von der Bildungseinrichtung zu sein:

SERP für die Suchanfrage „leibniz“ bei allgemeinen Kontext

Interessant wird es wenn ich durch Verfeinerung der Suchanfrage zu „leibniz keks“ den Kontext verändere.

SERP bei der Suchanfrage „leibniz keks“

Sobald man den sessioninternen Fokus auf die Entität „Leibniz Keks“ legt verändern sich die SERPs für die obige Suchanfrage „leibniz“ wie folgt:

  • Man bekommt nicht mehr das Knoweldge Panel für den Philopsophen angezeigt, sondern für alle drei Entitäten „Spezifizierungsboxen“ (mehr dazu hier )
  • Auf Position 1 rankt nun das Ergebnis zum Leibniz Keks, während bei der vorheringen gleichen Suchanfrage der Wikipedia-Eintrag zum Philosophen gerankt hat.

SERP für „leibniz“ nach individuellen Kontext

Der Entitäten-Fokus hat sich bezogen auf meine individuelle Such-Session verschoben. Ab diesem Moment zählt nicht mehr die Populariät des Clusters bzw. der Entität, sondern meine persönliche pertintente Suchintention. (mehr zum Thema Relevanz und Pertinenz im Beitrag Relevanz, Pertinenz und Nützlichkeit bei Google ).

Spannend oder?

On-device query rewriting

Dieses Patent hat Google im April 2016 erstmals gezeichnet und im Oktober 2017 unter einem aktualisierten Namen neu gezeichnet. Es besschrebt eine Methode wie Suchanfragen basierend auf einem  Modell, das auf dem Client z.B. ein Smartphone gespeichert ist umgeschrieben, mit Kommentaren versehen und einer Kategorie zugeordnet wird.

Der große Vorteil an dieser Methode ist, dass die Fakten aus einer Entitäten-Datenbank wie z.B. dem Knowledge Graph zusätzlich angereichert werden können mit auf den individuellen Nutzer bezogenen Informationen wie z.B. Standort-Daten erweitert werden können. Dadurch lässt sich ein auf die individuelle Situation des Nutzers abgestimmte Antwort geben.

Associating an entity with a search query 

In diesem Patent, das 2016 Google zugesprochen wurde. geht es darum wie eine Entität in einer Suchanfrage erkannt werden kann bzw. wie Google erkennen kann, dass es sich überhaupt um eine Suchanfrage mit einer Entitäten-Referenz handelt. Zu diesem Patent gibt es auch noch eine weitere Version aus dem Jahr 2013.

Folgende Prozesschritte werden durch das Patent beschrieben:

    1. Empfangen einer Suchanfrage
    2. Identifizieren einer mit dem Suchterm verbundenen Entität
    3. Bereitstellen einer Entitätszusammenfassung, damit als Antwort auf die Suchanfrage passende Ergebnisse  anzeigt werden können. Die Zusammenfassung enthält sowohl relevante Informationen zur Entität als auch optionale zusätzliche Suchanfragen.
    4. Identifizieren der optionalen Entitätssuchanfrage und Verknüpfung mit der ausgewählten Option. (Mehr dazu im Patent ….)
    5. Identifizieren von zu den Entitäten oder der Entität passenden Dokumenten
    6. Identifizieren von weiteren Entitäten aus den ausgewählten Dokumenten
    7. Verbinden der Entität(en) mit der Suchanfrage
    8. Ermitteln eines Rankings für die Entitäten

Learning from User Interactions in Personal Search via Attribute Parameterization

Aus dem Jahr 2017 stammt die wissenschaftliche Abandlung „Learning from User Interactions in Personal Search via Attribute Parameterization“. Hier wird beschrieben, wie Google über die Analyse des Nutzerverhaltens mit einzelnen Dokumenten semantische Attributs-Beziehungen zwischen Suchanfragen sowie den angeklickten Dokumenten herstellen und sogar einen selbstlernenden Ranking-Algorithmus unterstützen könnte:

 

„The case in private search is different. Users usually do not share documents (e.g., emails or personal files), and therefore directly aggregating interaction history across users becomes infeasible. To address this problem, instead of directly learning from user behavior for a given [query, doc] pair like in web search, we instead choose to represent documents and queries using semantically coherent attributes that are in some way indicative of their content.
This approach is schematically described in Figure 2. Both documents and queries are projected into an aggregated attribute space, and the matching is done through that intermediate representation, rather than directly. Since we assume that the attributes are semantically meaningful, we expect that similar personal documents and queries will share many of the same aggregate attributes, making the attribute level matches a useful feature in a learning-to-rank model.“

Improving semantic topic clustering for search queries with word co-occurrence and bipartite graph co-clustering

Eine weitere wissenschaftliche Arbeit aus dem Hause Google gibt einige interessante Insights dazu, wie Google heutzutage wahrscheinlich Suchanfragen in verschiedene thematische Bereiche einteilt.

In diesem Dokument werden zwei Methoden vorgestellt, die Google nutzt, um Suchanfragen kontextuell einzuordnen. Beim Word Co-occurrence Clustering spielen sogenannte Lift Scores eine zentrale Rolle:

Formel für die Berechnung des Lift Score

„Wi“ steht in der Formel für alle Begriffe in engen Bezug zum Wortstamm stehen wie Fehlschreibweisen, Mehrzahl, Einzahl oder Synonyme.

„a“ kann jegliche Nutzerinteraktion wie die Suche nach einem bestimmten Suchbegriff oder der Besuch einer bestimmten Seite sein.

Wenn der Lift-Score z.B. 5 ist, ist die Wahrscheinlichkeit, dass „Wi“ gesucht wird, 5 mal so hoch als dass „Wi“ generell gesucht wird.

„A large lift score helps us to construct topics around meaningful rather than uninteresting words. In practice the probabilities can be estimated using word frequency in Google search history within a recent time window.“

Über diesen Weg lassen sich dann Begriffe bestimmten Entitäten wie z.B. Mercedes und/oder bei Suchen nach Autoersatzteilen der thematischen Kontextklasse „Auto“ zugeordnet werden. Der Kontextklasse und/oder Entität können dann weiterhin Begriffe zugeordnet werden, die oft als Kookkurrenzen zu den Suchbegriffen vorkommen. So lässt sich auf schnellem Weg eine Begriffswolke zu einem bestimmten Thema aufbauen. Die Höhe des Lift Scores bestimmt die Affinität zum Thema:

„We use lift score to rank the words by importance and then threshold it to obtain a set of words highly associated with the context.“

Diese Methode kann insbesondere dann eingesetzt werden, wenn „Wi“ bereits bekannt ist, wie z.B. bei Suchbegriffen nach bereits bekannten Marken oder Kategorien. Ist „Wi“ nicht klar zu definieren, da die Suchbegriffe des gleichen Themas zu unterschiedlich sind, könnte sich Google einer zweiten Methode bedienen – dem „Weighted bigraph clustering“.

Diese Methode beruht auf zwei Annahmen.

  1. Nutzer mit der gleichen Absicht formulieren ihre Suchanfragen unterschiedlich. Dennoch werden von Suchmaschinen die gleichen Suchergebnisse ausgegeben.
  2. Umgekehrt werden zu einer Suchanfrage auf den ersten Suchergebnissen ähnliche URLs ausgegeben.

Bei dieser Methode werden die Suchbegriffe mit den Top-rankenden URLs verglichen und Anfrage / URL-Paare gebildet, deren Beziehung zusätzlich nach den Klickraten der Nutzer und Impressionen gewichtet werden.  Über diesen Weg lassen sich Ähnlichkeiten auch zwischen den Suchbegriffen herstellen, die nicht den gleichen Wortstamm besitzen und daraus semantische Cluster bilden.

Evaluating semantic interpretations of a search query

Dieses Google Patent wurde im Juli 2019 vorgestellt und beschreibt eine Methode wie unterschiedliche semantische Bedeutungen bei einer Suchanfrage ermittelt werden können. Dabei ist jede semantische Interpretation verknüpft mit einer anderen kanonischen  Suchanfrage. Die aktuelle Suchanfrage wird basierend auf dieser und dem kanonischen Suchterm modifiziert

Ähnlich dem bereits erwähnten Patent bezüglich der semantischen Annotationen sind die modifizierten Suchterme bereits mit einer semantischen Bedeutung kommentiert. Durch den Vergleich der Suchergebnisse für die ursprüngliche Suchanfrage und denen für die modifizierte können sowohl mögliche semantische Bedeutungen validiert als auch in Relation gewichtet werden. Der Grad der Ähnlichkeit der Suchergebnisse bestimmt die Nähe. Der Grad der Ähnlichkeit basiert auf der Häufigkeit des Auftretens bestimmter Keywords, die mit der bestimmten Suchanfrage in den modifizierten Suchergebnissen verknüpft sind. Eine größere Häufigkeit des Auftretens von Keywords kann beispielsweise darauf hinweisen, dass die geänderte Suchanfrage mit größerer Wahrscheinlichkeit der semantischen Bedeutung entspricht.


In einigen Fällen können andere Daten, wie z. B. die Klickrate des Benutzers, Website-Traffic-Daten oder andere Daten, verwendet werden, um eine wahrscheinliche semantische Interpretation zu interpretieren.

 

Query Suggestions based on entity collections of one or more past queries

Ein weiteres Google Patent aus dem Juli 2019 beschreibt eine Methode, wie Google Suggest Vorschläge aus vergangenen Suchanfragen generieren kann. Auch hier spielen Entitäten eine Rolle. Entitäten, die in Beziehung zu den in den bisherigen Suggest-Vorschlägen vorkommenden Entitäten oder in der Vergangenheit gesuchten Entitäten in Beziehung stehen sind die Basis für die Bestimmung einer Ähnlichkeits-Messzahl für die Bestimmung neuer Suggest-Vorschläge.

Weitere Google-Patente für die Entitäten-basierte Interpretation von Suchanfragen

 

Rankbrain ist ein Entitäten-basierter Search Query Processor

Als Google im Jahr 2015 die Einführung von Rankbrain für die bessere Interpretation von Suchanfragen bekannt gegeben hat gab es eine Vielzahl von Vermutungen und Meinungen aus der SEO-Branche. Es wurde z.B. von der Geburtsstunde von Machine Learning bzw. KI bei Google gesprochen. Wie in meinem Beitrag Bedeutung von Machine Learning, AI & Rankbrain für SEO & Google erläutert beschäftigt sich Google bereits seit 2011 im Rahmen des Projekts Google Brain intensiv mit Deep Learning. Rankbrain war allerdings die erste offizielle Bestätigung seitens Google, dass Machine Learning auch in der Google Suche eingesetzt wird.

Die wohl präzisesten Informationen von Google zu Rankbrain bisher gab es im Bloomberg Interview  aus Oktober 2015.

Eine Aussage in dem Interview sorgte für viele Missverständnisse um Rankbrain.

RankBrain is one of the “hundreds” of signals that go into an algorithm that determines what results appear on a Google search page and where they are ranked. In the few months it has been deployed, RankBrain has become the third-most important signal contributing to the result of a search query.

Viele SEO-Medien haben die Aussage so interpretiert, dass Rankbrain einer der drei wichtigsten Rankingfaktoren ist. Aber ein Signal ist kein Faktor. Rankbrain hat einen großen Einfluss darauf wie die Suchergebnisse ausgewählt und geordnet werden ist aber kein Faktor wie z.B. bestimmte Bestandteile eines Inhalts oder Links.

In diesem Interview gibt es eine weitere interessante Aussage:

RankBrain uses artificial intelligence to embed vast amounts of written language into mathematical entities — called vectors — that the computer can understand. If RankBrain sees a word or phrase it isn’t familiar with, the machine can make a guess as to what words or phrases might have a similar meaning and filter the result accordingly, making it more effective at handling never-before-seen search queries.

Bei Rankbrain werden Entitäten in einer Suchanfrage identifiziert und mit den Fakten aus dem Knowledge Graph abgeglichen. Insofern die Begriffe mehrdeutig sind findet Google über Vektorraumanalysen heraus welche der möglichen Entitäten am besten zum Begriff passen. Dabei sind die umliegenden Wörter im Suchterm ein erstes Indiz für die Ermittlung des Kontext. Das mag auch auch ein Grund sein warum Rankbrain u.a. für Longtail-Suchanfragen zum Einsatz kommt.

Das Problem  in der Pre-Rankbrain-Zeit war die fehlende Skalierbarkeit bei der Identifikation und Anlage von Entitäten im Knowledge Graph. Der Knowledge Graph basiert aktuell noch in erster Linie aus Informationen aus Wikidata, die durch Wikipedia-Entitäten verifiziert werden und Wikipedia selbst – also  manuell gepflegte und dadurch eher statisches und damit nicht skalierbares System.

“Wikipedia is often used as a benchmark for entity mapping systems . As described in Subsection 3.5 this leads to sufficiently good results, and we argue it would be surprising if further effort in this area would lead to reasonable gains.”
Quelle: From Freebase to Wikidata – The Great Migration 

Mehr dazu findest Du in den anderen Teilen der Beitragsreihe:

Eine weitere sehr zu empfehlende Quelle für Informationen zur Funktionsweise der Google-Suche aus erster Hand ist der bereits in einem anderen Beitrag erwähnte Vortrag von Paul Haahr auf der SMX West 2016.


Danny Sullivan fragte Jeff in der Q&A, wie RankBrain funktionieren könnte, um die Dokumentqualität oder -autorität festzustellen. Seine Antwort:

This is all a function of the training data that it gets. It sees not just web pages but it sees queries and other signals so it can judge based on stuff like that.

Das spannende an dieser Aussage ist, dass sie implizit ausdrückt, dass Rankbrain erst nach der Auswahl eines ersten Sets an Suchergebnissen eingreift.
Das ist eine wichtige Erkenntnis, da RankBrain die Suchanfrage nicht verfeinert, bevor Google nach Ergebnissen sucht, sondern erst danach.

Dann kann RankBrain die Abfrage möglicherweise verfeinern oder anders interpretieren, um die Ergebnisse für diese Abfrage auszuwählen und neu zu ordnen. Hier können wir den Bogen zu den bereits erwähnten Google-Patenten zur Verfeinerung der Suchanfragen ziehen, die höchstwahrscheinlich mit Rankbrain in Verbindung stehen.

Zusammengefasst: RankBrain ist ein Algorithmus basierend auf Deep Learning, der nach der Auswahl eines ersten Subsets an Suchergebnissen zum Einsatz kommt und sich auf Textvektoren  und andere Signale stützt, um komplexe Suchanfragen über Natural Language Processing besser zu verstehen.

 

Das Zusammenspiel aus Rankbrain, Hummingbird und Knowledge Graph

Ich denke, es wird klar, dass Google sich immer mehr zur Ad-hoc-Antwort-Maschine entwickelt und deswegen die Bedeutung einer Suchanfrage immer wichtiger wird als die rein termbasierte Interpretation von Suchanfragen.

Bisherige Information Retrieval Methoden beschränken sich auf die in der Suchanfrage vorkommenden Begriffe und gleichen diese mit Inhalten ab in denen die einzelnen Begriffe vorkommen, ohne über eine Kontextuelle Verbindung der Begriffe zueinander zu berücksichtigen und darüber die eigentliche Bedeutung festzustellen.

Durch Innovationen wie Hummingbird und Rankbrain geht es im Kern darum gesuchte Entitäten über einen Abgleich mit einer Entitäten-Datenbank (Knowledge Graph) zu identifizieren, über die Beziehung der relevanten Entitäten zueinander einen Kontext und darüber die Bedeutung von Suchanfragen und Dokumenten zu erkennen.

Dieses Umdenken im Information Retrieval bei Google war der Grund für die Einführung des Knowledge Graph, das Hummingbird Update im Jahr 2013 und Rankbrain im  Jahr 2015. Diese Reihe von Innovationen stehen im direkten Zusammenhang miteinander bzw. greifen prozessual ineinander.

 

 

  • Rankbrain ist für die Interpretation von Suchanfragen hinsichtlich Synonymität, Ambiguität, Sinn (Intention) und Bedeutung (Extension) zuständig. Gerade mit Blick auf neue Suchanfragen, Long Tail Keywords, mehrdeutige Begriffe sowie Abwicklung von Prozessen im Rahmen von Voice Search und digitalen Assistenten ist Rankbrain das zentrale Element im Query Processing.
  • Die im Knowledge Graph erfassten Entitäten und Fakten wie Attribute und Beziehungen der Entitäten untereinander können sowohl bei der Relevanzbestimmung von Ergebnissen als auch bei der Verarbeitung von Suchanfragen (Query Processing) genutzt werden, um z.B. Dokumente und Suchanfragen über Kommentare (Annotations) mit Fakten aus dem Knowledge Graph anzureichern. Dadurch kann die Bedeutung von Suchanfragen als auch Dokumenten bzw. von einzelnen Absätzen und Sätzen in Inhalten besser interpretiert werden.
  • Der Hummingbird-Algorithmus ist für das Clustering von Inhalten je nach Bedeutung sowie Zweck in unterschiedliche Korpusse und  für die Bewertung bzw. das Scoring der Ergebnisse hinsichtlich Relevanz also das Ranking zuständig.

Das verbindende Element bei allen drei Modulen sind Entitäten. Sie sind kleinste gemeinsame Nenner. Sowohl bei Rankbrain also auch Hummingbird spielen Vektorraumanalysen bzw. Word Embeddings als auch Natural Language Processing eine zentrale Rolle. Durch die Fortschritte in Sachen Machine Learning kann Google diese Methoden immer performanter nutzen, um sich  von einer rein textbasierten Suchmaschine zu einer semantischen Suchmaschine zu entwickeln.

Things not strings!

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Zudem engagiert sich Olaf Kopp als Dozent und Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, Norddeutschen Akademie, CMCx, OMT, OMX, Campixx… Er ist Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass auf termfrequenz.Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Social Media Marketing, Google AdWords sowie SEO. Seit 2012 stehen digitales Branding, Content-Marketing und semantische SEO im Fokus seines Interesses.

2 Kommentare

    Barbuia sagt:

    Whoa! Es war wirklich einfallsreich. Rankbrain könnte das Ranking ziemlich stark beeinflussen und das gesamte Level von SEO verändern. In der Tat eine großartige Informationsquelle. Danke für das Teilen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.