Die Basis für das Google-Ranking waren bis 2013 Websites, deren Content, Keywords und Backlinks. Mit dem Hummingbird-Update und dem Google Knowledge Graph startete Google die eigene Transformation zur semantischen Suchmaschine. Entitäten spielen bei dieser Transformation mit Blick auf die Indexierung eine zentrale Rolle. Warum das so ist möchte ich in diesem fünften Teil meiner Artikelreihe zum Thema Semantik und Entitäten bei Google erläutern.

Entitäten-basierte Indexierung: Vom Content-First-Index zum Entity-First-Index

Zu erst einmal möchte ich mich mit einem sehr ausführlichen fünfteiligen Beitrag der amerikanischen Kollegin Cindy Krum auseinandersetzen, auf den mich der geschätzte Kollege Marcus Tandler hingewiesen hat (Danke dafür). Er bildet den Einstieg für meine weiteren Gedanken zu dem Thema Indexierung und Entitäten.

Cindy und ihr Team haben viele Tests und Untersuchungen durchgeführt, um zu beweisen, dass es Google immer mehr um das Verstehen von Entitäten geht. Sie bringt es in einen direkten Zusammenhang mit der Einführung des Mobile First Index. Im Zentrum ihrer Argumentation steht dabei die Sprache. Laut Cindy möchte Google unabhängig von der Sprache Entitäten verstehen.

 With Google’s new Entity based understanding, the language of the entity and content does not matter as much anymore – at least in some languages, and for some queries. Content can be clustered in the index based on the entity understanding, without being omitted because it is in the wrong language. Quelle: https://mobilemoxie.com/blog/query-language-phone-language-settings-physical-location-5-of-5/

Laut Cindys Vermutung basiert der neue Mobile Index auf den Informationen aus dem Knowledge Graph, weshalb sie ihm den Namen Entity First Index gibt.  Hier werden die Inhalte bzw. Dokumente und Entitäten, die mit der Haupt-Entität in Beziehung stehen der Haupt-Entität untergeordnet und danach in eine Entitäten- Hierarchie gebracht.

Quelle: https://mobilemoxie.com/blog/entity-first-indexing-mobile-first-crawling-1-of-5/

Die Beziehungen der Elemente untereinander werden nicht mehr basierend auf einem Link-Graph, sondern basierend auf dem Knowledge-Graph hergestellt. Der Link-Graph in der bisherigen Form wäre aufgrund der steigenden Anzahl an Inhalten und verschiedenen Plattformen irgendwann nicht mehr skalierbar.

Continuing to organize and surface content based on the Link Graph is just not scalable for Google’s long-term understanding of information and the web and it is definitely questionable in terms of the development of AI and multi-dimensional search responses that go beyond the browser…

Constantly crawling and indexing content based on something as easy to manipulate as the Link Graph and as fluid as language is hard, resource intensive, and inefficient for Google; And it would only grow more inefficient over time, as the amount of information on the web continues to grow.

Finally, most crucially for Google’s long term goals, Google would not be able to benefit from the multiplier effect that ‘aggregation of ALL the information’ could have for the volume of machine learning and artificial intelligence training data that could be processed by their systems, if only they could they could get around the problem of language  …  And this is why entities are so powerful!

Gerade auf mobilen Endgeräten soll damit ein möglichst individuelles auf den Kontext des Nutzers abgestimmtes Suchergebnis garantiert werden.

This new strategy of categorizing and re-indexing information is based on a Knowledge Graph-centered index that uses information from mobile devices to help Google serve the best results for the individual user… Quelle: https://mobilemoxie.com/blog/query-language-phone-language-settings-physical-location-5-of-5/

 

Ein weiterer Vorteil einer Indexierung basiert auf Entitäten wäre die Aufnahme und Verknüpfung von Inhalten, die nicht auf Domains oder URls basieren wie z.B. Apps.

  • Indexed content like apps, maps, videos, audio and personal content deep linked on a personal phone also fall into this category. (EX: app deep links or system deep links, like ones for contacts – The contacts utility is essentially just an app.) Remember that more and more content that people eagerly consume is not ON websites, even if it is purchased from websites – though this may change with the rise of PWAs.

So können auch solche Nicht-Domain-Entitäten einer Hauptentität wie z.B. einer Brand bzw. einem Unternehmen in einem gemeinsamen Index zugeordnet werden.

New strategies will include adding audio versions of text-only content, adding video and voice-interactive versions of content, and getting all these assets indexed and associated correctly with the main entity. They will also include optimizing non-website entities, like Knowledge Graph relationships to ensure that main entities are correctly correlated with the domain and all of its assets

Zudem ist die Bedeutung von Entitäten eindeutig unabhängig von der Sprache und Informationen zu Suchanfragen mit einer klaren Intention bezüglich der Entität können in Echtzeit in die jeweilige Sprache via der Translation API übersetzt und in Form eines Knowledge Graph Ergebnisses ausgegeben werden.

Overall, entities provide Google a better and deeper understanding of topics because they give Google the ability to easily develop connection and relationships between different topics (entities). Deeper understanding of an Entity and its relationships, in turn, gives Google the opportunity to potentially serve information about the Entity in any language (with live translation from the Google language APIs if necessary), since now the language has only a supportive role for the query – like a modifier. Whatever Entity Understanding and Entity Relationships Google learns in one language can automatically be translated to other languages, especially in Google-hosted, position-zero results like the Knowledge Graph… Quelle: https://mobilemoxie.com/blog/query-language-phone-language-settings-physical-location-5-of-5/

Bei Suchanfragen mit einer unklaren Suchintention spielt Google hingegen Sprachen unspezifischere und diversere Ergebnisse aus.

Bei der Identifikation der Sprache sollen laut den Untersuchungen insbesondere die Sprache der Suchanfrage als auch die Sprach-Einstellungen des Endgeräts, des Google-Kontos als auch GPS-Daten eine gewichtige Rolle spielen.

Since the change to Mobile-First Indexing, Google is relying more and more on the physical (GPS) location of the searcher and the searcher’s language settings on their phone or in their Google account, to direct the search results that are returned. This is a distinct shift towards more personalization in search results that Google has long been striving for…

The language of a query seems to be easier for Google to determine once the idea/concept has been indexed in the Knowledge Graph. Knowledge Graph association may make the intent is easy to detect – especially for movies, personalities, images, etc. We call this ‘direct intent’ because Google has a direct understanding of the query based on a Knowledge Graph entry. But during our testing we also noticed that queries without ‘direct intent,’ when the intent of a search query may be ambiguous or broad, Google returned results differently than it would have if a Knowledge Graph entry was present…

It seems that even though they may understand queries similarly in a variety of languages, they are probably using machine learning and click-data segmented by query language, to determine what ranks, regardless of the Phone Language or the location of the searcher…. Quelle: https://mobilemoxie.com/blog/query-language-phone-language-settings-physical-location-5-of-5/

Meine Thesen zum Thema Entitäten und Indexierung

Ich sehe einige Dinge etwas anders als Cindy und möchte das in diesem Abschnitt genauer erläutern. Ich habe dazu mal einige Tests in Anlehnung an den Untersuchungen aus Cindys Beitrag durchgeführt.

Sucht man mit den Kontoeinstellungen „Standort = Deutschland & Sprache=deutsch“ nach Präsident ergibt sich folgendes Bild:

Knwoledge Panel bei der Suchanfrage „präsident“ in Deutschland in deutscher Sprache

Es wird ein Knowledge-Panel bzw. Entitäten-Box für den aktuellen deutschen Bundespräsidenten angezeigt.

Ändert man die Einstellungen in „Standort = Vereinigte Staaten & Sprache=deutsch“ sieht das so aus:

Wörterbuch bei der Suchanfrage „präsident“ in den USA in deutscher Sprache

Bei den Einstellungen  „Standort = Vereinigte Staaten & Sprache=englisch“ sieht das so aus:

Knowledge Panel für Entitätstyp bei der Suchanfrage „präsident“ in den USA in englischer Sprache

Bei der deutschen Suchanfrage „präsident“ scheint Google Probleme zu haben die passende Entität zu identifizieren. Stattdessen wird ein Knowledge Panel für den Entitätstyp „president“ in ausgewählter Sprache ausgeliefert. Google weiß also zumindest, dass die Begriffe „präsident“ und „president“ sprachenspezifische Namen für den gleichen Entitätstyp sind. Die SERPs werden interessanterweise dennoch in deutsch ausgeliefert.

Meine Vermutung ist hier, dass Google mit den widersprüchlichen Signalen für Standort, Sprache und deutscher Suchanfrage keine Entität bzw. den aktuellen Präsidenten ausliefern möchte. Es ist nicht klar ob es sinnvoll ist den deutschen oder den amerikanischen Präsidenten auszuliefern. Google vermutet, dass man den Präsidenten der vereinigten Staaten sucht. Ist sich aber nicht sicher und bietet deswegen unterhalb des Knowledge Panel eine Verfeinerung der Suchanfrage an (Box: See results about).

Ein anderer Grund wäre, dass es laut der englischsprachigen Wikipedia noch eine zweite Entität, nämlich ein Automodell existiert.

Ändert man bei gleichen Einstellungen die Sprache der Suchanfrage, also macht aus „präsident“ „president“ ändert sich das Bild:

Knowledge Panel bei der Suchanfrage „president“ in den USA in englischer Sprache

Hier weiss Google genau, dass man nach der Entität Donal Trump als aktuellen Präsidenten der USA sucht. Sucht man nach „president“ mit deutscher Sprache und Standort Deutschland passiert folgendes:

Knowledge Panel bei der Suchanfrage „president“ mit Standort Deutschland und Sprache deutsch

Das finde ich spannend, da hier Google im Gegensatz zum umgekehrten Szenario genau weiss trotz widersprüchlicher Sprache der Suchanfrage welche Entität gemeint ist. Das spricht dafür das im Fall weiter oben die zweite Entität verantwortlich ist, dass keine Entitäten im Knowledge Panel ausgeliefert werden.

Zudem finden wir sehr viele englischsprachige Suchergebnisse in den SERPs.

Deswegen habe ich einen weiteren Test mit einer Entität mit einer eindeutigen Bezeichnung durchgeführt. Dazu habe ich die Suchanfrage „kaulquappe “ gewählt.

Bei Standort Deutschland und Sprache deutsch sieht das Ergebnis wenig überraschend aus:

Knowledge Panel bei der Suchanfrage „kaulquappe“ mit Standort Deutschland und Sprache deutsch

Bei Standort USA und Sprache englisch:

Knowledge Panel bei der Suchanfrage „kaulquappe“ mit Standort USA und Sprache englisch

Hier erkennt Google die nachgefragte Entität und übersetzt sie im Knowledge Graph gleich in die ausgewählte Sprache. Der ausgewählte Standort scheint  keine große Rolle zu spielen, sondern die Sprache. Die klassischen Suchergebnisse orientieren sich trotz der Kontoeinstellungen an der Sprache des eingegeben Begriffs.

Aus diesen Betrachtungen lassen sich verschiedene Thesen vermuten:

  1. der klassische Content Index und der Entitäten-Index bzw. Knowledge Graph, aus dem das Knowledge Panel mit Informationen befüllt wird funktionieren unabhängig voneinander. Während sich die klassischen Suchergebnisse stark am in der Suche eingegebenen Begriff ausrichten wird im Knowledge Panel, die jeweiligen Einstellungen zur Sprache im Google-Konto als Kriterium herangezogen. Das würde nicht mit der Annahme von Cindy übereinstimmen, dass es sich zur Zeit um einen einzigen Entity-First-Index handelt konform gehen. Es scheint mindestens zwei Indizes zu geben.
  2. Eine weitere Annahme ist, dass Google sich beim Knowledge Panel über den Entity-First-Ansatz  trotz widersprüchlicher Signale von Sprache der Suchanfrage und Sprache bzw. Land in den Kontoeinstellungen sprachunabhängig auf die Suchintention des Nutzers einstellen kann. Für die klassischen Suchergebnisse funktioniert das nicht.
  3. Wenn sich Google aufgrund mehrdeutiger Entitäten-Bezeichnungen nicht sicher ist, nach welcher Entität der Nutzer sucht schlägt Google verschiedene Such-Verfeinerungen vor, die eine klare Interpretation der Suchanfrage bzw. der gesuchten Entität zulässt.

Die Wichtigkeit der Translate API sehe ich wie Cindy ähnlich hoch. Einen direkten Bezug zwischen der Einführung des Mobile First Index sehe ich im Gegensatz zu Cindy aber nicht.

Laut einer kürzlichen Aussage von Google scheint der Link-Graph  immer noch die zentrale Rolle beim Ranking zu spielen nicht der Beziehungsgraph zwischen Entitäten, wie es Cindy vermutet.

So sagt John Müller in einem aktuellen Webmaster Hangout, dass problematische Websites aufgrund ihrer Verlinkungen zueinander als problematisch eingestuft werden können, aber nicht weil sie zu einem identischen Person oder Organisation gehören.

Übersetzt bedeutet es, dass nicht entscheidend ist zu welcher Entität die Websites zuzuordnen sind, sondern ob sie sich verlinken. Das würde Cindys These widerlegen, dass der Link-Graph durch den Entitäten-Beziehungs-Graph ersetzt wird.

Aber in der Grundaussage , dass Entitäten eine zentrale Rolle beim Indexieren als auch Ranking spielen teile ich auch schon länger, unabhängig vom Mobile First Index.

Für mich ist hier die Einführung des Hummingbird Updates der Startschuss für diese Entwicklung gewesen, mit dem Google offiziell die Einführung der semantischen Suche angekündigt hat und das den Knowledge Graph und damit Entitäten in den Fokus gerückt hat.

Der Knowledge Graph ist Googles Entitäten-Index und ich glaube auch, dass neben dem Knowledge Graph auch den klassischen Content-Index gibt. Möglich wäre eine Schnittstelle in der Content und Entitäten in einem Entity-First-Index zusammengeführt werden. Aufgrund der obigen Beobachtungen sehe ich das allerdings nicht.

Wahrscheinlicher ist, dass hier eine Schnittstelle Informationen zwischen dem klassischen Content-Index und dem Knowledge-Graph wechselseitig austauscht.

In dieser Entitäten-Inhalts-Schnittstelle geht es darum herauszufinden

  • Ob in einem Inhalt Entitäten vorkommen
  • ob es eine Hauptentität gibt von der der Inhalt handelt
  • welcher Ontologie oder welchen Ontologien die Hauptentität zugeordnet werden kann
  • zu welchem Urheber bzw. welcher Entität der Inhalt zuzuordnen ist
  • in welcher Beziehung, die im Inhalt vorkommenden Entitäten zueinander stehen
  • welche Eigenschaften bzw. Attribute den Entitäten zuzuordnen sind

So könnte das dann aussehen:

Mögliches Crawling und Indexing im Entitäten-Zeitalter (Vergrößern durch Klicken auf die Abbildung)

In einigen Google-Patenten wird auch immer wieder von einer Entity-Database geschrieben die neben einem Search-Index exististiert. Diese Entity-Database ist in Bezug auf Google offensichtlich der Knowledge Graph.

So heisst es im Google-Patent Entity database data aggregation :

an entity database storing an entity-relationship graph representing elements in the virtualization environment, wherein:
each of the elements is represented by an entity-type node in the entity-relationship graph,
relationships between the elements are represented by edges between the nodes, and
information regarding each of the entity-type nodes is accessible through a query interface.
Sehr ähnlich wird der Knowledge Graph offiziell von Google auch beschrieben. Interessant ist hier auch noch, dass hier von Entitätstypen als Knoten gesprochen wird und nicht von Entitäten selbst.
In dem Patent wird beschrieben, dass die Beziehungen zwischen den Entitäten-Typen, die jeweiligen Attribute, historische Statistiken für die Auswahl der Entitäten für die Auslieferung in Suchergebnissen herangezogen werden. Hier eine Illustration wie so eine Entitäten-Graph aussehen könnte:

Die Idee, dass einer Haupt-Entität z.B. Top-Level-Entität wie z.B. einer Person oder einem Unternehmen verschiedene Unter-Entitäten wie z.B. Websites, Inhalte oder Apps zugeordnet werden finde ich die spannendsten Impuls aus Cindys Beitrag. Diesen Ansatz findet man auch in dem Google-Patent Ranking nodes in a linked database based on node independence aus dem  Jahr 2013. Dort heisst es:

generate one or more clusters of affiliated nodes from the plurality of nodes,

where the affiliated nodes, of each cluster of affiliated nodes, are one or more of:

owned by a common entity, or
controlled by the common entity;

In der folgenden Abbildung aus dem Patent wird klarer was gemeint ist:

Clustering von Entitäten

Die Elemente 415 und 410 repräsentieren Cluster aus verschiedenen Knoten wie z.B. Dokumenten oder Websites. Diese Cluster werden gebildet aufgrund der Verlinkungen zwischen den Knoten oder wenn klar ist, dass die Knoten unter der Kontrolle der gleichen Organisation bzw. Entität sind.

In other words, ranking component 340 may determine that multiple nodes should be clustered when there is a high probability that all of the nodes are controlled by a single entity.

Ausschlaggebende Kriterien für das Clustering der Knoten können die Urheberschaft, die Graphenstruktur, Ähnlichkeit des Contents, manuelle festgelegte Informationen wie z.B. Meta-Angaben sein. Über diesen Weg ließen sich Elemente wie einzelne Beiträge und andere Content-Formate, Domains, Apps … Entitäten wie z.B. Unternehmen oder Personen zuordnen. Auch WHOIS-Informationen wären möglich, was nach der DSGVO aber nicht mehr so einfach ist.

Die Vorteile eines Entitäten-basierten Index

Da Entitäten in jedem Land und jeder Sprache nahezu die gleiche Bedeutung haben ist ein Entitäten-basierter Index aus Effizienz-Gründen schon mal ein großer Vorteil. Ein Löwe bedeutet in England das gleiche wie in Deutschland. Nur der Name ist je nach Landessprache divers. Löwe (deutsch), lion (englisch), leon (spanisch) … hat in jedem Land und jeder Sprache die gleiche Bedeutung.

Es geht um die Bedeutung und nicht um die Sprache. Das würde Google die Interpretation von Sprache deutlich vereinfachen. Wenn Google einmal die Bedeutung hinter einer Entität versteht ist sie in jeder Sprache erkennbar.

So kann Google z.B. für nen Knowledge Graph die Beschreibung der Entität der entsprechenden Nutzersprache ausliefern unabhängig davon ob lion, löwe oder leon eingegeben wird. Gerade in Sprachen die Google noch nicht so auf dem Schirm hat ein großer Vorteil. In Cindys Beitrag gibt es dazu einige interessante Tests.

Auch für die Bilder-Suche ein großer Vorteil. So könnte Google unabhängig von der Sprache die gleiche Bilder-Auswahl für die Suchanfragen löwe, lion, leon… ausliefern. Gerade bei Bildern ist es oft egal ob die Bilder nun von einer deutschen, englischen oder z.B. spanischen Website stammen.

Das funktioniert offensichtlich aktuell aber noch nicht. Das kann auch noch damit zusammenhängen, dass Google bei der Bilderkennung noch nicht so weit ist wie sie gerne wären.  Die Bilderkennung ist noch zu abhängig von Angaben wie das Textumfeld, Title- und Alt-Tags. Und diese Informationen sine meistens in der jeweiligen Sprache der Bild-Quelle.

Vornehmlich deutsche Bild-Quellen bei der Suchanfrage „löwe“

Vornehmlich deutsche Bild-Quellen bei der Suchanfrage „lion“

 

Herausforderungen beim Entitäten-basierten Indexieren

Ich denke, dass wir erst langsam die Auswirkungen in den SERPs zu spüren bekommen, da Google nur langsam beim Verstehen der Bedeutung einzelner Entitäten vorwärts kommt. Das Verständnis von Entitäten geschieht Top-Down nach Relevanz. Und die relevantesten Entitäten sind in Wikidata bzw. Wikipedia erfasst.

Die große Aufgabe wird es sein unbekanntere Entitäten zu identifizieren und zu verifizieren. Da kann man gespannt sein. Welche Kriterien Google für die Aufnahme einer Entität im Knowledge Graph prüft ist auch unklar.

Laut meiner Frage an John Müller soll da etwas kommen bzw. man arbeitet an einer einfacheren Möglichkeit Entitäten für jedermann anzulegen.

Ich glaube da haben wir keine klare Antwort. Ich denke da haben wir verschiedene Algorithmen die so etwas prüfen und dann nehmen wir verschieden Kriterien, um das Ganze zusammen zu fassen, auseinander zu ziehen und zu erkennen welche Sachen sind wirklich eigenständige Entitäten, welche sind nur Varianten oder weniger eigenständige Entitäten… Aber soweit ich das gesehen habe ist das etwas an dem wir arbeiten, um das Ganze ein bisschen auszubreiten und ich kann mir vorstellen, dass es dann auch einfacher wird, dass man im Knowledge Graph auch gezeigt wird. Aber was da genau die Pläne sind weiss ich jetzt nicht.

Ich denke John spricht hier die Entwicklungen an, auf die ich im Beitrag Wie man seine Entität bei Google beanspruchen kann beschrieben habe. Vielleicht wird es in Zukunft möglich sein über den beschriebenen Prozess auch neue Entitäten zur Prüfung einzureichen, um auch andere Entitäten neben denen in Wikipedia und Wikidata zu erfassen.

Zudem denke ich, dass hier Machine Learning bzw. die Natural Language Processing API noch eine entscheidende Rolle spielen wird so etwas automatisiert oder teilautomatisiert erledigen zu lassen.

Ich empfehle dennoch dringend sich die Zeit zu nehmen Cindy Krums Artikelreihe zu lesen.

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Zudem engagiert sich Olaf Kopp als Dozent und Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, Norddeutschen Akademie, CMCx, OMT, OMX, Campixx… Er ist Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass auf termfrequenz.Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Social Media Marketing, Google AdWords sowie SEO. Seit 2012 stehen digitales Branding, Content-Marketing und semantische SEO im Fokus seines Interesses.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.