Was ist der Knowledge Graph? Definition & Funkionsweise
5 (100%) 4 votes
Der Knowledge Graph ist Googles semantische Datenbank. Hier werden Entitäten in Beziehung zueinander gestellt, mit Attributen versehen und in thematischen Kontext bzw. Ontologien gebracht. Dabei werden Entitäten Knoten und die Art und Weise wie diese Entitäten in Beziehung zueinander stehen als Kanten dargestellt.

Digitale Anwendungsgebiete von Graphen

In der Informatik wird die Graphen-Theorie dafür genutzt Beziehungen zwischen Objekten darzustellen und zu analysieren. Graphen sind damit ein wichtiges Instrument in der Netzwerkforschung.

Z.B. Facebook nutzt  den Social Graph, um die Beziehungen zwischen Profilen zu analysieren. Google nutzt schon lange den Link-Graph um Beziehungen zwischen Dokumenten und Websites zu analysieren und zu bewerten. Den Knowledge Graph nutzt Google um Beziehungen zwischen Entitäten abzubilden und zu analysieren.

Die Entwicklung des Knowledge Graph durch Google scheint eng mit dem Kauf der semantischen Wissens-Datenbank Freebase in Verbindung zu stehen. Ich bezeichne Freebase auch gerne als Spielplatz, über den Google die ersten Erfahrungen mit strukturierten Daten machen konnte.

Im Jahr 2012 führte Google  den Knowledge Graph ein, der anfangs u.a. durch die in Freebase gesammelten Daten und Wikipedia gespeist wurde. Heutzutage bezieht Google auch weitere Quellen heran um Informationen zu den Entitäten zu sammeln.

Das offene Projekt Freebase wurde 2014 beendet und in das geschlossene Projekt Wikidata überführt. Für die Darstellung einer Entitäten-Box prüft Google, ob ein Datensatz in Wikidata oder eine Seite bei Wikipedia vorhanden ist.

 

Mit der Einführung des Hummingbird-Ranking-Algorithmus lieferte Google 2013  den offiziellen Startschuss für den Aufbau einer semantischen Suchmaschine. Die Idee dahinter war, Inhalte jeglichen Formats selbst zu verstehen und auf jede Suchanfrage eine passende und qualitativ hochwertige Antwort zu geben. Die Basis ist eine neue Anordnung von Daten, die nun nicht mehr hierarchisch sondern netzwerkartig, also in Form von Graphen sortiert sind.

Vom Entitäten-Katalog zum Knowledge Graph

Als Grundlage für den Knowledge Graph dienen drei Ebenen:

  • Entitäten-Katalog: Hier werden alle Entitäten gespeichert, die mit der Zeit identifiziert worden sind.
  • Knowledge Respository: Die Entitäten werden in einem Wissens-Depot (Knowledge Repository) mit den Informationen bzw. Attributen aus den verschiedenen Quellen zusammengeführt. Im Knowledge Repository geht es in erster Linie um die Zusammenführung und Speicherung von Beschreibungen und die Bildung semantischer Klassen bzw. Gruppen in Form von Entitäts-Typen. Googles Knowledge Repository ist aktuell der Knowledge Vault.
  • Knowledge Graph:  Im Knowledge Graph werden die  Entitäten mit Attributen ergänzt und Beziehungen zwischen den Entitäten hergestellt .

 

Aus welchen wichtigen Elementen besteht der Knowledge Graph?

Die grundsätzliche Struktur von Graphen besteht aus sogenannten Knoten und Kanten. Bezogen auf den Knowledge Graph sind die Knoten die Entitäten und die Kanten beschreiben die Art der Beziehung zwischen diesen Entitäten. Entitäten werden beschrieben durch eine Bezeichnung bzw. einem Namen und verschiedenen Attributen bzw. Eigenschaften.

Im folgenden Beispiel sind „Australien“ und „Canberra“ die Entitäten und der Wert „Hauptstadt“ beschreibt die Art der Beziehung.

Diese Grafik sagt nichts anderes aus als: „Canberra ist die Hauptstadt von Australien.“

Man kann diesen Zusammenhang auch grammatikalisch so darstellen. Canberra ist das Objekt, Australien das Subjekt und (ist die)Hauptstadt ist das Prädikat. Die Beziehungsart kann aber auch durch ein Verb beschrieben werden wie „Thomas Müller spielt für Bayern München.“ Objekt und Subjekt sind demnach immer Entitäten. Das Prädikat kann ein Entitäts-Typ oder -Klasse, ein Attribut ein Verb oder eine Kombination aus allen sein.

Aber der Knowledge Graph ist mehr als eine Darstellung der Beziehung zwischen Entitäten. Er ist eine riesige Datenbank, in der Google das Wissen rund um Entitäten sammelt. Deswegen gibt es noch weitere Informationen, die im Knowledge Graph erfasst werden:

  • Attribute (Eigenschaften)
  • Entitätstypen und -Klassen

 

Der Knowledge-Graph: Von Keywords zu Entitäten

Suchmaschinen brauchen  eine Entscheidungsgrundlage, anhand derer sie bestimmen können, in welcher Reihenfolge die Webseiten anzeigt werden sollen. Zu den ursprünglichen Rankingfaktoren bei Google gehörten Keyworddichte (und später auch strategische Positionierung selbiger) und der PageRank, der aufgrund der Anzahl von Links die auf eine Webseite zeigen berechnet wurde. Später wurde die Keyworddichte durch komplexere textanalytische Verfahren wie TF-IDF bzw. WDF*IDF ersetzt.

Neben den Links liegt der Fokus bei der Suchmaschinenoptimierung aber weiterhin auf Keywords. Doch in den letzten Jahren merkt man, dass Humingbird auch durch den Einsatz von Machine Learning immer schlauer wird. Die Rankings orientieren sich nicht mehr ausschließlich um Keywords, die benutzt werden, sondern an Themen und Entitäten.

Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand von (einzelnen) Keywords indexiert, sondern sie möchte die Seiten im gesamten Kontext verstehen. Google möchte die Hintergedanken einer Seite verstehen und ich vermute, dass sich das auf Domainebene abspielt. Das heißt, dass es nicht mehr (nur) darum geht, einzelne URLs zu besonders rentablen Keywords in den Index zu bringen, sondern dass das Umfeld bzw. die gesamte Domain in ihrer Ganzheit als Ursprungs-Entität zu verstehen ist.

Woher bezieht Google die Knowledge-Graph-Infos?

Die Informationen zu den Entitäten und deren Beziehungen untereinander kann Google  aus folgenden Quellen beziehen:

Datenquellen für den Knowledge Graph

Quellen für unstrukturierte Daten

Quellen aus denen Google theoretische unstrukturierte Informationen zu Entitäten extrahieren kann sind

  • Normale Web-Seiten via Crawling
  • Suchanfragen
  • unstrukturierte Datenbanken und Datensets

Dabei spielt der Knowledge Vault eine besondere Rolle. Dazu in einem Folgebeitrag mehr.

Quellen für semistrukturierte Daten

Semistrukturierte Informationen kann Google aus Enzyklopädien wie z.B. Wikipedia, die eine systematische Struktur besitzen. Dazu gehe ich in einem Folgebeitrag detaillierter ein.

Quellen für strukturierte Daten

Über semantische Datenbanken und Datensets kann Google strukturierte Daten direkt z.B. via API übernehmen und für den Knowledge Graph nutzen. Folgende Datenbanken sind dafür möglich:

  • Wikidata (ehemals Freebase)
  • Google My Business
  • CIA World Factbook
  • DBpedia
  • YAGO
  • Webseiten mit strukturierten Daten via Microdata, RDFa und JSON-LD
  • Lizensierte Daten
  • CIA World Factbook
  • Datensets

 

Die Verarbeitung von strukturierten Daten für den Knowledge Graph

Die Anlaufstelle Nummer Eins für Google um Informationen zu Entitäten zu bekommen  sind Quellen über die sie strukturierte Daten bereitgestellt werden.

In diesem Beitrag werde ich mich nur mit dieser Art von Datenquellen beschäftigen. Auf die weitaus komplexere Methodik unstrukturierte Daten und semistrukturierte Daten wie z.B. aus der Wikipedia zu extrahieren werde ich in Folgebeiträgen eingehen.

Die strukturierten Daten kann Google über das Resource Description Framework kurz RDF erfassen. Eine Enität ist eine Zusammenfassung verschiedener RDF-Statements nach dem Muster Objekt-Prädikat-Subjekt. Ein Statement wäre z.B. „Canberra ist die Hauptstadt von Australien.“

 

Man kann diesen Zusammenhang auch grammatikalisch so darstellen. Canberra ist das Objekt, Australien das Subjekt und (ist die)Hauptstadt ist das Prädikat. Die Beziehungsart kann aber auch durch ein Verb beschrieben werden wie „Thomas Müller spielt für Bayern München.“ Objekt und Subjekt sind demnach immer Entitäten. Das Prädikat kann ein Entitäts-Typ oder -Klasse, ein Attribut ein Verb oder eine Kombination aus allen sein.

Die meisten strukturierten Datenbanken stellen die Informationen im maschinenlesbaren RDF-Format zur Verfügung bzw. lassen eine Übersetzung in dieses Format zu. Google greift auf Datenbanken zu, in die sie Vertrauen haben wie z.B. Wikidata, CIA World Factbook …, strukturierte Datensets oder Übersetzungs-Datenbanken wie z.B. DBpedia oder YAGO, die die Informationen der Wikipedia in maschinenlesbare Daten übersetzen.

Da die Datenbanken und Datensets mit strukturierten Daten verhältnismäßig nur sehr langsam wachsen und aktualisieren wundert es nicht, dass Google Webmaster immer wieder dazu animiert mit strukturierten Daten in ihren Websites zu arbeiten. Je mehr Google strukturierte Daten sammelt und verarbeitet, desto näher kommen sie dem Ziel auch unstrukturierte Daten verarbeiten zu können. Die strukturierten Daten funktionieren als Trainingsdaten für das maschinelle Lernen.

Dazu mehr in meinem Beitrag Warum strukturierte Daten für Google zukünftig überflüssig werden könnten.

 

Die Geschichte des Knowledge Graph: Von der Hierarchie zum Netzwerk

(Dieser Abschnitt wurde von Svenja Hintz verfasst)

Die bisher bekannten Rankingfaktoren verlieren dadurch nicht ihre Gültigkeit, aber ihre Dominanz. Dr. Pete hat versucht diese neue Komplexität mit einer, in seinen Worten, eher schlechten Infografik abzubilden. Inwieweit diese Grafik der Wirklichkeit entspricht, weiß nur Google, aber sie vermittelt einen guten Überblick darüber wie vielschichtig der Prozess ist, der zur Beantwortung einer Suchanfrage führt. Vermutlich darf man sich das nicht als linearen Prozess vorstellen.

Google-Algorithmus-nach-Hummingbird

Google sammelt Informationen indem sie Webseiten und deren Inhalte crawlt, was nichts weiter bedeutet, als dass kleine Roboter den ganzen Tag damit beschäftigt sind durch das Netz zu krabbeln und alles aufzunehmen was in ihrem Blickfeld liegt. Ein bisschen wie die Google Street View Cars, Bikes und Trekker mit ihren 360° Kameras.

Die Crawler sammeln damit eine unvorstellbar große Datenmenge, die erst mal überhaupt nichts bedeutet bis sie indexiert wird. Google‘s Index ist quasi eine hauseigene Datenbibliothek, die zum Einsatz kommt, sobald ein Nutzer eine Suchanfrage stellt. Crawling und Indexierung sind deswegen die Grundvoraussetzung, um bei Google gefunden zu werden.

Gerade bei großen Plattformen und Shops, bei denen ständig neue Seiten hinzukommen, braucht es allein schon deswegen einen SEO der das im Blick behält, denn können Inhalte nicht gecrawlt werden, dann landen sie nicht im Index. Um allerdings auch bei den gewünschten Suchanfragen zu erscheinen, müssen sie richtig eingeordnet werden.

Erst waren es Kategorien

Um die gewünschten Informationen zu finden bedarf es einer sinnvollen, sauber geführten Ablage und jeder der schon mal einen Aktenschrank sortieren musste weiß, dass dahinter eine ganze Wissenschaft steht. Je mehr Leute diesen Aktenschrank füllen, desto größer die Gefahr, dass Dokumente falsch einsortiert und nie wieder gefunden werden, zumindest bei einer großen Menge. In den Anfängen des Internets, setzte man noch auf eine hierarchische Einordnung in Form von Kategorien.

Vom Grundsatz her ist nicht schlecht, wir sind das von Branchenverzeichnissen und Katalogen im Printformat oder Bibliotheken gewöhnt und das hat gut funktioniert, aber mit steigendem Datenwachstum wird es immer weniger praktikabel, denn um den einzelnen Webseiten und deren Inhalten gerecht zu werden entstehen Unterkategorien, Unterunterkategorien, Unterunterunterkategorien und so weiter.

Je größer der Datenbestand wird, desto unübersichtlicher wird es. Hinzu kommt die Gefahr von unterschiedlichen Auffassungen darüber, wie Dinge am sinnvollsten einsortiert werden. Wer auf der Suche nach einem Baseballschläger in München ist, der hätte in diesem Fall allein schon vier Einstiegsmöglichkeiten, die Sinn machen könnten: „Shopping“, „Regional“, „Recreation“ und „Sports“. Je nach Gehirnwindung des Nutzers macht das eine mehr und das andere weniger Sinn. Um einigermaßen Ordnung zu halten und eine gewisse Konsistenz zu erreichen, bedarf es menschlicher Moderation.

 

Dann kamen die Keywords

Doch das Internet wächst einfach zu schnell, als dass man es per Hand sortieren könnte. Eine Lösung sind Keywordbasierte Suchmaschinen. Anstatt sich durch mehrere Kategorieebenen zu klicken, gibt man einfach „Baseballschläger München“ in den Suchschlitz ein und bekommt eine Liste mit Links, die wiederum zu Webseiten führen. Der Keywordbasierte Ansatz löst das Problem der Mehrdeutigkeit von Kategorien und ermöglicht eine automatisierte Indexierung, zumindest solange die wichtigen Keywords suchmaschinenfreundlich zur Verfügung gestellt werden.

Googles Suchschlitz: Keywordbasierte Suche

Da man sich nun vorstellen kann, dass es mehr als eine Webseite gibt, die sich mit dem Thema „Baseballschläger München“ auseinandersetzt, braucht es eine ebenso automatisierte Möglichkeit, um die Informationen zu ranken. Suchmaschinen brauchen also eine Entscheidungsgrundlage, anhand derer sie bestimmen können, in welcher Reihenfolge die Webseiten anzeigt werden sollen. Zu den ursprünglichen Rankingfaktoren bei Google gehörten Keyworddichte (und später auch strategische Positionierung selbiger) und der PageRank, der aufgrund der Anzahl von Links die auf eine Webseite zeigen berechnet wurde. Die Annahme dahinter war, dass sich das Netz dadurch quasi selbst organisiert und Nutzer Links nur dann setzen würden, wenn das Ziel qualitativ hochwertig ist.

Die Idee des PageRank war so gut, dass Google schnell zu einer der beliebtesten Suchmaschinen wurde. Doch die Maschine konnte die Inhalte einer Seite selbst nicht verstehen und die Faktoren  Keyworddichte und PageRank waren leicht zu manipulieren. Mit einem künstlich aufgebauten Linknetzwerk, konnte man Google mit einem Text wie dem folgenden also leicht vormachen, dass er das beste Ergebnis für die Anfrage „Fahrrad Berlin“ bzw. „Fahrrad Berlin Schöneberg“ sei, auch wenn der Rest der Seite mit Werbeanzeigen für völlig andere Produkte versehen war. Automatisierter Spam wurde ein ernst zu nehmendes Problem und Google musste reagieren, um ihre Marktmacht zu halten.

Keywordoptimierter Text

Heute geht es um Entitäten

Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand von (einzelnen) Keywords indexiert, sondern sie möchte die Seiten als Entität verstehen, in meinem letzten Artikel habe ich das als Wesen mit Agenda bezeichnet. Google möchte die Hintergedanken einer Seite verstehen und ich vermute, dass sich das auf Domainebene abspielt. Das heißt, dass es nicht mehr (nur) darum geht, einzelne URLs zu besonders rentablen Keywords in den Index zu bringen, sondern dass sie eine Seite in ihrer Ganzheit betrachten möchte.

Die Entwicklung eines semantischen Verständnisses bei der Deutung von Suchanfragen als auch Dokumenten hängt eng mit der Fähigkeit zusammen Entitäten sowie deren Beziehungen zu anderen Entitäten zu identifizieren und diese in ein Konzept bzw. eine Ontologie einzuordnen. Mit Hilfe von verifizierten Datenquellen wie z.B. die Wikipedia ist dies möglich. Aber für die Menge an Suchanfragen und Dokumenten, die tagtäglich neu erstellt werden ist dieses Verfahren nur bedingt geeignet. U.a. deswegen hat Google seit einigen Jahren die Entwicklung von selbst lernenden Algorithemn bzw. Machine Learning vorangetrieben.

Mehr zum Thema Entitäten >>> Was ist eine Entität ? Was sind Entitäten ?

 

Weitere Quellen zum Knowledge Graph

 

 

herausgegeben von: Olaf Kopp
Datum: 6. Dezember 2018

Blog-Artikel zu diesem Thema

Artikelreihe: Semantische Suchmaschinenoptimierung (SEO)

Die Einführung der semantischen Suche durch das Hummingbird-Update im Jahre 2013 veränderte grundlegend die Google-Suche und dadurch die Nutzererfahrung bei Google. Hummingbird wird nicht ohne Grund als eins der größten Google Updates der Geschichte gesehen.Die Einführung des Knowledge Gra... Artikel anzeigen

SEO-Aufgaben: Was macht ein(e) SEO-Manager(in)?

Suchmaschinenoptimierung hat sich in den letzten Jahren deutlich verändert. Dadurch auch die Arbeit für SEO-Manager und SEO-Verantwortliche. In diesem Beitrag möchte ich eine Übersicht über die wichtigsten Aufgaben eines(einer) SEO-Managers/in bei der taktischen und strategischen Suchmaschineno... Artikel anzeigen

Wie man seine Entität bei Google beanspruchen kann

In diesen Beitrag möchte ich eine Entdeckung mir Dir teilen, die ich bei Google gemacht habe. Google möchte wohl zukünftig, dass man seine eigene Entitäten-Box bzw. Knowledge-Panel bearbeiten beanspruchen und bearbeiten kann.Doch vorher muss man einen Verifizierungsprozess durchlaufen um die... Artikel anzeigen

Suchintention & Nutzerintention von Keywords

Die verschiedenen Keyword-Arten und die Identifikation der Suchintention bzw. Nutzerintention eines Keywords ist der wichtigste Schritte im Rahmen der Keyword-Analyse. Warum? Weil Landingpages bzw. Zielseiten dem Zweck gemäß der Suchintention entsprechen sollten. Nachfolgend einige Erläuterung... Artikel anzeigen

SERPs in den SERPs: Die Entitäten-Box bei Google

 Bei der Suchmaschinenoptimierung dreht sich alles um die Sichtbarkeit in den Suchergebnissen. Und da ist seit einigen Jahren eine Menge los. Panda und Pinguin haben die Spielregeln für das Ranking verändert und der Knowledge-Graph hat uns das Konzept der Entitäten gebracht.Im he... Artikel anzeigen

Branking: Notizen zur SEOptimierung des Selbst

Der wahre Preis von Anonymität ist Irrelevanz. Diese vielzitierte Aussage von Eric Schmidt klingt im Schatten von Geheimdienstaffären und Datenspeicherungen wie Hohn. Sie verrät uns aber eine Menge über Google und die Zukunft der Optimierung innerhalb der Suchmaschine.Es geht nicht mehr ... Artikel anzeigen