Was ist der Knowledge Graph? Definition & Funkionsweise
5 (100%) 2 votes
Der Knowledge Graph ist Googles semantische Datenbank. Hier werden Entitäten in Beziehung zueinander gestellt, mit Attributen versehen und in thematischen Kontext bzw. Ontologien gebracht. Dabei werden Entitäten Knoten und die Art und Weise wie diese Entitäten in Beziehung zueinander stehen als Kanten dargestellt.

Die Entwicklung des Knowledge Graph durch Google scheint eng mit dem Kauf der semantischen Wissens-Datenbank Freebase in Verbindung zu stehen. Ich bezeichne Freebase auch gerne als Spielplatz, über den Google die ersten Erfahrungen mit strukturierten Daten machen konnte.

Im Jahr 2012 führte Google  den Knowledge Graph ein, der anfangs u.a. durch die in Freebase gesammelten Daten und Wikipedia gespeist wurde. Heutzutage ist kann man davon ausgehen, dass auch weitere Quellen herangezogen werden um Informationen zu den Entitäten zu sammeln.

Das offene Projekt Freebase wurde 2014 beendet und in das geschlossene Projekt Wikidata überführt. Für die Darstellung einer Entitäten-Box prüft Google, ob ein Datensatz in Wikidata oder eine Seite bei Wikipedia vorhanden ist.

Mit der Einführung des Hummingbird-Ranking-Algorithmus lieferte Google 2013  den offiziellen Startschuss für den Aufbau einer semantischen Suchmaschine. Die Idee dahinter war, Inhalte jeglichen Formats selbst zu verstehen und auf jede Suchanfrage eine passende und qualitativ hochwertige Antwort zu geben. Die Basis ist eine neue Anordnung von Daten, die nun nicht mehr hierarchisch sondern netzwerkartig, also in Form von Graphen sortiert sind.

Die Geschichte des Knowledge Graph: Von der Hierarchie zum Netzwerk

(Dieser Abschnitt wurde von Svenja Hintz verfasst)

Die bisher bekannten Rankingfaktoren verlieren dadurch nicht ihre Gültigkeit, aber ihre Dominanz. Dr. Pete hat versucht diese neue Komplexität mit einer, in seinen Worten, eher schlechten Infografik abzubilden. Inwieweit diese Grafik der Wirklichkeit entspricht, weiß nur Google, aber sie vermittelt einen guten Überblick darüber wie vielschichtig der Prozess ist, der zur Beantwortung einer Suchanfrage führt. Vermutlich darf man sich das nicht als linearen Prozess vorstellen.

Google-Algorithmus-nach-Hummingbird

Google sammelt Informationen indem sie Webseiten und deren Inhalte crawlt, was nichts weiter bedeutet, als dass kleine Roboter den ganzen Tag damit beschäftigt sind durch das Netz zu krabbeln und alles aufzunehmen was in ihrem Blickfeld liegt. Ein bisschen wie die Google Street View Cars, Bikes und Trekker mit ihren 360° Kameras.

Die Crawler sammeln damit eine unvorstellbar große Datenmenge, die erst mal überhaupt nichts bedeutet bis sie indexiert wird. Google‘s Index ist quasi eine hauseigene Datenbibliothek, die zum Einsatz kommt, sobald ein Nutzer eine Suchanfrage stellt. Crawling und Indexierung sind deswegen die Grundvoraussetzung, um bei Google gefunden zu werden.

Gerade bei großen Plattformen und Shops, bei denen ständig neue Seiten hinzukommen, braucht es allein schon deswegen einen SEO der das im Blick behält, denn können Inhalte nicht gecrawlt werden, dann landen sie nicht im Index. Um allerdings auch bei den gewünschten Suchanfragen zu erscheinen, müssen sie richtig eingeordnet werden.

Erst waren es Kategorien

Um die gewünschten Informationen zu finden bedarf es einer sinnvollen, sauber geführten Ablage und jeder der schon mal einen Aktenschrank sortieren musste weiß, dass dahinter eine ganze Wissenschaft steht. Je mehr Leute diesen Aktenschrank füllen, desto größer die Gefahr, dass Dokumente falsch einsortiert und nie wieder gefunden werden, zumindest bei einer großen Menge. In den Anfängen des Internets, setzte man noch auf eine hierarchische Einordnung in Form von Kategorien.

Vom Grundsatz her ist nicht schlecht, wir sind das von Branchenverzeichnissen und Katalogen im Printformat oder Bibliotheken gewöhnt und das hat gut funktioniert, aber mit steigendem Datenwachstum wird es immer weniger praktikabel, denn um den einzelnen Webseiten und deren Inhalten gerecht zu werden entstehen Unterkategorien, Unterunterkategorien, Unterunterunterkategorien und so weiter.

Je größer der Datenbestand wird, desto unübersichtlicher wird es. Hinzu kommt die Gefahr von unterschiedlichen Auffassungen darüber, wie Dinge am sinnvollsten einsortiert werden. Wer auf der Suche nach einem Baseballschläger in München ist, der hätte in diesem Fall allein schon vier Einstiegsmöglichkeiten, die Sinn machen könnten: „Shopping“, „Regional“, „Recreation“ und „Sports“. Je nach Gehirnwindung des Nutzers macht das eine mehr und das andere weniger Sinn. Um einigermaßen Ordnung zu halten und eine gewisse Konsistenz zu erreichen, bedarf es menschlicher Moderation.

 

Dann kamen die Keywords

Doch das Internet wächst einfach zu schnell, als dass man es per Hand sortieren könnte. Eine Lösung sind Keywordbasierte Suchmaschinen. Anstatt sich durch mehrere Kategorieebenen zu klicken, gibt man einfach „Baseballschläger München“ in den Suchschlitz ein und bekommt eine Liste mit Links, die wiederum zu Webseiten führen. Der Keywordbasierte Ansatz löst das Problem der Mehrdeutigkeit von Kategorien und ermöglicht eine automatisierte Indexierung, zumindest solange die wichtigen Keywords suchmaschinenfreundlich zur Verfügung gestellt werden.

Googles Suchschlitz: Keywordbasierte Suche

Da man sich nun vorstellen kann, dass es mehr als eine Webseite gibt, die sich mit dem Thema „Baseballschläger München“ auseinandersetzt, braucht es eine ebenso automatisierte Möglichkeit, um die Informationen zu ranken. Suchmaschinen brauchen also eine Entscheidungsgrundlage, anhand derer sie bestimmen können, in welcher Reihenfolge die Webseiten anzeigt werden sollen. Zu den ursprünglichen Rankingfaktoren bei Google gehörten Keyworddichte (und später auch strategische Positionierung selbiger) und der PageRank, der aufgrund der Anzahl von Links die auf eine Webseite zeigen berechnet wurde. Die Annahme dahinter war, dass sich das Netz dadurch quasi selbst organisiert und Nutzer Links nur dann setzen würden, wenn das Ziel qualitativ hochwertig ist.

Die Idee des PageRank war so gut, dass Google schnell zu einer der beliebtesten Suchmaschinen wurde. Doch die Maschine konnte die Inhalte einer Seite selbst nicht verstehen und die Faktoren  Keyworddichte und PageRank waren leicht zu manipulieren. Mit einem künstlich aufgebauten Linknetzwerk, konnte man Google mit einem Text wie dem folgenden also leicht vormachen, dass er das beste Ergebnis für die Anfrage „Fahrrad Berlin“ bzw. „Fahrrad Berlin Schöneberg“ sei, auch wenn der Rest der Seite mit Werbeanzeigen für völlig andere Produkte versehen war. Automatisierter Spam wurde ein ernst zu nehmendes Problem und Google musste reagieren, um ihre Marktmacht zu halten.

Keywordoptimierter Text

Heute geht es um Entitäten

Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand von (einzelnen) Keywords indexiert, sondern sie möchte die Seiten als Entität verstehen, in meinem letzten Artikel habe ich das als Wesen mit Agenda bezeichnet. Google möchte die Hintergedanken einer Seite verstehen und ich vermute, dass sich das auf Domainebene abspielt. Das heißt, dass es nicht mehr (nur) darum geht, einzelne URLs zu besonders rentablen Keywords in den Index zu bringen, sondern dass sie eine Seite in ihrer Ganzheit betrachten möchte.

Die Entwicklung eines semantischen Verständnisses bei der Deutung von Suchanfragen als auch Dokumenten hängt eng mit der Fähigkeit zusammen Entitäten sowie deren Beziehungen zu anderen Entitäten zu identifizieren und diese in ein Konzept bzw. eine Ontologie einzuordnen. Mit Hilfe von verifizierten Datenquellen wie z.B. die Wikipedia ist dies möglich. Aber für die Menge an Suchanfragen und Dokumenten, die tagtäglich neu erstellt werden ist dieses Verfahren nur bedingt geeignet. U.a. deswegen hat Google seit einigen Jahren die Entwicklung von selbst lernenden Algorithemn bzw. Machine Learning vorangetrieben.

Mehr zum Thema Entitäten >>> Was ist eine Entität ? Was sind Entitäten ?

 

Der Knowledge-Graph: Von Keywords zu Entitäten

Suchmaschinen brauchen  eine Entscheidungsgrundlage, anhand derer sie bestimmen können, in welcher Reihenfolge die Webseiten anzeigt werden sollen. Zu den ursprünglichen Rankingfaktoren bei Google gehörten Keyworddichte (und später auch strategische Positionierung selbiger) und der PageRank, der aufgrund der Anzahl von Links die auf eine Webseite zeigen berechnet wurde. Später wurde die Keyworddichte durch komplexere textanalytische Verfahren wie TF-IDF bzw. WDF*IDF ersetzt.

Neben den Links liegt der Fokus bei der Suchmaschinenoptimierung aber weiterhin auf Keywords. Doch in den letzten Jahren merkt man, dass Humingbird auch durch den Einsatz von Machine Learning immer schlauer wird. Die Rankings orientieren sich nicht mehr ausschließlich um Keywords, die benutzt werden, sondern an Themen und Entitäten.

Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand von (einzelnen) Keywords indexiert, sondern sie möchte die Seiten im gesamten Kontext verstehen. Google möchte die Hintergedanken einer Seite verstehen und ich vermute, dass sich das auf Domainebene abspielt. Das heißt, dass es nicht mehr (nur) darum geht, einzelne URLs zu besonders rentablen Keywords in den Index zu bringen, sondern dass das Umfeld bzw. die gesamte Domain in ihrer Ganzheit als Ursprungs-Entität zu verstehen ist.

Woher bezieht Google die Knowledge-Graph-Infos?

Die Informationen zu den Entitäten und deren Beziehungen untereinander bezieht aus Google aus folgenden Quellen:

  • CIA World Factbook, Wikipedia / Wikidata (ehemals Freebase)
  • Google+ beziehungsweise Google My Business
  • Strukturierte Daten (schema.org)
  • Web-Crawling
  • Knowledge Vault
  • Lizensierte Daten
Datenquellen für Knowledge Graph, © Aufgesang Inbound Marketing 2017

Datenquellen für Knowledge Graph, © Aufgesang, 2017

Der Knowledge Graph ist Googles semantische Datenbank. Hier werden Entitäten in Beziehung zueinander gestellt, mit Attributen versehen und in thematischen Kontext bzw. Ontologien gebracht.

 

 

SEMrush
Verfasst von: Olaf Kopp
Datum: 6. Dezember 2018

Blog-Artikel zu diesem Thema

Artikelreihe: Semantische Suchmaschinenoptimierung (SEO)

Die Einführung der semantischen Suche durch das Hummingbird-Update im Jahre 2013 veränderte grundlegend die Google-Suche und dadurch die Nutzererfahrung bei Google. Hummingbird wird nicht ohne Grund als eins der größten Google Updates der Geschichte gesehen.Die Einführung des Knowledge Gra... Artikel anzeigen

Wie man seine Entität bei Google beanspruchen kann

In diesen Beitrag möchte ich eine Entdeckung mir Dir teilen, die ich bei Google gemacht habe. Google möchte wohl zukünftig, dass man seine eigene Entitäten-Box bzw. Knowledge-Panel bearbeiten beanspruchen und bearbeiten kann.Doch vorher muss man einen Verifizierungsprozess durchlaufen um die... Artikel anzeigen

Suchintention & Nutzerintention von Keywords

Die verschiedenen Keyword-Arten und die Identifikation der Suchintention bzw. Nutzerintention eines Keywords ist der wichtigste Schritte im Rahmen der Keyword-Analyse. Warum? Weil Landingpages bzw. Zielseiten dem Zweck gemäß der Suchintention entsprechen sollten. Nachfolgend einige Erläuterung... Artikel anzeigen

SERPs in den SERPs: Die Entitäten-Box bei Google

 Bei der Suchmaschinenoptimierung dreht sich alles um die Sichtbarkeit in den Suchergebnissen. Und da ist seit einigen Jahren eine Menge los. Panda und Pinguin haben die Spielregeln für das Ranking verändert und der Knowledge-Graph hat uns das Konzept der Entitäten gebracht.Im he... Artikel anzeigen

Branking: Notizen zur SEOptimierung des Selbst

Der wahre Preis von Anonymität ist Irrelevanz. Diese vielzitierte Aussage von Eric Schmidt klingt im Schatten von Geheimdienstaffären und Datenspeicherungen wie Hohn. Sie verrät uns aber eine Menge über Google und die Zukunft der Optimierung innerhalb der Suchmaschine.Es geht nicht mehr ... Artikel anzeigen