• Tel.: 0511-92399944

Knowledge Graph: Google baut ein Gehirn

12.November 2013 - Inbound Marketing / Content Marketing, Machine Learning & Semantik, SEO (Suchmaschinenoptimierung) - Svenja Hintz

Mit der Bekanntgabe des neuen Algorithmus setzte Google 2013  den offiziellen Startschuss für den Aufbau einer semantischen Suchmaschine. Die Idee dahinter ist, Inhalte jeglichen Formats selbst zu verstehen und auf jede Suchanfrage eine passende und qualitativ hochwertige Antwort zu geben. Die Basis ist eine neue Anordnung von Daten, die nun nicht mehr hierarchisch sondern netzwerkartig, also in Form von Graphen sortiert sind. Auch wenn es verrückt klingt, aber Google entwickelt damit ein Gehirn das dem der Menschen immer ähnlicher wird.

Knowledge-Graph

Die Ähnlichkeit liegt vor allem im Aufbau. Das menschliche Gehirn besteht aus Millionen Neuronen, die durch Synapsen miteinander verbunden sind und ein Netzwerk bilden, mit dem wir Informationen sehr effizient verarbeiten können. Viele Prozesse laufen dabei unbewusst, also automatisiert ab (atmen und verdauen zum Beispiel), was uns je nach Rechenleistung zu sehr effizienten Wesen macht.

Das menschliche Gehirn besteht aus mehreren GehirnenIm Grunde besteht unser Gehirn aus mehreren Gehirnen, die sich um unterschiedliche Sachen kümmern und auch das hat Google sich abgeguckt. Denn der Algorithmus nutzt nicht nur den Knowledge Graph, sondern auch den Link Graph, Social Graph, Local Graph und Engagement Graph, um Daten zu verarbeiten.

 

Von der Hierarchie zum Netzwerk: eine Geschichte

 

Die bisher bekannten Rankingfaktoren verlieren dadurch nicht ihre Gültigkeit, aber ihre Dominanz. Dr. Pete hat versucht diese neue Komplexität mit einer, in seinen Worten, eher schlechten Infografik abzubilden. Inwieweit diese Grafik der Wirklichkeit entspricht, weiß nur Google, aber sie vermittelt einen guten Überblick darüber wie vielschichtig der Prozess ist, der zur Beantwortung einer Suchanfrage führt. Vermutlich darf man sich das nicht als linearen Prozess vorstellen.

Google-Algorithmus-nach-Hummingbird

Google sammelt Informationen indem sie Webseiten und deren Inhalte crawlt, was nichts weiter bedeutet, als dass kleine Roboter den ganzen Tag damit beschäftigt sind durch das Netz zu krabbeln und alles aufzunehmen was in ihrem Blickfeld liegt. Ein bisschen wie die Google Street View Cars, Bikes und Trekker mit ihren 360° Kameras.

Die Crawler sammeln damit eine unvorstellbar große Datenmenge, die erst mal überhaupt nichts bedeutet bis sie indexiert wird. Google‘s Index ist quasi eine hauseigene Datenbibliothek, die zum Einsatz kommt, sobald ein Nutzer eine Suchanfrage stellt. Crawling und Indexierung sind deswegen die Grundvoraussetzung, um bei Google gefunden zu werden.

Gerade bei großen Plattformen und Shops, bei denen ständig neue Seiten hinzukommen, braucht es allein schon deswegen einen SEO der das im Blick behält, denn können Inhalte nicht gecrawlt werden, dann landen sie nicht im Index. Um allerdings auch bei den gewünschten Suchanfragen zu erscheinen, müssen sie richtig eingeordnet werden.

 

Erst waren es Kategorien

 

Um die gewünschten Informationen zu finden bedarf es einer sinnvollen, sauber geführten Ablage und jeder der schon mal einen Aktenschrank sortieren musste weiß, dass dahinter eine ganze Wissenschaft steht. Je mehr Leute diesen Aktenschrank füllen, desto größer die Gefahr, dass Dokumente falsch einsortiert und nie wieder gefunden werden, zumindest bei einer großen Menge. In den Anfängen des Internets, setzte man noch auf eine hierarchische Einordnung in Form von Kategorien.

Vom Grundsatz her ist nicht schlecht, wir sind das von Branchenverzeichnissen und Katalogen im Printformat oder Bibliotheken gewöhnt und das hat gut funktioniert, aber mit steigendem Datenwachstum wird es immer weniger praktikabel, denn um den einzelnen Webseiten und deren Inhalten gerecht zu werden entstehen Unterkategorien, Unterunterkategorien, Unterunterunterkategorien und so weiter.

Je größer der Datenbestand wird, desto unübersichtlicher wird es. Hinzu kommt die Gefahr von unterschiedlichen Auffassungen darüber, wie Dinge am sinnvollsten einsortiert werden. Wer auf der Suche nach einem Baseballschläger in München ist, der hätte in diesem Fall allein schon vier Einstiegsmöglichkeiten, die Sinn machen könnten: „Shopping“, „Regional“, „Recreation“ und „Sports“. Je nach Gehirnwindung des Nutzers macht das eine mehr und das andere weniger Sinn. Um einigermaßen Ordnung zu halten und eine gewisse Konsistenz zu erreichen, bedarf es menschlicher Moderation.

 

Dann kamen die Keywords

 

Doch das Internet wächst einfach zu schnell, als dass man es per Hand sortieren könnte. Eine Lösung sind Keywordbasierte Suchmaschinen. Anstatt sich durch mehrere Kategorieebenen zu klicken, gibt man einfach „Baseballschläger München“ in den Suchschlitz ein und bekommt eine Liste mit Links, die wiederum zu Webseiten führen. Der Keywordbasierte Ansatz löst das Problem der Mehrdeutigkeit von Kategorien und ermöglicht eine automatisierte Indexierung, zumindest solange die wichtigen Keywords suchmaschinenfreundlich zur Verfügung gestellt werden.

Googles Suchschlitz: Keywordbasierte Suche

Da man sich nun vorstellen kann, dass es mehr als eine Webseite gibt, die sich mit dem Thema „Baseballschläger München“ auseinandersetzt, braucht es eine ebenso automatisierte Möglichkeit, um die Informationen zu ranken. Suchmaschinen brauchen also eine Entscheidungsgrundlage, anhand derer sie bestimmen können, in welcher Reihenfolge die Webseiten anzeigt werden sollen. Zu den ursprünglichen Rankingfaktoren bei Google gehörten Keyworddichte (und später auch strategische Positionierung selbiger) und der PageRank, der aufgrund der Anzahl von Links die auf eine Webseite zeigen berechnet wurde. Die Annahme dahinter war, dass sich das Netz dadurch quasi selbst organisiert und Nutzer Links nur dann setzen würden, wenn das Ziel qualitativ hochwertig ist.

Die Idee des PageRank war so gut, dass Google schnell zu einer der beliebtesten Suchmaschinen wurde. Doch die Maschine konnte die Inhalte einer Seite selbst nicht verstehen und die Faktoren  Keyworddichte und PageRank waren leicht zu manipulieren. Mit einem künstlich aufgebauten Linknetzwerk, konnte man Google mit einem Text wie dem folgenden also leicht vormachen, dass er das beste Ergebnis für die Anfrage „Fahrrad Berlin“ bzw. „Fahrrad Berlin Schöneberg“ sei, auch wenn der Rest der Seite mit Werbeanzeigen für völlig andere Produkte versehen war. Automatisierter Spam wurde ein ernst zu nehmendes Problem und Google musste reagieren, um ihre Marktmacht zu halten.

Keywordoptimierter Text

Mehr zum Thema Das Google-Ranking im Wandel: Ranking-Kriterien & SEO gestern, heute und Zukunft .

sem-deutschland.de/wp-admin/post.php?post=13526&action=edit“>

Jetzt gibt es Entitäten

 

Um Spam in den Suchergebnissen zu eliminieren ergriff Google Maßnahmen in Form von Algorithmus Updates wie Panda und Pinguin. Damit sollten Linknetzwerke und Contentfarmen automatisiert erkannt und abgewertet werden, was an manchen Stellen besser, an anderen weniger gut funktionierte. Vor allem aber dauerte es nicht lange, bis die Idee des negativen SEO aufkam, also zum Beispiel diese bereits vorhanden Linknetzwerke zu nutzen, um anderen Webseiten zu schaden. Google reagierte darauf mit dem Disavowal Tool um Webmastern die Möglichkeit zu geben, sich von dubiosen Links zu distanzieren.

Eins war klar, dem Katz und Maus Spiel zwischen Suchmaschinen und Suchmaschinenoptimieren wurde damit kein Ende gesetzt. Da es sich bei Google um eine programmierte Maschine und nicht um einen unberechenbaren Menschen handelt, gibt es eigentlich nur zwei Möglichkeiten: sich auf ein Rennen einzulassen, indem sie höchstens einen Schritt vor den anderen sein kann oder Reverse Engineering so aufwendig zu machen, dass es wirtschaftlicher ist White Hat Methoden anzuwenden. Schon seit vielen Jahren versucht sie letzteres, aber seit Hummingbird hebt sie das Rankingspiel offiziell auf ein neues Level, denn sie bedient sich den Theorien der Semantik, Graphen und der künstlichen Intelligenz.

Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand von (einzelnen) Keywords indexiert, sondern sie möchte die Seiten als Entität verstehen, in meinem letzten Artikel habe ich das als Wesen mit Agenda bezeichnet. Google möchte die Hintergedanken einer Seite verstehen und ich vermute, dass sich das auf Domainebene abspielt. Das heißt, dass es nicht mehr (nur) darum geht, einzelne URLs zu besonders rentablen Keywords in den Index zu bringen, sondern dass sie eine Seite in ihrer Ganzheit betrachten möchte.

Es geht um nichts anderes, als das was die Leute mit den weißen Hüten schon seit Jahren empfehlen: baue eine konsistente Marke auf und werde Experte auf deinem Gebiet, erreiche dies mit qualitativ hochwertigen Inhalten, die echten Nutzen bieten. Deswegen gewinnen Content Marketing und digitale PR immer größere Bedeutung und das Gold liegt in der Wechselwirkung zwischen SEO und PR. Grob beschrieben besteht die semantische Suche aus den drei Teilbereichen, die David Amerland in seinem Buch Google Semantic Search in folgender Grafik beschreibt:

Grundbausteine der semantischen Suche

Um Entitäten zu verstehen, wird ihnen ein Uniform Resource Identifier (URI) zugewiesen. Das kann eine URL sein oder eine willkürliche Zahlenreihe, wie man sie von Freebase kennt. (Freebase dient übrigens als eine Ressource für Google’s Wissen) Dort ist der Sänger Prince unter /m/01/wycq bekannt. Der Grund warum eine Zahlenreihe mehr Sinn macht, als zum Beispiel ein Name ist die mögliche Mehrdeutigkeit von Worten. Wer nach Prince sucht, meint unter Umständen gar nicht den Sänger, sondern den Prince of Wales (/m/0xnc3) oder das Konzept des Nobelmannes (/m/0dl76).

Das Wort „Uniform“ oder „Universal“ wie Tim Berners-Lee es am Anfang nannte ist dabei extrem wichtig. Man muss sich also darauf einigen, dass alle denselben Ausdruck benutzen. Wir kennen dieses Konzept aus unserer Sprache. Irgendwann hat sich irgendwer darauf geeinigt, dass eine Platte mit Füssen, auf der man Dinge abstellen kann als „Tisch“ bezeichnet wird. Dass es sich dabei nicht um eine intrinsische Wahrheit handelt sieht man daran, dass es im englischen „Table“ und im spanischen „Mesa“ heißt.

Der (die oder das?!) URI ist also die Basis für eine Entität und bedeutet erst mal nichts. Deswegen kommen die nächsten beiden Ebenen ins Spiel und zwar in Form von einem Resource Description Framework (RDF) und einer Ontologie. Wikipedia beschreibt das so: „Im RDF-Modell besteht jede Aussage aus den drei Einheiten Subjekt, Prädikat und Objekt, wobei eine Ressource als Subjekt mit einer anderen Ressource als Prädikat näher beschrieben wird.”

 

SubjektPrädikatObjekt
Princeist einSänger
SängerproduzierenAlbum
Albumist einTonträger

 

Diese Dinge sind für uns als Menschen intuitiv verständlich, wir lernen das im Laufe unseres Lebens, aber einer Maschine müssen diese Zusammenhänge erst erklärt werden, sie weiß zum Beispiel nicht, dass Michael Jackson tot bleibt, auch wenn seine Lieder weiterleben und er (bzw. seine Kinder) nach wie vor Geld damit verdienen und somit in aktuellen Forbes Listen auftaucht. Ein RDF ist also nur eine Auszeichnungssprache, so etwas wie schema.org, ein Raster, mit dem Daten strukturiert werden. Allerdings reicht das noch nicht ganz, um die Bedeutung zu verstehen. Auch wenn die Maschine weiß, dass /m/01/wycq Prince heißt und ein Sänger ist, so muss sie auch noch verstehen, was ein Sänger ist und was der macht. Dafür gibt es Ontologien und das wird ziemlich philosophisch, denn das gehört zum Bereich der Metaphysik.

Eine Ontologie ist ein Klassifizierungssystem zur Beschreibung von Wirklichkeit und Möglichkeit. Um Wikipedia hier noch mal zu zitieren: „Dabei wird etwa eine Systematik grundlegender Typen von Entitäten (konkrete und abstrakte Gegenstände, Eigenschaften, Sachverhalte, Ereignisse, Prozesse) und ihrer strukturellen Beziehungen diskutiert.” Damit ist die Suchmaschine in der Lage komplexe Beziehungen hinter Informationen zu verstehen und ihnen Bedeutungen zuzuweisen. Gekoppelt mit Inferenzregeln, ist eine Maschine dann in der Lage „eigenständig“ Schlussfolgerungen zu ziehen und Fragen selbst zu beantworten. Das hört sich alles nicht nur crazy an, sondern das ist es auch.

 

Google erweitert ihren Horizont

 

Wer es geschafft hat bis hierhin zu lesen, dem danke ich ganz herzlich und möchte noch darauf hinweisen, dass alles was ich hier beschrieben habe Theorien sind und bekanntlich liegen zwischen Theorie und Praxis Welten.

Google "crawlt" auch die Offline WeltDie Geschichte der Technik zeigt, dass die Entwicklung immer auch vom Menschen abhängt, dass heißt es spielen auch politische und ökonomische sowie ethische und kulturelle Aspekte eine große Rolle. Eins ist jedenfalls klar, Google erweitert ihren Horizont.

Knowledge Graph: Google baut ein Gehirn
5 (100%) 1 vote

Zu Svenja Hintz

Svenja Hintz ist freie Autorin für Aufgesang und beschäftigt sich leidenschaftlich mit der Wechselwirkung zwischen Medien und Gesellschaft. Während ihres BA Comparative Media studierte sie unter anderem die Geschichte der Medientechnologien, die Bedeutung und der Aufbau von Inhalten (insbesondere Semiotik und Storytelling) sowie die Rahmenbedingungen der Netzwerkgesellschaft. Mit ihrem MA Social Research lernte sie das Handwerk empirischer Sozialforschung und setzte ihren Fokus dabei auf die qualitative Analyse von Inhalten. Als Quereinsteiger ist sie seit 2011 in der SEO-Branche tätig.
Opt In Image
Jetzt in unseren Newsletter eintragen!
SEO-, Content- & Online-Marketing-Thought-Leadership bequem per Mail

Folgendes sind Deine Vorteile:

  • Online-Marketing-Thougt-Leadership von Experten aus dem Hause Aufgesang & ausgewählten Gastautoren
  • Keine aufdringlichen Vertriebs-Mails

4 Antworten zu “Knowledge Graph: Google baut ein Gehirn”

  1. […] setzt dabei auf den Knowledge Graph und das 2013 eingeführteHummingbird-Update, das die semantische Suche eingeläutet hat. Der […]

  2. […] Wer den Vortrag verpasst hat, sollte unbedingt die Folien bei ihr anfordern und mal einen Blick auf ihre Artikel im Blog von Aufgesang […]

  3. […] Dazu finde ich das Zitat sehr gut “Ein Grundkonzept ist, dass Google Webseiten weder in Kategorien ordnet, noch anhand […]

  4. […] was die Treffgenauigkeit spezieller Suchanfragen enorm steigert und Google befähigt, sein „semantisches Hirn“ weiter […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Rechtliches

Wissenswertes

Kernkompetenzen

Wir betreuen Kunden aus:

Berlin, Hamburg, München, Aachen, Köln, Frankfurt am Main, Stuttgart, Dortmund, Düsseldorf, Frankfurt, Bremen, Hannover, Leipzig, Dresden, Münster, Nürnberg, Duisburg, Bochum, Wuppertal, Bielefeld, Bonn, Neustadt, Göttingen, Braunschweig, Wolfsburg, Kassel, Duisburg, Paderborn, Karlsruhe, Essen, Hameln, Hildesheim, Kiel, Lüneburg, Ruhrgebiet, Bielefeld, Flensburg, Magdeburg und Mannheim.
×

Folge Jetzt einem der Top-Online-Marketing-Blogs!

Der Aufgesang Blog wurde u.a. vom Search Engine Journal, t3n und onlinemarketing.de zu den besten deutschen Online Marketing Blogs prämiert. Bleib am Puls der Zeit und folge uns bei Twitter, Facebook und Google+ oder trage Dich in unseren Quartals-Newsletter ein.