5/5 - (4 votes)

In diesem Beitrag möchte darauf eingehen welche Schritte und Innovationen Google seit 2010 näher an das Ziel des semantischen Verständnisses in der Suche gebracht haben. Es ist eine Zusammenfassung meiner Recherchen und Analysen seit 2013. Im Detail gehe ich auch auf die Rolle von Natural Language Processing im Data Mining für semantischen Datenbanken ein. Der Beitrag ist interessant für SEOs, Lehrende und Journalisten, die sich mit dem Thema Suchmaschinen-Technologie beschäftigen wollen.

Was ist semantische Suche?

Eine semantische Suchmaschine berücksichtigt den Kontext einer Suchanfrage, um die Bedeutung des Suchterms besser zu verstehen. Im Gegensatz zu rein Keyword basierten Such-Systemen soll in der semantischen Suche die Bedeutung bzw. Suchintention der Suchanfrage und von die Bedeutung von Dokumenten besser interpretiert werden. Während Keyword basierte Suchmaschinen auf Grundlage eines Keyword-Text-Abgleich funktionieren, berücksichtigen semantische Suchmaschinen auch die Beziehungen zwischen Entitäten für die Ausgabe von Suchergebnissen. Mehr zum Thema >>> Semantische Suche: Suchmaschinen, Definition, Funktion, Geschichte

Warum ist eine semantische Suche so erstrebenswert für Google?

Durch Googles große Neueinführungen bezüglich der Suche zieht sich ein roter Faden, der ein klares Ziel erkennen lässt. Das vollständige Verständnis aller Inhalte im Netz und eindeutigen Interpretation von Suchanfragen. Um die wirkliche Bedeutung von Suchanfragen und Interpretation von Inhalten zu erkennen muss Google

  1. Suchanfragen und deren Suchintention klar identifizieren
  2. Entitäten in Suchanfragen und Inhalten identifizieren und den Index um diese herum organisieren

Um diese beiden Ziele zu erreichen benötigt Google leistungsstarke Systeme und Algorithmen, die das komplette Wissen der Welt der erschließen und deuten.

Googles Schritte und Innovationen zur semantischen Suchmaschine

Dieses Ziel verfolgt Google seit dem Kauf der semantischen Datenbank Freebase, der Einführung des Knowledge Graph als semantische Datenbank im Jahr 2012 und der Einführung der neuesten Ranking-Algorithmus-Basis Hummingbird im Jahr 2013 konsequent. Die Erschließung des weltweiten Wissens bedarf eines Index, der als Graph aufgebaut ist. Während Google vor 2012 auf einen Index ähnlich einer tabellarischen Datenbank zugegriffen hat, in den Informationen ähnlich einem Verzeichnis gespeichert wurden kann ein Graphen-Index Beziehungen zwischen Informationen und Entitäten erfassen und abbilden.

Hier eine Aufstellung der bedeutensten Innovationen, die Google seit 2010 auf dem Weg zur semantischen Suchmaschine eingeführt hat:

  • 2010: Google kauft Freebase, eine vom Unternehmen Metaweb erstellte semantische Datenbank mit strukturierten maschinenlesbaren Daten zu Entitäten. Die erste Version den Knowledge Graph wurde durch Daten aus Freebase gespeist. 2014 wurde Freebase in das Projekt Wikidata übertragen. Von den ursprünglich ca. 10 Millionen Datensätzen aus Freebase wurde aber nur ein Teil übertragen. Mein eigener Datensatz zur Entität „olaf kopp“, den ich 2012 bei Freebase angelegt habe wurde z.B. nicht in Wikidata übernommen. Ich habe ihn händisch dort nachgepflegt. Dennoch werden meine Daten aus der ehemaligen Freebase-Datenbank immer noch in Form eines Knowledge Panels ausgegeben und durch weitere Informationen erweitert.

  • 2012: Google führt den Knowledge Graph in Form der Knowledge Panels und Knowledge Cards in die Suche ein. Ein Knowledge Graph ist eine Wissens-Datenbank, in der Informationen so strukturierte aufgearbeitet sind, dass aus den Informationen Wissen entsteht. Ein einem Knowledge Graph werden Entitäten (Knoten) über Kanten in Beziehung zueinander gestellt, mit Attributen versehen und in thematischen Kontext bzw. Ontologien gebracht. Dazu weiter unten in diesem Beitrag mehr oder hier >>> Google Knowledge Graph einfach erklärt
  • 2013: Google stellt das Hummigbird-Update als neue Generation der Ranking-Algorithmen vor. Die Einführung von Hummingbird zum 15. Geburtstag von Google im Jahr 2013 war  der endgültige Startschuss der semantischen Suche für Google. Google selbst hat dieses Algorithmus-Update als das bedeutenste seit dem Caffeine Update im Jahr 2010 bezeichnet. Es soll zur Einführung ca. 90% aller Suchanfragen betroffen haben und war im Vergleich zu Caffeine ein echtes Algorithmus-Update. Es soll dabei helfen komplexere Suchanfragen besser zu deuten und noch besser die eigentliche Suchintention bzw. Fragestellung hinter einer Suchanfrage zu erkennen sowie passende Dokumente dazu anzubieten. Auch auf Dokumentenebene soll die eigentliche Intention hinter dem Content besser mit der Suchanfrage gematcht werden. Mehr dazu >>> Was ist Google Hummingbird?
  • 2014: Google stellt den Knowledge Vault vor. Ein System zur Identifikation und Extraktion von Tail-Entitäten, um den Ausbau des „Long Tail of Knowledge“ voranzutreiben. Über den Knowledge Vault ist es Google möglich, Data Mining aus unstrukturierten Quellen automatisiert zu betreiben und könnte die Grundlage für die nachfolgenden Innovationen in Sachen Natural Language Processing sein.
  • 2014: Google führt E-A-T zur Bewertung von Websites in den Quality Rater Guidelines ein. Auf den ersten Blick ist die Brücke zur semantischen Suche nicht zu ziehen. Indirekt bietet das Entitäten-Konzept und Graphen-Konstrukt von semantischen Datenbanken aber eine ideale Grundlage für eine themenbezogen qualitative Bewertung von Entitäten (Publisher & Autoren) und deren Content hinsichtlich Expertise, Autorität und Trust.  Ein Entitäten basierter Index macht es möglich Entitäten wie Autoren, Publisher, Marken, Domains … Ganzheitlich zu betrachten. Das gelingt nicht wenn man nur einzelne URLs, Bilder … betrachtet, wie die klassischen Google Indizes es tun. Mehr zu E-A-T >>>> E-A-T (Expertise, Autorität, Trust) erklärt  Mehr zu den Google Quality Rater Guidelines >>> Die Google Quality Rater Guidelines & wichtigsten Erkenntnisse für SEO
  • 2015: Google führt mit Rankbrain offiziell Machine Learning in die Google-Suche ein. Über Vektorraumanalysen will die Suchmaschine Suchanfragen und generell Begrifflichkeiten besser in eine Beziehung, thematische Nähe bzw. einen Kontext verorten. Dadurch können u.a. Suchanfragen hinsichtlich der Suchintention besser interpretiert werden.
  • 2018: Google stellt BERT als neue Technologie für die bessere Interpretation von Suchanfragen und Texten vor. BERT nutzt Natural Language Processing um Suchanfragen, Sätze, Fragen, Textabschnitte und generell Content besser semantisch zu verstehen. Mehr zum Thema Natural Language Processing nachfolgend in diesem Beitrag oder hier >>> Natural Language Processing(NLP) einfach erklärt
  • 2021: Google stellt MUM als neue Technologie für das bessere semantische Verständnis von Suchanfragen, Fragen, Content in verschiedenen Formen (Text, Video, Audio, Bild) und dem der Erschließung des „Wissens der Welt“ vor. Mit MUM kann Google die semantische(n) Datenbank(en) wie dem Knowledge Graph noch schneller und umfänglicher mit Informationen zu Entitäten erweitern.

Nachfolgend das Ganze noch mal als Infografik zur freien Verwendung für z.B. Social Media.

Infografik „Googles Weg zur semantischen Suchmaschine“ zum Download

Durch Klick auf das Bild die Grafik downloaden

Semantische Datenbanken bzw. Entitäten-Index in Graphen-Form

Die Entitäten in einer semantischen Datenbank wie dem Knowledge Graph sind als Knoten erfasst und die Beziehungen werden als Kanten abgebildet. Die Entitäten können mit Labels zu z.B. zu Entitäts-Typen-Klassen, Attributen und Informationen zu in Beziehung zur Entität stehenden Inhalten und digitalen Abbildern wie z.B. Websites, Autorenprofilen oder Profilen in sozialen Netzwerken ergänzt werden.

Nachfolgend zur Verdeutlichung ein konkretes Beispiel von Entitäten, die in Beziehung zueinanderstehen. Die Haupt-Entität ist Robert Habeck und weitere Entitäten sind seine Ehefrau Andrea Paluch, die Partei die Grünen, sein Bruder Hinrich Habeck, die Stadt Lübeck und die Universität Hamburg.

Beispiel. Beziehungen zwischen Entitäten in einem Knowledge Graph, ©Olaf Kopp

Entitäten sind nicht nur eine Aneinanderreihung von Buchstaben sondern sind Dinge mit einer eindeutig identifizierbaren Bedeutung. Der Suchterm „jaguar“ hat mehrere Bedeutungen. So kann die Automarke gemeint sein, das Tier oder der Panzer. Die reine Verwendung der Zeichenkette in Suchanfragen und/oder Inhalten reicht nicht aus um den Kontext zu verstehen. In Kombination mit anderen Attributen bzw. Entitäten wie Rover, Coventry, PS, Auto … wird die eindeutige Bedeutung klar, durch den Kontext in dem die Entität sich bewegt. Die Bedeutung von Entitäten lässt sich über den Kontext ermitteln in denen sie in Inhalten und Suchanfragen genannt bzw. benutzt werden.

Durch Vektorraumanalysen und Machine Learning zum besseren semantischen Verständnis

Durch Vektorraumanalysen lassen sich Suchanfragen und Inhalte in einen thematischen Kontext bringen. Man kann Entitäten bzw. Keywords in einem Vektorraum verorten. Der Abstand der unterschiedlichen Begriffe zueinander gibt Auskunft über den thematischen Kontext in dem die Entitäten bzw. Keywords genutzt werden. Über diesen Weg lassen sich thematische Ontologien bzw. Kategorien ermitteln in dem Keywords bzw. Entitäten zu verorten sind.

Diese Methodik hat Google 2015 mit Rankbrain offziell eingeführt, um insbesondere Suchanfragen besser zu verstehen. Rankbrain wurde als Innovation für das sogenannte Query Processing, also der Vorgang zur Interpretation von Suchanfragen, vorgestellt. Und mit Rankbrain wurde auch das erste mal seitens Google bestätigt, dass Machine-Learning für die Google-Suche zum Einsatz kommt.

Mit der Einführung von BERT im Jahr 2018 gab es die offizielle Bestätigung von Google, dass sie Natural Language Processing für die Google-Suche nutzen.

 

Funktionalität und Einsatzgebiete von Natural Language Processing in modernen Suchmaschinen

Beim Natural Language Processing als Teilbereich von Machine Learning geht es darum menschliche Sprache in geschriebener und gesprochener Form besser zu verstehen und unstrukturierte Informationen in maschinen lesbare strukturierte Daten umzuwandeln. Teilaufgaben von NLP sind Übersetzung von Sprachen und die Beantwortung von Fragen. Hier wird schnell klar wie wichtig diese Technologie für moderne Suchmaschinen wie Google ist.

Generell kann man die Funktionsweise von NLP grob in die folgendenden Prozessschritte aufgliedern:

  • Datenbereitstellung
  • Datenvorbereitung
  • Textanalyse
  • Textanreicherung

Die Kernkomponenten von NLP sind Tokenization zu deutsch Tokenisierung, Kennzeichnung von Wörtern nach Wortarten (Part of Speech Tagging), Lemmatisierung, Wort-Abhängigkeiten (Dependency Parsing), Parse Labeling, Extraktion von benannten Entitäten (Named Entity Recognition), Salience-Scoring, Sentiment-Analysen, Kategorisierung, Text-Klassifizierung, Extrahierung von Content-Typen und Identifikation einer impliziten Bedeutung aufgrund der Struktur.

  • Tokenisierung: Tokenisierung ist der Vorgang, bei dem ein Satz in verschiedene Begriffe unterteilt wird.
  • Kennzeichnung von Wörtern nach Wortarten: Wortartenkennzeichnung klassifiziert Wörter nach Wortarten wie z.B. Subjekt, Objekt, Prädikat, Adjektiv …
  • Wortabhängigkeiten: Wortabhängigkeiten schafft Beziehungen zwischen den Wörtern basierend auf Grammatikregeln. Dieser Prozess bildet auch „Sprünge“ zwischen Wörtern ab.
  • Lemmatisierung: Die Lemmatisierung bestimmt, ob ein Wort verschiedene Formen hat und normalisiert Abwandlungen zur Grundform,. Zum Beispiel ist die Grundform von Tiere, Tier oder von verspielt, Spiel.
  • Parsing Labels: Die Kennzeichnung klassifiziert die Abhängigkeit oder die Art der Beziehung zwischen zwei Wörtern, die über eine Abhängigkeit verbunden sind.
  • Analyse und Extraktion von benannten Entitäten: Dieser Aspekt sollte uns aus den vorangegangenen Beiträgen bekannt sein. Damit wird versucht, Wörter mit einer „bekannten“ Bedeutung zu identifizieren und Klassen von Entitätstypen zuzuordnen. Im Allgemeinen sind benannte Entitäten Menschen, Orte und Dinge (Substantive).  Entitäten können auch Produktnamen enthalten. Dies sind im Allgemeinen die Wörter, die ein Knowledge Panel auslösen. Aber auch Begriffe, die kein eigenes Knowledge Panel auslösen können Entität sein.
  • Die Kernkomponenten von NLP sind Tokenization zu deutsch Tokenisierung, Kennzeichnung von Wörtern nach Wortarten (Part of Speech Tagging), Lemmatisierung, Wort-Abhängigkeiten (Dependency Parsing), Parse Labeling, Extraktion von benannten Entitäten (Named Entity Recognition), Salience-Scoring, Sentiment-Analysen, Kategorisierung, Text-Klassifizierung, Extrahierung von Content-Typen und Identifikation einer impliziten Bedeutung aufgrund der Struktur.
  • Tokenisierung: Tokenisierung ist der Vorgang, bei dem ein Satz in verschiedene Begriffe unterteilt wird.
  • Kennzeichnung von Wörtern nach Wortarten: Wortartenkennzeichnung klassifiziert Wörter nach Wortarten wie z.B. Subjekt, Objekt, Prädikat, Adjektiv …
  • Wortabhängigkeiten: Wortabhängigkeiten schafft Beziehungen zwischen den Wörtern basierend auf Grammatikregeln. Dieser Prozess bildet auch „Sprünge“ zwischen Wörtern ab.

 

Beispiel einer Syntax-Analyse aus der NLP-API-Demo, Quelle: Google

Über Natural Language Processing können aus Suchanfragen, Sätze und Textabschnitten Entitäten identifiziert sowie die einzelnen Bestandteile in sogenannte Tokens zerlegt werden und in Beziehung zueinander gesetzt werden. Auch ein grammatikalisches Verständnis kann durch NLP algorithmisch entwickelt werden.

Mit der Einführung von Natural Language Processing ist Google auch in der Lage mehr als nur die Substantive für die Interpretation von Suchanfragen, Texten und Sprache zu deuten. So sind seit BERT auch Verben, Adverbien, Adjektive für die Ermittlung des Kontext wichtig. Durch die Identifikation der Beziehungen zwischen den Tokens lassen sich Bezüge herstellen und so können auch Personalpronomen gedeutet werden.

Ein Beispiel:

„Olaf Kopp ist Head of SEO bei Aufgesang. Er beschäftigt sich seit 2005 mit Online-Marketing.“

In der Zeit vor Natural Language Processing konnte Google mit dem Personalpronomen „er“ nichts anfangen, da kein Bezug zur Entität „Olaf Kopp“ hergestellt werden konnte. Für die Indexierung und Ranking wurden nur die Begriffe Olaf Kopp, Head of SEO, Aufgesang, 2005 und Online Marketing berücksichtigt.

Über Natural Language Processing lassen sich nicht nur Entitäten in Suchanfragen und Inhalten identifizieren, sondern auch die Beziehung dieser zueinander.

Dabei wird die grammatikalische Satzstruktur, als auch Bezüge innerhalb von ganzen Absätzen und Texten berücksichtigt. Nomen bzw. Subjekt und Objekt in einem Satz können als potentielle Entitäten identifiziert werden. Über Verben lassen sich Beziehungen zwischen Entitäten herstellen. Durch Adjektive ein Sentiment (Stimmung) um eine Entität ermitteln.

Über Natural Language Processing lassen sich auch konkrete W-Fragen besser beantworten, was für die Bedienung von Voice Search eine deutliche Weiterentwicklung darstellt.

Auch für das von Google 2021 eingeführte Passage Ranking spielt Natural Language Processing eine zentrale Rolle.

Seit der Einführung von BERT im Jahr 2018 nutzt Google diese Technologie in der Google-Suche. Das 2021 eingeführt Passage-Ranking basiert auf Natural Language Processing, da Google hier einzelne Textpassagen durch die neuen Möglichkeiten besser interpretieren kann.

Googles neueste Innovation namens MUM stellt die nächste Ära für die Google-Suche dar, die maßgeblich durch Natural Language Processing und Natural Language Understanding getrieben wird.

Natural Language Processing zum Aufbau einer semantischen Wissensdatenbank

Während bis dato Google von manuell gepflegten strukturieren und semistrukturierten Informationen bzw. Datenbanken abhängig war ist es seit BERT möglich Entitäten und deren Beziehungen aus unstrukturierten Datenquellen zu extrahieren und in einem Graphen-Index zu speichern. Ein Quanten-Sprung in Sachen Data-Mining.

Dafür kann Google die bereits verifizierten Daten aus (semi-)strukturierten Datenbanken wie dem Knowledge Graph, Wikipedia … als Trainingsdaten nutzen, um zu lernen unstrukturierte Informationen zu bestehenden Modellen bzw. Klassen zuzuordnen und neue Muster zu erkennen. Hier spielt Natural Language Processing in Form von BERT und MUM die entscheidende Rolle.

Bereits 2013 hat Google erkannt, dass der Aufbau einer semantischen Datenbank wie dem Knowledge Graph ausschließlich basierend auf strukturiertem Daten zu langsam und nicht skalierbar möglich ist, da die große Masse an sogenannten Long-Tail-Entitäten nicht in (semi-)strukturierten Datenbanken erfasst sind. Zur Erfassung dieser Longtail-Entitäten bzw. des vollständigen Wissens der Welt stellt Google 2013 den Knowledge Vault vor, der aber seitdem nicht mehr groß Erwähnung fand. Der Ansatz über eine Technologie das komplette im Internet verfügbare Wissen für eine semantische Datenbank zu nutzen wird durch Natural Language Processing Realität. Es ist davon auszugehen, dass es neben dem Knowledge Graph eine Art Zwischenpeicher gibt in dem Google das über Natural Language Processing generierte Wissen zu erfassen und zu strukturieren bzw. organisieren. Sobald ein Validitäts-Schwellenwert erreicht werden die Entitäten und Informationen in den Knowledge Graph überführt. Dieser Zwischenspeicher könnte der Knowledge Vault sein.

Übersicht Data Mining für den Google Knowledge Graph, ©Olaf Kopp

Dadurch lässt sich auch erklären warum der Knowledge Graph gerade in den letzten Jahren sehr schnell gewachsen ist.

“By mid-2016, Google reported that it held 70 billion facts[4] and answered „roughly one-third“ of the 100 billion monthly searches they handled. By May 2020, this had grown to 500 billion facts on 5 billion entities.”, Quelle: https://en.wikipedia.org/wiki/Google_Knowledge_Graph 

Und jetzt kommt MUM, eine Technologie, die noch deutlich leistungsfähiger sein soll als BERT. Dazu mehr hier im Blog in den nächsten Wochen…

Mehr zur semantischen Suche bei Google in diesem Video:

Zu Olaf Kopp

Olaf Kopp ist ein international anerkannter Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung im Online-Marketing, Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO bei der Aufgesang GmbH. Er ist Autor, Podcaster und anerkannter Branchenexperte für semantische SEO, E-A-T, Online- und Content-Marketing-Strategien entlang der Customer Journey und digitale Markenbildung. Olaf Kopp ist Mitgründer und Moderator des Content-Marketing-Podcasts Content-Kompass. Kopp ist Autor des Buches “Content-Marketing entlang der Customer Journey” und Mitorganisator des SEAcamp. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. Search Engine Land, t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Olaf Kopp ist Suchmaschinen-Marketer, Content-Marketer und Customer-Journey-Enthusiast, bewegt sich als Schnittstelle zwischen verschiedenen Marketing-Welten und baut Brücken immer eine nutzerzentrierte Strategie im Auge.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.