Wie im letzten Beitrag meiner Artikelreihe zum Thema Entitäten und Semantik in der Suche erläutert gibt es bei Wissens-Datenbanken wie dem Knowledge Graph die herausfordernde Aufgabe Vollständigkeit und Richtigkeit der Informationen in Balance zu halten. Eine notwendige Voraussetzung für die Vollständigkeit ist, dass Google in der Lage ist Informationen in unstrukturierten Datenquellen zu identifizieren, zu deuten und zu extrahieren. Dazu mehr in diesem Beitrag.

Googles Reise zum semantischen Verständnis

Das Anliegen semantische Informationen zu Objekten bzw. Entitäten aus unstrukturierten Dokumenten zu extrahieren beschäftigt Google schon seit Ende der 90er Jahre. So findet man ein Google Patent von 1999 mit dem Titel  Extracting Patterns and Relations from Scattered Databases Such as the World Wide Web (pdf). Es ist eins der ersten Google Patente zu semantischen Fragestellungen  überhaupt.

Mehr dazu im Beitrag Wie schlau ist Google? Echtes semantisches Verständnis oder nur Statistik? .

Der erste Schritt in den ersten Jahren des Knowledge Graph war die die Extrahierung strukturierter und semistrukturierter Daten. Hier ist Google bereits ziemlich gut darin Informationen aus z.B. Wikipedia oder Wikidata zu extrahieren und zu verarbeiten.  Mehr dazu in den Beiträgen Wie verarbeitet Google Informationen aus der Wikipedia für den Knowledge Graph ? und Alles was Du zu Entitäts-Typen, -Klassen & Attributen wissen solltest .

Doch das kann nur der Anfang gewesen sein, da die Grenzen eines solchen Methodik offensichtlich sind.

 

Das Problem mit Wissens-Datenbanken wie Wikipedia und Wikidata

Da Wikidata und Wikipedia nur einen Bruchteil aller Entitäten der realen Welt erfasst haben ist für Google die schwierigste Aufgabe Informationen zu Entitäten und Entitäts-Typen aus anderen Websites neben den oben genannten zu extrahieren. Die meisten Websites und Dokumente sind alle unterschiedliche aufgebaut und weisen i.d.R. keine einheitliche Struktur auf. Von daher hat Google hier noch eine große Aufgabe vor sich, um den Knowledge Graph weiter auszubauen.

Strukturierte und semistrukturierte Informationen aus manuell gepflegten Datenquellen wie z.B. Wikipedia oder Wikidata sind oft geprüft und so aufbereitet, dass Google diese einfach extrahieren  und in den Knowledge Graph übernehmen kann. Doch diese Websites und Datenbanken sind auch nicht perfekt.

Das Problem von manuell gepflegte Datenbanken und semistrukturierten Websites wie Wikipedia ist  die nicht vorhandene Vollständigkeit, die Validität und Aktualität der Daten.

  • Vollständigkeit bedeutet zum einen bezogen auf die in einer Datenbank erfassten Entitäten an sich, als auch bezüglich derer  Attribute und zugeordneten Entitäts-Typen.
  • Validität bezieht sich auf die Richtigkeit der erfassten Attribute, Aussagen bzw. Fakten
  • Aktualität bezieht sich auf die Attribute der erfassten Entitäten

Wenn Du das Thema spannend findest kannst Du den Zugriff auf diesen und alle anderen Premium Inhalte hier im Blog für einen einmaligen Kauf erwerben.

Hier findest Du einen Überblick über die aktuellen Premium-Inhalte. Und HIER kannst Du den Zugriff auf alle Premium-Inhalte bestellen.


Du bist bereits Mitglied? Dann logg Dich hier ein und viel Spass beim weiter lesen.

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Zudem engagiert sich Olaf Kopp als Dozent und Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, Norddeutschen Akademie, CMCx, OMT, OMX, Campixx… Er ist Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass auf termfrequenz. Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Social Media Marketing, Google AdWords sowie SEO. Seit 2012 stehen digitales Branding, Content-Marketing und semantische SEO im Fokus seines Interesses.