Die größte Herausforderung für Google mit Blick auf eine semantische Suche stellt das Identifizieren und Extrahieren von Entitäten und deren Attributen aus Datenquellen wie Websites dar. Die Informationen sind meistens nicht strukturiert und nicht fehlerfrei. Der aktuelle Knowledge Graph als Googles semantisches Zentrum basiert in großen Teilen auf den strukturierten Inhalten aus Wikidata und den semistrukturierten Daten aus der Wikipedia bzw. Wikimedia.

In diesem Beitrag meiner Beitragsreihe  möchte ich einen genaueren Blick auf die Verarbeitung der Daten aus semistrukturierten Daten-Quellen wie der  Wikipedia werfen.

Die Verarbeitung strukturierter Daten habe ich hier bereits kurz behandelt.

Eine ausführliche Beitragssammlung zum Thema Knowledge Graph, semantische SEO und Entitäten findest Du in der zugehörigen Artikelreihe.

Verarbeitung semistrukturierter Daten

Semistruktierte Daten sind Informationen, die nicht nach allgemeinen Auszeichnungs-Standards wie z.B. nach RDF, schema.org … explizit ausgezeichnet sind, aber eine implizite Struktur aufweisen. Aus dieser impliziten Struktur lassen sich i.d.R. über Workarounds strukturierte Daten gewinnen.

Die Extrahierung der Informationen aus Datenquellen mit semistrukturierten Daten kann über einen Template-Based Extractor durchgeführt werden. Dieser kann aufgrund einer immer wiederkehrenden gleichen Struktur von Beiträgen Inhaltsabschnitte identifizieren und aus Ihnen Informationen extrahieren.

Die Verarbeitung semistrukturierter Daten am Beispiel Wikipedia


Wenn Du das Thema spannend findest kannst Du den kompletten Zugriff auf diesen und alle anderen Premium Inhalte hier im Blog für einen einmaligen Kauf erwerben.

Hier findest Du einen Überblick über die aktuellen Premium-Inhalte. Und HIER kannst Du den Zugriff auf alle Premium-Inhalte bestellen.


Du bist bereits Mitglied? Dann logg Dich hier ein und viel Spass beim weiter lesen.

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Im Fokus seiner Untersuchungen, Ideen und Arbeiten stehen die Themen digitaler Markenaufbau, Online- und Content-Marketing-Strategien entlang der Customer-Journey und semantische Suchmaschinenoptimierung. Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, CMCx, OMT, OMX, Campixx… Er ist Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass auf termfrequenz. Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Marketing und digitaler Kommunikation.