4.1/5 - (9 votes)

Die größte Herausforderung für Google mit Blick auf eine semantische Suche stellt das Identifizieren und Extrahieren von Entitäten und deren Attributen aus Datenquellen wie Websites dar. Die Informationen sind meistens nicht strukturiert und nicht fehlerfrei. Der aktuelle Knowledge Graph als Googles semantisches Zentrum basiert in großen Teilen auf den strukturierten Inhalten aus Wikidata und den semistrukturierten Daten aus der Wikipedia bzw. Wikimedia.

In diesem Beitrag meiner Beitragsreihe  möchte ich einen genaueren Blick auf die Verarbeitung der Daten aus semistrukturierten Daten-Quellen wie der  Wikipedia werfen.

Die Verarbeitung strukturierter Daten habe ich hier bereits kurz behandelt.

Eine ausführliche Beitragssammlung zum Thema Knowledge Graph, semantische SEO und Entitäten findest Du in der zugehörigen Artikelreihe.

Verarbeitung semistrukturierter Daten

Semistruktierte Daten sind Informationen, die nicht nach allgemeinen Auszeichnungs-Standards wie z.B. nach RDF, schema.org … explizit ausgezeichnet sind, aber eine implizite Struktur aufweisen. Aus dieser impliziten Struktur lassen sich i.d.R. über Workarounds strukturierte Daten gewinnen.

Die Extrahierung der Informationen aus Datenquellen mit semistrukturierten Daten kann über einen Template-Based Extractor durchgeführt werden. Dieser kann aufgrund einer immer wiederkehrenden gleichen Struktur von Beiträgen Inhaltsabschnitte identifizieren und aus Ihnen Informationen extrahieren.

Die Verarbeitung semistrukturierter Daten am Beispiel Wikipedia

4.1/5 - (9 votes)

Wenn Du das Thema spannend findest kannst Du den kompletten Zugriff auf diesen und alle anderen Premium Inhalte hier im Blog erwerben.

Hier findest Du einen Überblick über die aktuellen Premium-Inhalte.


Du bist bereits Mitglied? Dann logg Dich hier ein und viel Spass beim weiter lesen.

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Im Fokus seiner Arbeit stehen die Themen digitaler Markenaufbau, Online- und Content-Marketing-Strategien entlang der Customer-Journey und semantische Suchmaschinenoptimierung. Er ist Autor des Buchs "Content-Marketing entlang der Customer Journey", Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass. Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Olaf Kopp ist Suchmaschinen-Marketer, Content-Marketer und Customer-Journey-Enthusiast, bewegt sich als Schnittstelle zwischen verschiedenen Marketing-Welten und baut Brücken immer eine nutzerzentrierte Strategie im Auge.