Du interessierst Dich für das Thema Entitäten? Dann bist Du hier genau richtig. Entitäten sind im Moment ein heißes Thema in der SEO, Datenmanagement und in Bezug auf das Web 3.0. Aber was sind Entitäten und warum müssen sollte man sich damit beschäftigen? In diesem Beitrag werden wir Entitäten definieren und erklären.. Außerdem werden wir einige häufig gestellte Fragen zu Entitäten beantworten. Wenn Du also bereit bist, mehr zu erfahren, lies weiter!
Table of contents
- 1 Was ist eine Entität?
- 2 Unterschied zwischen benannten Entitäten und Konzepten
- 3 Aufbau und Eigenschaften von Entitäten
- 4 Was sind Entitäts-Typen und Entitäts-Klassen?
- 5 Beziehung zwischen Entitäts-Klassen in Ontologien
- 6 Entitäten für die semantische Interpretation von Begriffen und Inhalten
- 7 Was sind Entitäten für Google?
- 8 Warum sind Entitäten so relevant für SEO?
- 9 Zusammengefasst: Häufige Fragen zum Thema Entitäten
- 10 Weiterführende Quellen zum Thema Entität
Was ist eine Entität?
Eine Entität ist ein Begriff aus der Philosophie, Semantik und Informatik. Eine Entität beschreibt das Wesen bzw. die Identität eines konkreten oder abstrakten Gegenstand des Seins. Entitäten sind eindeutig identifizierbar und damit einzigartig.
Unterschied zwischen benannten Entitäten und Konzepten
Grundsätzlich kann zwischen „Named Entities“ zu deutsch benannten Entitäten und Konzepten unterschieden werden. Benannte Entitäten sind Objekte aus der echten Welt, wie z.B. Personen, Orte, Organisationen, Produkte, Events …
Konzepte sind abstrakte Entitäten physikalischer, psychologischer oder sozialer Natur, wie z.B. Entfernung, Quantität, Emotionen, Menschenrechte. Friede …
Im Kontext der Informatik stehen benannte Entitäten häufiger im Fokus.
Aufbau und Eigenschaften von Entitäten
Um Entitäten zu verstehen, wird ihnen ein Uniform Resource Identifier (URI) zugewiesen. Das kann eine URL sein oder eine willkürliche Zahlenreihe, wie man sie von Wikidata kennt. (Wikidata dient übrigens als eine Ressource für Google’s Wissen) Dort ist der Sänger Prince unter /m/01/wycq bekannt. Der Grund warum eine Zahlenreihe mehr Sinn macht, als zum Beispiel ein Name ist die mögliche Mehrdeutigkeit von Worten. Wer nach Prince sucht, meint unter Umständen gar nicht den Sänger, sondern den Prince of Wales (/m/0xnc3) oder das Konzept des Nobelmannes (/m/0dl76).
Das Wort „Uniform“ oder „Universal“ wie Tim Berners-Lee es am Anfang nannte ist dabei extrem wichtig. Man muss sich also darauf einigen, dass alle denselben Ausdruck benutzen. Wir kennen dieses Konzept aus unserer Sprache. Irgendwann hat sich irgendwer darauf geeinigt, dass eine Platte mit Füssen, auf der man Dinge abstellen kann als „Tisch“ bezeichnet wird. Dass es sich dabei nicht um eine intrinsische Wahrheit handelt sieht man daran, dass es im englischen „Table“ und im spanischen „Mesa“ heißt.
Der (die oder das?!) URI ist also die Basis für eine Entität und bedeutet erst mal nichts. Deswegen kommen die nächsten beiden Ebenen ins Spiel und zwar in Form von einem Resource Description Framework (RDF) und einer Ontologie. Wikipedia beschreibt das so: „Im RDF-Modell besteht jede Aussage aus den drei Einheiten Subjekt, Prädikat und Objekt, wobei eine Ressource als Subjekt mit einer anderen Ressource als Prädikat näher beschrieben wird.”
Subjekt | Prädikat | Objekt |
Prince | ist ein | Sänger |
Sänger | produzieren | Album |
Album | ist ein | Tonträger |
Diese Dinge sind für uns als Menschen intuitiv verständlich, wir lernen das im Laufe unseres Lebens, aber einer Maschine müssen diese Zusammenhänge erst erklärt werden, sie weiß zum Beispiel nicht, dass Michael Jackson tot bleibt, auch wenn seine Lieder weiterleben und er (bzw. seine Kinder) nach wie vor Geld damit verdienen und somit in aktuellen Forbes Listen auftaucht. Ein RDF ist also nur eine Auszeichnungssprache, so etwas wie schema.org, ein Raster, mit dem Daten strukturiert werden. Allerdings reicht das noch nicht ganz, um die Bedeutung zu verstehen. Auch wenn die Maschine weiß, dass /m/01/wycq Prince heißt und ein Sänger ist, so muss sie auch noch verstehen, was ein Sänger ist und was der macht. Dafür gibt es Ontologien und das wird ziemlich philosophisch, denn das gehört zum Bereich der Metaphysik.
Entitäten können eindeutig zur einen Unique Identifier, i.d.R. eine eindeutige Zahlenreihe, identifiziert werden. Durch den Kontext der Eigenschaften bzw. Attribute und den Beziehungen zu anderen Entitäten kann jeder Entität eine eindeutige Bedeutung zugeschrieben werden, auch wenn der Name der Entität mehrdeutig ist.
Das ist gerade bei mehrdeutigen Entitätsnamen oder der Identifikation von Synonymen wichtig. So kann ein Jaguar sowohl ein Tier, als auch eine Automarke oder ein Panzer-Modell sein.
Durch die unterschiedlichen Eigenschaften dieser Entitäten können sie den unterschiedlichen thematischen Bereichen zugeordnet und voneinander abgegrenzt werden.
Während die Entität Jaguar (Tier) eher mit Eigenschaften wie Fell, Körperbau, Schwanz… und in Beziehung zu anderen Raubkatzen wie Puma oder Leopard steht, wird Jaguar (Automarke) eher mit Attributen wie PS, Motor, km/h, Hubraum… und zusammen mit anderen Automarken wie Porsche, Bentley oder dem britischen Königshaus genannt.
Dadurch können die gleichbenannten, aber unterschiedlichen Entität bezüglich ihrer Bedeutung klar voneinander abgegrenzt werden.
Attribute bzw. Eigenschaften und die Art der Beziehung zu anderen Entitäten sind die wichtigsten Classifier, die Google nutzen kann, um die Bedeutung von Entitäten zu verstehen. In verschiedenen wissenschaflichen Publikationen werden diese Classifier auch Fakten bezeichnet. Sie dienen neben der Interpretation auch der Zuordnung von Entitäten in Klassen von Entitätstypen.
Was sind Entitäts-Typen und Entitäts-Klassen?
In verschiedenen Google-Patenten findet man die Begriffe Entitäts-Typen und Entitäts-Klassen. Bestimmte Entitäts-Typen und Entitäts-Klassen haben ein ähnliche Zusammenstellung von Attributen und bilden damit eine Gruppe. Z.B. können dem Entität-Klasse „Person“ oder „Mensch“ immer Attribute wie Geburtsort, Wohnort, Geburtsdatum … zugeordnet werden. Dadurch ist der Entitätstyp klar definiert.
Entitätstypen beschreiben Gruppen von Entitäten, die aufgrund gleicher oder ähnlicher Attribute in Klassen zusammengefasst werden können.
Im dem sehr guten Buch Entity Oriented Search von Krisztian Balog findet man folgende Beschreibung für Entitäts-Typen:
Entities may be categorized into multiple entity types (or types for short). Types can also be thought of as containers (semantic categories) that group together entities with similar properties. An analogy can be made to object oriented programming, whereby an entity of a type is like an instance of a class.
Wo genau der Unterschied zwischen Entitäts-Typen und Entitäts-Klassen liegt konnte ich nicht herausfinden. Ich gehe davon aus, dass Entitäts-Klasse eine etwas gröbere Form der Gruppierung ist, während Entitäts-Typen klarer definiert sind.
Beziehung zwischen Entitäts-Klassen in Ontologien
Es gibt Datenbanken wie z.B. YAGO oder die DBpedia Ontology, die Beziehungen zwischen Entitäts-Klassen bzw. Entitäts-Typen darstellen. Bei DBpedia Ontology ist die Basis Wikipedia. In dem folgenden Auszug aus DBpedia Ontology werden Entitäts-Typen (abgerundete Rechtecke) via aufsteigenden Pfeilen mit übergeordneten Entitäts-Klassen in Beziehung gesetzt. Z.B. sind die Entitäts-Typen Athlet und Rennfahrer der Entitäts-Klasse „Person“ zugeordnet. Typen- und Klassen-verbindende Attribute sind mit den gestrichelten Pfeilen dargestellt.
Das Ganze stellt dann eine Ontologie dar, die die Beziehungen zwischen den Klassen, Typen und somit auch Entitäten abbildet.
Ontologien stellen in der Semantik ein Umfeld dar, in dem Entitäten in Beziehung zueinander gestellt werden können. Eine bestimmte Branche kann als Ontologie dienen in der verschiedene Marktteilnehmer/Unternehmen als Entität fungieren und in Beziehung zueinander stehen.
Bei der Semantik im Sinne der Linguistik dreht es sich in erster Linie um die Identifikation der Bedeutung von Sprache. Über Entitäten werden Bezüge hergestellt, die in bestimmten Umfeldern (Ontologien) stattfinden. Darüber lassen sich Kontext und Bedeutung von Entitäten identifizieren. Damit lassen sich Entitäten kategorisieren, aber auch bewerten.
Entitäten für die semantische Interpretation von Begriffen und Inhalten
Entitäten spielen für Google eine zentrale Rolle bei der Interpretation von Suchanfragen über Rankbrain, als auch der Interpretation von kompletten Inhalten, Sätzen bzw. einzelnen Aussagen.
Grundsätzlich kann zwischen „Named Entities“ zu deutsch benannte Entitäten und abstrakten Konzepten unterschieden werden. Benannte Entitäten sind Objekte aus der echten Welt, wie z.B. Personen, Orte, Organisationen, Produkte, Events … Abstrakte Konzepte sind physikalischer, psychologischer oder sozialer Natur, wie z.B. Entfernung, Quantität, Emotionen, Menschenrechte. Friede …
Bei der Nutzung von Suchmaschinen als auch der Suchmaschinenoptimierung haben die benannten Entitäten einen größeren Einfluss als Konzepte, da benannte Entitäte in Form der Knowledge Panel den prominentesten Platz einnehmen . Es ist dennoch wichtig sich generell der Bedeutung von Entitäten bewusst zu sein.
In einem Interview von 2009 sagte Ori Allon, damaliger technischer Leiter des Google Search Quality Teams in einem Interview mit IDG :
We’re working really hard at search quality to have a better understanding of the context of the query, of what is the query. The query isn’t the sum of all the terms. The query has a meaning behind it. For simple queries like ‚Britney Spears‘ and ‚Barack Obama‘ it’s pretty easy for us to rank the pages. But when the query is ‚What medication should I take after my eye surgery?‘, that’s much harder. We need to understand the meaning…
Im Kern möchte Google die Bedeutung und darüber die Nutzerintention bzw. Suchintention einer Suchanfrage identifizieren und dementsprechende Inhalte ausliefern. Das ist essentiell für eine positive Nutzererfahrung bei der Nutzung einer Suchmaschine.
Dazu muss Google den Kontext ermitteln. Beim Kontext ist der Suchanfragen-bezogene Kontext sowie der Nutzer-Kontext wie Standort des Suchenden und Suchhistorie wichtig. Beim Nutzer-Kontext geht es um Personalisierung, die Google laut eigener Aussage fast ausschließlich nur noch auf Standort und Art des Endgeräts als Einflussfaktor beschränkt.
Das wichtigste Kriterium für die Ermittlung des thematischen Kontext und der Suchintention ist der Suchterm selbst. Hier hat die Einführung von Rankbrain im Jahr 2015 Google einen großen Schritt weiter gebracht.
Wörter, die in Suchanfragen oder Inhalten vorkommen können oft nur im semantischen Kontext verstanden werden. Erst dieser Kontext verleiht Wörtern und Sätzen die Bedeutung.
Betrachten wir zum Beispiel diese beiden Sätze: 1) „Der Jaguar ist aus dem Zoo ausgebrochen.“ 2) „Der Jaguar des Nachbarns ist kaputt.“ Das Wort Jaguar unterscheidet sich in diesen beiden Sätzen je nach Kontext. Vernünftigerweise sollte man zwei verschiedene Vektorräume des Worts Jaguar basierend auf ihren zwei verschiedenen Bedeutungen nutzen.
Es ist daher sinnvoll einen Algorithmus so zu programmieren, dass bereits vor dem zuführen der Trainingsdaten ein Text in mögliche semantische Kontexte eingeordnet werden kann. Dann kann der Begriff bzw. die Suchanfrage oder Dokument in den passenden semantischen Vektorraum eingeordnet werden und in Beziehung zu anderen Begriffen im gleichen thematischen Kontext gesetzt werden. Dadurch kann dann auch ein bisher unbekannter Begriff gedeutet werden.
Durch Rankbrain ist Google seitdem in der Lage Natural Language Processing (NLP) und Word Embeddings bzw. Vektorraumanalysen automatisiert und skalierbar für die Interpretation von Suchanfragen einzusetzen. Den Weg dorthin ebnen selbstlernende Algorithmen bzw. Systeme (Machine Learning), die es ermöglichen komplexe Prozesse auch hinsichtlich der Geschwindigkeit bzw. Performance umzusetzen. Durch die Einführung von Rankbrain konnte Google das Spannungsfeld zwischen Skalierung und der Nutzung von NLP kombiniert mit Vektorraumanalysen für ein besseres semantisches Verständnis von Suchanfragen beseitigen.
Über Vektorraumanalysen lassen sich über Word Embeddings Suchanfragen, aber auch Sätze, explizite Fragestellungen oder komplette Inhalte analysieren. Die enthaltenen Wörter können durch ihren Kontext, also die umliegenden Wörter und Entitäten, besser verstanden werden. Durch Word Embeddings lassen sich fehlende Begriffe ergänzen bzw. umschreiben, um einen Satz oder einen Begriff verständlicher zu machen.
Bekannte Modelle für Word-Embedding bzw. Vektorraumanalysen für die Anwendung von NLP sind zum Beispiel Word2vec in den zwei verschiedenen Anwendungen CBOW oder Skipgram und das darauf aufbauende von Facebook entwickelte Fasttext Embedding, sowie die sich daraus entwickelten Contextual Embeddings wie z.B. ULM-Fit, Elmo und BERT. Doch das Problem bei diesen Modellen ist der Fokus auf die Begrifflichkeiten.
Was sind Entitäten für Google?
Übertragen in die reale Welt können Entitäten sogenannte Dinge des Seins wie etwa Personen, Unternehmen, Bauwerke, Fahrzeuge oder abstrakte Dinge / Objekte sein.
Mit Blick auf die Suchmaschinenoptimierung ist es wichtig zu verstehen, was Google als Entität begreift. Das ist relativ einfach möglich, indem man sich klar macht, für welche Suchanfragen Google Knowledge-Graph-Cards, ich nenne sie ab hier Entitäten-Box platziert.
Interessant ist, dass Google bei Fragestellungen nach einer unbekannten Entität wie zum Beispiel „Was ist die Hauptstadt von Australien?“ oder impliziten Fragen wie „haupstadt australien“ die Entitäten-Boxen oberhalb der SERPs ausliefert. Bei einer direkten Eingabe der Entitäten-Bezeichnung werden die Boxen rechts neben den SERPs ausgeliefert:
Zudem gibt es noch als Spielart der Entitäten-Boxen das Karussel als Ausgabe-Form für Knowledge-Graph-Daten:
Neben den Entitäten-Boxen gibt es noch die Wissens-Boxen oder Know-Simple-Boxen, die oberhalb der SERPs platziert sind. Diese werden in erster Linie für Know-Simple Keywords ausgeliefert. Hier ein Beispiel:
Diese werden in erster Linie bei Suchanfragen ausgegeben, die Google als Know-Simple –Keywords einstuft. Mehr dazu im Beitrag Infos zu den Keyword-Arten, Suchintention, Identifikation Nutzerintention. Oder es handelt sich um Themenbereiche:
Die oberhalb der SERPs platzierten Wissens-Boxen oder Know-Simple-Boxen sind keine Entitäten-Boxen. Genauso wenig wie alle anderen Knowledge-Graph-Boxen. Daraus lässt sich auch ableiten, was Google nicht als Entität einordnet.
In Bezug auf Entitäten spielen die Entitäten-Boxen die größte Rolle. Sobald Google eine Suchanfrage oder Teil eines Suchterms als Entität erkennt versucht Google Informationen für eine Entitäten-Box zu sammeln.
Theoretisch gibt es eine Vielzahl an Entitäts-Arten, doch für den Knowledge Graph und somit SEO sind die folgenden interessant. Google schreibt, dass folgende Entitäten-Arten im Knowledge Graph berücksichtigt werden (Durch Klick auf die jeweilige Entitäts-Art gelangt man zur schema.org Auszeichnung):
- Buch
- Buch-Serien
- Bildungseinrichtungen
- Event
- Behörde
- Lokales Geschäft
- Film
- Film Serie
- Musik Album
- Musik Gruppe
- Musik Aufnahme
- Organisation
- Magazin / Zeitschrift
- Person
- Ort
- Sport Mannschaft
- TV-Folge
- TV-Serie
- Video Spiel
- Videospiel Serie
- WebSite
Ein Blick auf die Entitätstypen bei schema.org gibt einen kompletten Überblick darüber, was als Entität gilt.
Am häufigsten findet man bei Google aktuell die Entitäten-Boxen für die folgenden Typen:
- Personen
- Unternehmen
- Tiere
- Bauwerke
- Städte/Orte
- Bücher
- Filme
Bezogen auf Unternehmen und Personen kann man eine Entität auch als Marke verstehen.
Hier einige Beispiele für Entitäten-Boxen:
Bezogen auf Unternehmen muss man zwischen Brand-Entitäten-Boxen und lokalen Entitäten-Boxen unterscheiden. Für die Brand-Entitäten-Boxen benötigt man einen Eintrag bei Wikipedia und/oder Wikidata. Damit haben nur bestimmte Unternehmen die Möglichkeit ein Brand-Entitäten-Box in den SERPs zu bekommen. Die lokalen Entitäten-Boxen beziehen die Informationen in erster Linie aus dem Google MyBusiness-Eintrag und sind somit für jedes Unternehmen möglich. Hier zwei Beispiele:
Diese Entitäten-Boxen erscheinen immer rechts von den Anzeigen und/oder Suchergebnissen.
In diesem Fall hat Google erkannt, dass „Olaf Kopp“, eine Entität ist. Deswegen wird eine eigene Brand-Entitäten-Box als auch eine Local-Entitäten-Box, auch im nicht eingeloggten Zustand angezeigt. Hierzu hat Google die Informationen aus Freebase bzw. Wikidata für Brand-Entitäten-Box und aus Google MyBusiness für die lokale Entitäten-Box.
Warum sind Entitäten so relevant für SEO?
Google hat mit dem Knowledge Graph und dem Hummingbird Update den Ranking-Algorithmus und Teile des Index auf eine semantische Suche umgestellt. Ein wichtiger Bestandteil spielt dabei der Knowledge Graph als semantische Datenbank. Graphen-Modelle bestehen immer aus sogenannten Knoten und Kanten. Die Knoten sind Entitäten und die Kanten beschrieben die Beziehung zwischen diesen Entitäten. Somit ist Google in der Lage auch Fragen bzw. Suchterme zu beantworten, bei denen der gesuchte Begriff gar nicht vorkommt.
Mehr dazu in meinem Fachartikel bei Searchmetrics Wie interpretiert Google heute Suchanfragen?
Zusammengefasst: Häufige Fragen zum Thema Entitäten
Nachfolgend eine Zusammenfassung von häufigen Fragen zu Entitäten.
Warum sind Entitäten so relevant für SEO?
Google hat mit dem Knowledge Graph und dem Hummingbird Update den Ranking-Algorithmus und Teile des Index auf eine semantische Suche umgestellt. Ein wichtiger Bestandteil spielt dabei der Knowledge Graph als semantische Datenbank. Graphen-Modelle bestehen immer aus sogenannten Knoten und Kanten. Die Knoten sind Entitäten und die Kanten beschrieben die Beziehung zwischen diesen Entitäten. Somit ist Google in der Lage auch Fragen bzw. Suchterme zu beantworten, bei denen der gesuchte Begriff gar nicht vorkommt.
Was bedeutet Semantik?
Die Semantik ist ein Begriff aus der Bedeutungslehre für Wörter, Phrasen, Bilder oder Symbole. Die Semantik spielt bei der Kategorisierung, Deutung und Auslieferung von Informationen im Internet eine immer größere Bedeutung. Viele große Online-Plattformen wie Facebook und Google greifen bereits auf semantische Funktionalitäten zurück.
Wofür wird ein Knowledge Graph genutzt?
Ein knowledge Graph ist eine semantische Datenbank aus Knoten und Kanten. Jeder Knoten steht für eien Entität mit Attributen und Klassifizierung. Die Kanten stellen die Beziehungen zwischen den Entitäten dar. Über einen Knowledge Graph lassen sich semantische Bedeutungen von Begriffen, deren semantischen Kontext und Nähe zu anderen Begriffen identifizieren.
Weiterführende Quellen zum Thema Entität
- Entität (Informatik) bei Wikipedia
- Entität (Philosophie) bei Wikipedia
- Was bedeuten Semantik und Machine Learning für die Google-Suche?
- Wie erkennt Google Entitäten und wie nutzt man das für SEO?
- Semantische Suchmaschinenoptimierung (SEO) für Google
- SERPs in den SERPs: Die Entitäten-Box bei Google
- Wie funktioniert der Knowledge Graph von Google?
- Digitaler Markenaufbau: Das Zusammenspiel aus (Online-)Branding & Customer Experience - 7. August 2024
- Google Helpful Content: Was wirklich wichtig ist! - 13. Juli 2024
- Information Gain: Wie wird er berechnet? Welche Faktoren sind entscheidend? - 12. Juli 2024
- Shopping-Graph-Optimierung: Die Zukunft für Shop SEO / E-Commerce SEO - 16. Mai 2024
- Die Google Suche: So funktioniert das Ranking der Suchmaschine heute - 13. Februar 2024