Word2Vec ist eine Methode aus der Vektorraumanalyse im Rahmen des NaturalLanunguage Processing (NLP). Die Suchmaschine Google nutzt Verfahren der Vektorraumanalyse wie Word2Vec für die Interpretation von Suchanfragen als auch die Relevanzbestimmung von Dokumenten.
Was ist ein Vektorraum?
Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.
Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.
Word2Vec Vektorraumanalyse
Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.
Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.
Die beiden Formen von Word2Vec: CBOW und Skip-Ngram
Es gibt zwei Arten von Word2Vec.
CBOW beginn bei den Kontext-Begriffen, um einen Fokus.Begriff zu ermitteln. Skip-Ngram ermittelt umgekehrt aus dem Fokus-Begriff die Kontext-Begriffe.
Quelle: Jordan Boyd-Graber, https://www.youtube.com/watch?v=QyrUentbkvw
Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec
Olaf Kopp ist Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung in Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO & Content bei der Online Marketing Agentur Aufgesang GmbH.
Olaf Kopp ist international anerkannter Branchenexperte für semantische SEO, E-E-A-T, KI- und Suchmaschinen-Technologie, Content-Marketing und Customer Journey Management. Er ist Gründer der weltweit ersten Datenbank für Patente und Research Paper, die jeder SEO kennen sollte.
Als Autor schreibt er für nationale und internationale Fachmagazine wie Searchengineland, t3n, Website Boosting, Hubspot Blog, Sistrix Blog, Oncrawl Blog ... . 2022 war er Top Contributor bei Search Engine Land.
Als Speaker stand er auf Bühnen der SMX, SEA/SEO World, CMCx, OMT, Digital Bash oder Campixx.
Er ist ist Host der Podcasts OM Cafe und Digital Authorities. Er ist ist Autor des Buches "Content-Marketing entlang der Customer Journey", Co-Autor des Standardwerks "Der Online Marketing Manager" und Mitorganisator des SEAcamp.
Seit dem ersten Helpful Content Update in 2022 macht sich die SEO-Welt Gedanken darüber wie man "hilfreiche Inhalte" erstellen oder ihn dahingehend optimieren kann. Es werden Hypothesen aufgestellt, Analysen, Checklisten und Audits erstellt. Ich blicke auf die meisten dieser Ansätze mit etwas Skep... Artikel anzeigen
Seit der Vorstellung von generativer KI in Form von ChatGPT, BARD oder SGE erobern Large Language Models (LLMs) die Welt und finden den Weg auch in die Suchmaschinen. SEOs diskutieren weltweit über die Möglichkeit, KI-Ausgaben via Large Language Model Optimization (LLMO), Generative Engine Optimiz... Artikel anzeigen
In diesem Beitrag möchte darauf eingehen welche Schritte und Innovationen Google seit 2010 näher an das Ziel des semantischen Verständnisses in der Suche gebracht haben. Es ist eine Zusammenfassung meiner Recherchen und Analysen seit 2013. Im Detail gehe ich auch auf die Rolle von Natural Languag... Artikel anzeigen
In Zeiten von massenhaft erstellten KI-Inhalten und Large Language Models (LLMs) als Basis für die Ausgabe von Antworten werden Inhalte immer ähnlicher und austauschbarer werden. Zudem steigt die Gefahr der Verbreitung von Falschinformationen exponentiell an.
Deswegen wird es für Suchmaschinen... Artikel anzeigen
Im Mai 2014 habe ich einen Beitrag mit dem Titel "Branding und das neue Google-Ranking: Warum SEO nicht mehr reicht..." geschrieben. Knapp 10 Jahre später ist es Zeit für eine Neuauflage, denn es hat sich viel getan. Einige Monate nach dem genannten Beitrag hat Google das E-A-T-Konzept in den Qual... Artikel anzeigen
Zu den Grundlagen im Information Retrieval, also der Wissenschaft hinter Suchmaschinen , gehören die drei Begriffe Relevanz, Pertinenz und Nützlichkeit. Zudem gibt es noch den Bereich Qualität. In diesem Beitrag möchte ich diese Fachbegriffe / Bereiche erklären und voneinander abgrenzen.
Was i... Artikel anzeigen
Dieser Beitrag meiner Artikelreihe zu Semantik und Entitäten in der SEO und bei Google beschäftigt sich mit der Rolle von Entitäten bei der Interpretation von Suchanfragen. Dabei werde ich auf einige Google Patente der letzten Jahre eingehen und daraus Ableitungen für das Search Query Processing... Artikel anzeigen
Dies ist der vierte Teil einer Beitragsreihe zum Thema semantische SEO und behandelt die Frage, ob Google wirklich die Bedeutung von Dokumenten und Suchanfragen versteht oder es doch nur statistische Analysen deutet.
Semantisches Verständnis als Ziel von Google
Eines der wichtigsten Ziele von Goo... Artikel anzeigen
In diesem Beitrag werde ich mich tiefer mit Natural Language Processing (kurz NLP) für Data Mining und speziell für den Knowledge Graph und Suchmaschinen beschäftigen. Zum Anfang möchte ich in die Grundlagen von Natural Language Processing einsteigen.
Eine ausführliche Beitragssammlung zum T... Artikel anzeigen
Wie im letzten Beitrag Wie verarbeitet Google Informationen aus der Wikipedia für den Knowledge Graph? erläutert gibt es bei Wissens-Datenbanken wie dem Knowledge Graph die herausfordernde Aufgabe Vollständigkeit und Richtigkeit der Informationen in Balance zu halten. Eine notwendige Voraussetzun... Artikel anzeigen
Dieser Beitrag meiner Artikelreihe zu Semantik und Entitäten in der SEO beschäftigt sich damit wie Google für Suchanfragen mit Entitäten-Bezug u.a. über Natural Language Language Processing und Vektorraumanalysen passende Inhalte identifiziert und rankt. Dazu habe ich über 20 Google-Patente un... Artikel anzeigen
Ein neues Google-Patent aus November 2021 hat meine Aufmerksamkeit erweckt. In ihm wird beschrieben, wie Google in natürlicher Sprache gestellte Fragen basierend auf Entitäten-Referenzen aus unstrukturierten Informationen erkennen und ranken kann. Viel Spass beim Lesen!
Das Google-Patent
Das Goo... Artikel anzeigen
Dies ist ein übersetzter Beitrag von Bill Slawski. Das Original befindet sich hier .
Klassifizierung von Websites nach E-A-T
Google schreibt in einem Patent, dass es möglicherweise Vektorraumanalysenverwendet, um Websites anhand von Merkmalen zu klassifizieren, die auf diesen Websites gefunden ... Artikel anzeigen
Dies ist ein Beitrag von Bill Slawski übersetzt aus dem englischen Original-Beitrag Adjusting Featured Snippet Answers by Context
Wie wird über Featured-Snippet-Antworten entschieden?
Ich habe vor kurzem über die Bewertungssignale für Featured Snippet Answer Scores geschrieben. In diesem Beitr... Artikel anzeigen
Ein diese Woche veröffentlichtes Update zu einem Patent verrät uns, wie Google die Ergebnisse für ein Snippet bewerten kann.
Wenn eine Suchmaschine eine Rangfolge von Suchergebnissen als Antwort auf eine Suchanfrage erstellt, kann sie eine Kombination aus anfrageabhängigen und anfrageunabhän... Artikel anzeigen