4.5/5 - (2 votes)

Word2Vec ist eine Methode aus der Vektorraumanalyse im Rahmen des Natural Lanunguage Processing (NLP). Die Suchmaschine Google nutzt Verfahren der Vektorraumanalyse wie Word2Vec für die Interpretation von Suchanfragen als auch die Relevanzbestimmung von Dokumenten.

Was ist ein Vektorraum?

Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.

Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.

Word2Vec Vektorraumanalyse

 

Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.

Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.

Die beiden Formen von Word2Vec: CBOW und Skip-Ngram

Es gibt zwei Arten von Word2Vec.

CBOW beginn bei den Kontext-Begriffen, um einen Fokus.Begriff zu ermitteln. Skip-Ngram ermittelt umgekehrt aus dem Fokus-Begriff die Kontext-Begriffe.

Quelle: Jordan Boyd-Graber, https://www.youtube.com/watch?v=QyrUentbkvw

Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec

Zu Olaf Kopp

Olaf Kopp ist Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung in Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO & Content bei der Online Marketing Agentur Aufgesang GmbH. Olaf Kopp ist international anerkannter Branchenexperte für semantische SEO, E-E-A-T, KI- und Suchmaschinen-Technologie, Content-Marketing und Customer Journey Management. Er ist Gründer der weltweit ersten Datenbank für Patente und Research Paper, die jeder SEO kennen sollte. Als Autor schreibt er für nationale und internationale Fachmagazine wie Searchengineland, t3n, Website Boosting, Hubspot Blog, Sistrix Blog, Oncrawl Blog ... . 2022 war er Top Contributor bei Search Engine Land. Als Speaker stand er auf Bühnen der SMX, SEA/SEO World, CMCx, OMT, Digital Bash oder Campixx. Er ist ist Host der Podcasts OM Cafe und Digital Authorities. Er ist ist Autor des Buches "Content-Marketing entlang der Customer Journey", Co-Autor des Standardwerks "Der Online Marketing Manager" und Mitorganisator des SEAcamp.
herausgegeben von:
Datum: 6. Dezember 2018

Blog-Artikel zu diesem Thema

Sind LLMO, GAIO oder GEO die Zukunft von SEO?

Seit der Vorstellung von generativer KI in Form von ChatGPT, BARD oder SGE erobern Large Language Models (LLMs) die Welt und finden den Weg auch in die Suchmaschinen. SEOs diskutieren weltweit über die Möglichkeit, KI-Ausgaben via Large Language Model Optimization (LLMO), Generative Engine Optimiz... Artikel anzeigen

Googles Weg zur semantischen Suchmaschine

In diesem Beitrag möchte darauf eingehen welche Schritte und Innovationen Google seit 2010 näher an das Ziel des semantischen Verständnisses in der Suche gebracht haben. Es ist eine Zusammenfassung meiner Recherchen und Analysen seit 2013. Im Detail gehe ich auch auf die Rolle von Natural Languag... Artikel anzeigen

In Zeiten von E-E-A-T: Warum einfach SEO nicht mehr reicht

Im Mai 2014 habe ich einen Beitrag mit dem Titel "Branding und das neue Google-Ranking: Warum SEO nicht mehr reicht..." geschrieben. Knapp 10 Jahre später ist es Zeit für eine Neuauflage, denn es hat sich viel getan. Einige Monate nach dem genannten Beitrag hat Google das E-A-T-Konzept in den Qual... Artikel anzeigen

Relevanz, Pertinenz und Qualität bei Suchmaschinen

Zu den Grundlagen im Information Retrieval, also der Wissenschaft hinter Suchmaschinen , gehören die drei Begriffe Relevanz, Pertinenz und Nützlichkeit. Zudem gibt es noch den Bereich Qualität. In diesem Beitrag möchte ich diese Fachbegriffe / Bereiche erklären und voneinander abgrenzen. Was i... Artikel anzeigen