Word2Vec ist eine Methode aus der Vektorraumanalyse im Rahmen des Natural Lanunguage Processing (NLP). Die Suchmaschine Google nutzt Verfahren der Vektorraumanalyse wie Word2Vec für die Interpretation von Suchanfragen als auch die Relevanzbestimmung von Dokumenten.

Was ist ein Vektorraum?

Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.

Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.

Word2Vec Vektorraumanalyse

 

Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.

Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.

Die beiden Formen von Word2Vec: CBOW und Skip-Ngram

Es gibt zwei Arten von Word2Vec.

CBOW beginn bei den Kontext-Begriffen, um einen Fokus.Begriff zu ermitteln. Skip-Ngram ermittelt umgekehrt aus dem Fokus-Begriff die Kontext-Begriffe.

Quelle: Jordan Boyd-Graber, https://www.youtube.com/watch?v=QyrUentbkvw

Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO der Aufgesang GmbH . Im Fokus seiner Untersuchungen, Ideen und Arbeiten stehen die Themen digitaler Markenaufbau, Online- und Content-Marketing-Strategien entlang der Customer-Journey und semantische Suchmaschinenoptimierung. Von 2012 bis 2015 war er Geschäftsführer. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Er ist Mitveranstalter des SEAcamps und Moderator des Podcasts Content-Kompass auf termfrequenz. Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Marketing und digitaler Kommunikation.
herausgegeben von: Olaf Kopp
Datum: 6. Dezember 2018

Blog-Artikel zu diesem Thema

Relevanz, Pertinenz und Nützlichkeit bei Google

Zu den Grundlagen im Information Retrieval, also der Wissenschaft hinter Suchmaschinen gehören die drei Begriffe Relevanz, Pertinenz und Nützlichkeit. Worauf Google gerade den Fokus legt soll hier erläutert werden. Was ist Relevanz ? "Relevanz ist eine Bezeichnung für die Bedeutsamkeit und ... Artikel anzeigen