Word2Vec ist eine Methode aus der Vektorraumanalyse im Rahmen des Natural Lanunguage Processing (NLP). Die Suchmaschine Google nutzt Verfahren der Vektorraumanalyse wie Word2Vec für die Interpretation von Suchanfragen als auch die Relevanzbestimmung von Dokumenten.
Was ist ein Vektorraum?
Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.
Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.

Word2Vec Vektorraumanalyse
Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.
Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.
Die beiden Formen von Word2Vec: CBOW und Skip-Ngram
Es gibt zwei Arten von Word2Vec.
CBOW beginn bei den Kontext-Begriffen, um einen Fokus.Begriff zu ermitteln. Skip-Ngram ermittelt umgekehrt aus dem Fokus-Begriff die Kontext-Begriffe.

Quelle: Jordan Boyd-Graber, https://www.youtube.com/watch?v=QyrUentbkvw
Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec
- Die Dimensionen des Google-Rankings - 10. November 2024
- 80+ Faktoren für eine E-E-A-T-Bewertung durch Google - 5. November 2024
- Case Study: 1400% Sichtbarkeitssteigerung in 6 Monaten durch E-E-A-T der Source Entity - 24. September 2024
- Digitaler Markenaufbau: Das Zusammenspiel aus (Online-)Branding & Customer Experience - 7. August 2024
- Google Helpful Content: Was wirklich wichtig ist! - 13. Juli 2024
Blog-Artikel zu diesem Thema
Google Helpful Content: Was wirklich wichtig ist!

Sind LLMO, GAIO oder GEO die Zukunft von SEO?

Googles Weg zur semantischen Suchmaschine

Digital Authority Management: Eine neue Disziplin in Zeiten von SGE & E-E-A-T

In Zeiten von E-E-A-T: Warum einfach SEO nicht mehr reicht

Relevanz, Pertinenz und Qualität bei Suchmaschinen

Wie versteht Google Suchanfragen durch Search Query Processing?

Wie schlau ist Google? Echtes semantisches Verständnis oder nur Statistik?

Die Rolle von Natural Language Processing für Data Mining, Entitäten & Suchanfragen

Wie kann Google aus unstrukturierten Inhalten Entitäten identifizieren und deuten?

Wie kann Google über Entitäten, NLP & Vektorraumanalysen relevante Dokumente identifizieren und ranken?

Wie Google Fragen auf Basis unstrukturierter Daten beantworten kann

E-A-T: Klassifizierung von Websites über Vektorraumanalysen nach Autorität und Expertise

Wie Google Textpassagen für Featured Snippets nach dem Kontext auswählen kann

Wie Google Ergebnisse für ein Featured Snippet auswählen kann
