Was ist ein Vektorraum?
Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.
Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.
Word2Vec Vektorraumanalyse
Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.
Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.
Die beiden Formen von Word2Vec: CBOW und Skip-Ngram
Es gibt zwei Arten von Word2Vec.
CBOW beginn bei den Kontext-Begriffen, um einen Fokus.Begriff zu ermitteln. Skip-Ngram ermittelt umgekehrt aus dem Fokus-Begriff die Kontext-Begriffe.
Quelle: Jordan Boyd-Graber, https://www.youtube.com/watch?v=QyrUentbkvw
Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec
- Suchintention, Search Intent & Nutzerintention identifzieren (Premium) - 21. Januar 2021
- Meine SEO-Analyse des Google Dezember Core Updates - 18. Dezember 2020
- SERP-Analysen für die nutzerzentrierte Content-Konzeption (Premium) - 8. Dezember 2020
- Recherche von Content-Ideen: Datengestützte Themen-Recherche, MAFO & Kreativitätstechniken (Premium) - 17. November 2020
- Nutzerzentrierung im Marketing: Der Weg zur Kunden-Perspektive - 27. Oktober 2020