Was sind Vektorraumanalysen? Was ist Word2Vec?
5 (100%) 1 vote
Word2Vec ist eine Methode aus der Vektorraumanalyse im Rahmen des Natural Lanunguage Processing (NLP). Die Suchmaschine Google nutzt Verfahren der Vektorraumanalyse wie Word2Vec für die Interpretation von Suchanfragen als auch die Relevanzbestimmung von Dokumenten.

Was ist ein Vektorraum?

Ein Vektorraum besteht aus einzelnen Datenpunkten, über die Vektoren im jeweiligen Vektorraum abgebildet werden können. Über den Winkel zwischen den Vektoren lassen sich Ähnlichkeiten bzw. Beziehungen zwischen den Datenpunkten feststellen. Je größer der Winkel, desto weniger Ähnlichkeit besteht. Umgekehrt gilt: Je kleiner ein Winkel, desto größer die Ähnlichkeit. Für die Hauptkomponenten-Analyse wird z.B. eine Suchanfrage als Vektor in den Vektorraum mit allen verfügbaren relevanten Dokumenten gezogen. Hierbei nutzt Google das sogenannte Word2Vec-Verfahren.

Durch die Nähe der Datenpunkte zueinander lassen sich semantische Beziehungen dieser Datenpunkte zueinander abbilden. Typischerweise werden als Vektoren Suchanfragen und Dokumente abgebildet, die so in Beziehung zueinander gesetzt werden. Ein weiterer Anwendungsfall sind Dokumente und Begriffe in diesen Dokumenten als Vektoren abzubilden, um das Konzept/Thema eines Dokuments zu identifizieren. Vorstellbar wäre aber auch, Entitäten wie z.B. Personen, Marken oder Unternehmen und Themen als Vektoren abzubilden.

Word2Vec Vektorraumanalyse

 

Im Beispiel erhalten Suchanfrage und mögliche Ergebnisse eine Position im Raum. Die semantische Beziehung zwische Suchanfrage und Ergebnis 1 ist größer, weil der Winkel kleiner ist. Deshalb wird Ergebnis 1 für diese Suchanfrage besser gerankt als Ergebnis 2.

Um Vektorraum-Analysen anzuwenden, müssen zuerst Dokumente indexiert werden und Konzepten bzw. Themenbereichen zugeordnet werden, welche dann in den jeweiligen themenrelevanten Korpus bilden. Ein Verfahren, um diesen Schritt durchzuführen, ist die latent semantische Analyse (LSI). Somit können Vektorräume geschaffen werden, die hinsichtlich Precision und Recall die besten Ergebnisse liefern. Über diesen Weg lässt sich auch eine semantische Klassifizierung bzw. Clustering von Begriffen durchführen, bezogen auf ein Thema.

 

Weitere Quellen zum Thema Vektorraumanalyse & Word2Vec

herausgegeben von: Olaf Kopp
Datum: 6. Dezember 2018

Blog-Artikel zu diesem Thema

Relevanz, Pertinenz und Nützlichkeit bei Google

Zu den Grundlagen im Information Retrieval, also der Wissenschaft hinter Suchmaschinen gehören die drei Begriffe Relevanz, Pertinenz und Nützlichkeit. Worauf Google gerade den Fokus legt soll hier erläutert werden. Was ist Relevanz ? "Relevanz ist eine Bezeichnung für die Bedeutsamkeit und ... Artikel anzeigen