5/5 - (2 votes)

Dieser Beitrag fasst Methoden aus einem Google-Patent für die kontextuelle Suche angewandt auf Multimedia-Content wie z.B. Videos oder Podcasts zusammen. Der Beitrag ist interessant für SEOs und Content-Verantwortliche.

Zusammenfassung des Patents „Contextual Search on multimedia content“

Das Patent mit dem Titel  „Contextual Search on multimedia content“ mit der Patent-Nummer 11204927B2 wurde am 21.12.2021 von Google gezeichnet. Es beschreibt Methoden wie ein Computer-System Nutzern Antworten auf Fragestellungen zu Entitäten aus einem Multimedia-Content wie z.B. einem Video geben kann.

Beantwortung von Fragen zu Entitäten aus einem Video

Beim Betrachten eines Videos können bei einem Nutzer Fragen zu den im Video vorkommenden Objekten bzw. Entitäten aufkommen. Beispielsweise will der Nutzer wissen wollen wie eine im Video vorkommende Person heißt. Oder der Nutzer will ein Automodell identifizieren, das im Video vorkommt.

Aktuell muss der Nutzer das Video stoppen eine Suchanfrage bei Google eingeben, die z.B. den Titel den Videos in Kombination mit der Fragestellung enthält, um eine mögliche Antwort zu den Fragen zu erhalten. Er muss also den Konsum des Videos unterbrechen. Der Benutzer muss dann möglicherweise die Ergebnisse der Suchmaschine weiter durchsuchen, um eine Webseite zu finden, die Antworten auf die Fragen des Benutzers zum Video enthält. Dieser Vorgang nimmt Zeit in Anspruch, lenkt die Aufmerksamkeit des Benutzers vom Video ab und verschlechtert folglich das Erlebnis des Benutzers.

Die beschriebenen Methoden modifizieren (z.B. umschreiben) die Suchanfrage so, dass die modifizierte (oder umgeschriebene) Suchanfrage automatisch Kontext für den Inhalt enthält, auf den die Suchanfrage abzielt, und auch relevante Ergebnisse für die Abfrage liefert, während der Benutzer den Inhalt weiterkonsumiert.

Es können Entitäten, die mit Multimedia-Inhalten (z. B. Videoinhalten) verbunden sind, extrahiert werden. Die Entitäten können Werte enthalten, die ein oder mehrere Objekte (z. B. Personen, Artikel usw.) charakterisieren, die in den Multimedia-Inhalten dargestellt sind. Ein oder mehrere Kandidaten zum Umschreiben von Abfragen können auf der Grundlage der extrahierten Entitäten und eines oder mehrerer Begriffe in einer Suchanfrage, die sich auf den Multimedia-Inhalt bezieht, erzeugt werden.

Die Generierung kann durchgeführt werden, wenn die Suchanfrage, die sich auf den Multimediainhalt bezieht, von einem Benutzer empfangen wird. Zum Beispiel kann der Benutzer die Suchanfrage über ein Suchfeld eingeben, während er Video-Streaming-Inhalte ansieht. Der Benutzer kann die Suchanfrage auch per Sprache stellen. Die Abfrage kann sich z.B. auf eine Person, die  in den Videoinhalten vorkommt. Als nicht einschränkendes Beispiel kann der Benutzer beim Betrachten von Videoinhalten eine Abfrage mit der Frage „Wer ist diese Person“ stellen, ohne dass ein zusätzlicher Kontext in der Suchanfrage angegeben wird.

Die Suchergebnisse können in Echtzeit zur Verfügung gestellt werden, während der Benutzer die Multimedia-Inhalte konsumiert. So muss der Benutzer keine Suche in einer separaten Suchmaschine durchführen und dann die Suchergebnisse weiter durchsuchen, um eine Webseite zu finden, die Antworten auf die Anfrage des Benutzers bezüglich des Multimedia-Inhalts enthält.

Die Antworten bzw. Suchergebnisse auf die Suchanfragen können in einem Pop-Up-Fenster ausgegeben werden, ohne dass der das Video verlassen muss.

Entitäten-Erkennung aus dem Video-Content

Das System kann sich auch auf die Entitäten beziehen, die zu einem bestimmten Zeitpunkt im Video vorkommen. Diese Zeitpunkte können sich auf bestimmte Abschnitte wie z.B. Minute 10 bis 15 oder auf gesetzte Zeitstempel in dem Video beziehen.

For example, if user 176 provides a query at fifteen minutes into the video, entity extractor 132 may extract entities that appear in the video at the fifteen minute mark or in a range of time that includes the fifteen minute mark. The range of time may be a predetermined (or preset) range of time (e.g., two minute range, twenty second range, etc.). In some implementations, entity extractor 132 extracts timestamps associated with the entities that may indicate when the entities appear in the multimedia content.

Im Video vorkommende Entitäten können über eine Scoring Engine hinsichtlich der Zeitstempel bewertet werden. Je näher eine Entität an einem Zeitstempel liegt, desto wahrscheinlich ist es, dass diese in der Szene eine Rolle spielt.

In some implementations, scoring and ranking engine 138 may score one or more extracted entities based on or a time associated with a query initially provided by user 176 and timestamps and properties of extracted entities. For example, scoring and ranking engine 138 may review timestamp information that may be associated with one or more extracted entities.

Im Patent wird beschrieben, aus welchen Merkmalen Google mit dem Video in Beziehung stehenden Entitäten erkennen kann. Das können sein:

  • Dateibezeichnung
  • Kommentare und Anmerkungen von Nutzern
  • Video-Metadaten

Kommentare und Anmerkungen von Nutzern werden in einem Social Data Server erfasst.

Das besondere an den vorgestellten Methoden ist, dass ein Nutzer in einer Suchanfrage nicht den Kontext angeben muss, damit eine adäquate Antwort gegeben werden kann. So kann er sich kontextlos auf eine Videoszene beziehen und einfach fragen „wer ist die person?“ oder „was ist das für ein auto?“ ohne sich direkt auf das Video beziehen zu müssen, das er gerade sieht.

In some scenarios, the query may not include any context. For example, when viewing the video a user may want to know a name of a person appearing in the video when the person appears in the video. In this example, user 176 may provide the query “Who is this person?” The query may be provided by user 176 when the person appears in the video. In another example, the user may want to identify a model of a car appearing in the video. In this example, user 176 may provide the query “Which car is this?” or “Which car?” The queries may also include queries such as “What is the price of this car?” “Where is this car made?” “Who is the person driving this car?” “Show me other videos that have this car” etc. In these queries, the user has not provided context, such as, the name of the video, characteristics of the car or person or any other context.

Die gestellte Frage kann ergänzt werden durch weitere ähnliche Fragen zu der jeweiligen Entität oder die Suchanfrage wird ungeschrieben. Bewertungskriterien für weitere Fragen und/oder Umschreibung können Kookkurrenzen,  der für eine Entität bestimmte Entitäts-Typ, Anzahl der Suchergebnisse oder zuvor gestellten Suchanfragen sein.

So können auch Fragen beantwortet werden, in denen die Entität nicht genannt werden, wie z.B. „In welchen Filmen spielt er noch mit?“. Die Umschreibung könnte dann je nach identifizierter Entität in der Videoszene „in welchen Filmen spielt Johnny Depp“ noch mit mit lauten.

 

Fazit: MUM is in the house

Ähnlich wie das im Beitrag Youtube: Interpretation und Ranking von Videos via Entitäten  beschriebene Google-Patent weist auch dieses deutliche Zusammenhänge zu MUM auf. Auch hier geht es um die bessere Interpretation von multimedialen Content wie z.B. Videos. Und auch hier spielt dies semantische Interpretation über Entitäten eine zentrale Rolle, um (Suchan-)Fragen von Nutzern besser beantworten zu können.

Ich bin gespannt ob wir solch ein Feature zukünftig bei Youtube entdecken werden…

 

Zu Olaf Kopp

Olaf Kopp ist ein international anerkannter Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung im Online-Marketing, Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO bei der Aufgesang GmbH. Er ist Autor, Podcaster und anerkannter Branchenexperte für semantische SEO, E-A-T, Online- und Content-Marketing-Strategien entlang der Customer Journey und digitale Markenbildung. Olaf Kopp ist Mitgründer und Moderator des Content-Marketing-Podcasts Content-Kompass. Kopp ist Autor des Buches “Content-Marketing entlang der Customer Journey” und Mitorganisator des SEAcamp. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. Search Engine Land, t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Olaf Kopp ist Suchmaschinen-Marketer, Content-Marketer und Customer-Journey-Enthusiast, bewegt sich als Schnittstelle zwischen verschiedenen Marketing-Welten und baut Brücken immer eine nutzerzentrierte Strategie im Auge.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.