5/5 - (2 votes)

Seit Digitale Sprachassistenten in die Wahrnehmung und Geldbeutel der breiten Masse gefunden haben, wird nicht nur die Entwicklung der Systeme selbst mit Hochdruck angetrieben, sondern auch Marken und Unternehmen suchen ihren Eintrittspunkt in den Markt und die Anwendung von „Smart Voice“. Im folgenden soll der Pfad des Marketings in dieses noch so junge und dynamische Marktsegment eingerahmt werden, um ein grundlegendes Verständnis für Funktion, Eigenschaften und Möglichkeiten von digitalen Sprachassistenten aufbauen zu können, bei dem man doch mehr Bekanntes aus Internet und Marketing vorfindet als vielleicht zuerst gedacht.

Marktentwicklung und erste Killeranwendung

So wie Geräte unser Heim und Leben smarter machen (Smart Home/Smart Living), so machen digitale Sprachassistenten unsere Stimme leistungsfähiger (Smart Voice). Digitale Sprachassistenten sind in deutschsprachigen Landen seit 2016 ziemlich “heiß“. In den USA und Asien tauchten sie schon etwas früher auf, bedingt nicht etwa durch Apples Siri, sondern durch die große Werbepower von Amazon mit dem smarten Lautsprecher Amazon Echo und dem Quasselstrippendienst Alexa; auf dem Fuße folgend der Google Assistant und oder auch Samsung Bixby und Weitere die in bestimmten Nischen ihr Zuhause haben.

Digitale Sprachassistenten haben definitiv den Massenmarkt erreicht, wobei auf Umfragen basierende Marktzahlen zwischen Ist-nicht und Paradigmenwechsel würfeln lassen. Es wird gestritten ob der Formfaktor des smarten Lautsprechers der Kauf- und Nutzantrieb ist, die barrierefreie Sprache für Gehör und Stimme oder einfach nur die Gadgetverliebtheit der Menschen.

Unternehmen halten durch Unverständnis der Sache, bei Investitionen in Smart Voice noch sehr zurück, auch wenn Systemanbieter wie Apple und Google gewaltigste Investitionen tätigen, um die smarten persönlichen Assistenten die sprechen können, überall im menschlichen Leben und Arbeiten zu platzieren und somit den Markt in so vielen Segmenten wie nur möglich zu besetzen. Aktuell gelingt dies, bedingt durch die noch eher geringe Smartheit und Dialogfähigkeit der Systeme, am meisten in der Steuerung, zum Beispiel von Geräten wie Steckdosen, Lampen oder Staubsaugern und Diensten wie auch Online-Dienste alla Amazon Prime Video, Spotify und eben auch Suchmaschinen. Da wo viele zu digitalen Sprachassistenten kompatible Geräte sind, ist auch eine entsprechende Nutzung, auch wenn diese Nutzung aktuell nicht valide sichtbar ist und natürlich viele Installationen ungenutzt bleiben. Alleine die Verbreitung des Google Assistant auf Milliarden von Smartphones bildet eine gewaltige Nutzungsmenge ab, die bisher kein anderes digitales Sprachassistenzsystem einholen konnte, auch wenn das nichts über die Intensität- oder Form der Nutzung aussagt.

Wie schon immer, hat das stets wirbelnde, aber auch innovative Marketing, auch bei der Entwicklung von Smart Voice, das größte Ohr am Markt und sucht seine Möglichkeiten in diesem schnell wachsenden Kommunikationskanal zum Nutzer. Die wohl spannendste Disziplin des Marketings, ist dabei die schnell fortschreitende Suchmaschinenoptimierung (SEO), womit die Unternehmen die Möglichkeit haben sich, durch den Kanal der digitalen Sprachassistenten, als „Punkt der Erfüllung“ auf die oberste-erste Position auf Ergebnislisten zu positionieren um den Nutzer zu erreichen.

Smart Voice als Paradigmenwechsel im Marketing?

Des Marketings besonderes Augenmerk und Herausforderung, liegt im Bezug zu Digitalen Sprachassistenten, im Wesen der gesprochenen Sprache (Stimme) und den darin kodierten situativen Absichten (Intents). Denn letztendlich drücken diese Intents aus, was der Nutzer wirklich will und sind damit der direkteste und emotionalste Kanal zum Nutzer. Entsprechend ist „Intent Marketing“ bereits seit ca. 2005 in der Diskussion, konnte sich in den Köpfen der Marketer aber wenig durchsetzen, da nur wenig entwickelt, diskutiert und vor allem ausprobiert. Digitale Sprachassistenten forcieren diese Form des Marketings aber nun vehement, da nur Intent Marketing in den sensibel-emotionalen Smart Voice Kommunikationskanal wirklich passt, ohne den Nutzer extremst in der Wahrnehmung zu stören.

Kernaufgabe des Intent Marketings ist es, in Erfahrung zu bringen, was dem Nutzer zu liefern oder für ihn zu tun ist, bevor der Nutzer selbst es weiß, braucht oder will.

  • Grundprinzip: Nutzerabsichten
  • Hoher Grad an Personalisierung
  • Umfassende Verhaltens- und Nutzungsprotokollierung
  • Prädiktive Analyse und Handlung

INTENT
MARKETING

Intents sind in der Suchmaschinenoptimierung wie von Google definiert, nichts wirklich Neues (Informationsorientiert, Transaktionsorientiert, Navigationsorientiert), wenn auch nicht in der Form verstanden, wie die gesprochene/gehörte Sprache es verlangt, da sie kategorisierender Natur sind und damit keine eigentlichen Intents.

Hinter jeder menschlichen Absicht steht, bedingt durch irgendeinen situativen Auslöser, stets ein gewünschter emotionaler Ausgleich des Menschen, der sein Verhalten, seine Sprache und Informationsinterpretation bestimmt. Dies findet sich nun seit Anfang 2020 auch als Definition von Grundbedürfnissen in der Google Suchmaschine wieder (Thrill me, Impress me, Educate me, Reassure me, Help me, Suprise me) und entspricht damit bereits einer großen Zahl von menschlichen, über die Stimme transportierte Absichten, die ein digitaler Sprachassistent zu erfassen und möglichst auch zu erfüllen hat.

Auf Absichten basierend (Intent based), dürfte in den nächsten Jahren ein weiteres Buzzword der digitalen Welt werden, welches sich dabei nicht auf die Hör-Sprechbarkeit von Inhalten und Prozessen begrenzt. Schon heute forciert auch Google diesen Ansatz in vielen seiner Produkte, nicht zuletzt natürlich im Google Assistant und sonstigen Lösungen.

Intents erkennen: Natural Language Processing/Understanding (NLP/NLU)

Spannende Teilbereiche der Absichtenbestimmung sind die Teile der Sprache, welche die wirkliche Absicht des Nutzers transportieren oder maskieren, aber eben auch ausdrücken. Daher sind Themenintensität (Salience) und Meinung (Sentiment) der Sprache zwar die schwierigsten Aufgabenfelder für Marketing und Technik, aber hochspannende Gebiete, um eine so breite und tiefe Personalisierung und Nutzerzentrierung von Smart Voice Anwendungsfällen und des Marketings abzubilden wie nur möglich. Letztendlich kann auch die feinste Änderung der Stimme, die Aussage der Sprache komplett verändern. Nur 7% einer Aussage steckt in den Worten selbst (Mehrabian Missverständnis). Der Rest der Kommunikation wird über alle weiteren Kommunikationsmöglichkeiten des Menschen transportiert. Was also wirklich gemeint ist, steckt weniger in den Worten selbst, als vielmehr in der Gesamtheit der Sprache, Stimme und anderer Kommunikationsmöglichkeiten des Menschen.

So verändert Google seine Suchmaschine nun schon seit Jahren immer mehr hin zur Verarbeitung von natürlicher Sprache (Natural Language Processing/Understandig, NLP/NLU) und damit Absichten. Nicht zuletzt mit dem Google Update BERT (Bidirectional Encoder Representations from Transformers) zur Verbesserung der Intentionserkennung durch Kontextbestimmung, wurde dies nochmals deutlich.

Google CEO Sundar Pinchai hat bereits auf der Google IO 2019 die Wandlung des gesamten Konzernes, hin zur virtuellen sprechenden Assistenz angekündigt: „From helping you find things, to helping you to get things done!“. Neben künstlicher Intelligenz in vielen Google Diensten, wie zum Beispiel auch Google Lens und Google Assistant, sind NLP/NLU dabei die Buzzwords der letzten Monate und Jahre um dieses von Pinchai gemachte Versprechen einzulösen und damit ultimativ wichtig für das Marketing, da es ultimativ Einfluss auf die Suchmaschine hat.

Nicht zuletzt Googles „Search Quality Evaluation Guidelines“ und „Evaluation of Search Speech Guidelines” lassen die große Relevanz der Sprache für die Suchmaschine erkennen, die auch als Datenbasis des digitalen Sprachassistenten Google Assistant und natürlich auch anderer Systeme ausgiebig genutzt werden. Auch wenn die Suchmaschinenwelt sich noch um strukturierte Daten dreht, um Inhalte für die Suchmaschine bewertbar zu machen, dürfte es Googles strenges Ansinnen sein, vor allem unstrukturierte Inhalte bestimmen zu können. Geradezu sklavisch ergibt dabei die starke Abhängigkeit zur Entwicklung der künstlichen Intelligenz, die entsprechende Werkzeuge liefert um Sprache und Stimme der Maschine kompatibel zu machen.

Multimodaler Punkt der Erfüllung

Selbst trivialere Entwicklungen der Google Suchmaschine tragen die Schablone der gesprochenen/gehörten Sprache. Gemeint ist insbesondere die „Position Null“ der Suchmaschine. Das Featured Snippet, welches an oberster Position über der Trefferliste steht und die optimalste gesuchte Information direkt ausliefert. Diese Information wird vom digitalen Sprachassistenten Google Assistant dann auch oft ausgesprochen, weil insbesondere Listen per Sprachausgabe nicht gut kommunizierbar sind und schlicht auf den „Punkt“ (…der Erfüllung) kommen müssen, um per Gehör verständlich zu sein.

Derart für das Gehör komplexe Informationen, müssen für die Ausgabe per Stimme an das Gehör entweder zwingend passend reduziert werden, oder multimodal, zum Beispiel mit Hilfe eines Bildschirms (Gestaltungsrichtlinie Voice First), an den Nutzer übertragen werden. Dies erfordert vollumfänglich eine Erweiterung der Gestaltungsmöglichkeiten von Inhalten und Prozessen, um dem Nutzer eine durchgängig smarte, barrierefreie und Natürliche Reise durch alle erdenklichen Anwendungsfälle und Prozesse zu ermöglichen. Also eine auf Voice First und menschlichen Absichten basierende multimodale User Journey.

Voice Search: Treiber für Smart Voice Marketing

Bereits in frühen Diskussionen zu digitalen Sprachassistenten im Marketing, wurde Voice Search als das primäre Werkzeug im Marketing der digitalen Sprachassistenten thematisiert. Dabei ist Voice Search, nicht gleich Voice Search. Es ist letztendlich ein Unterscheid, ob ein gesprochene Suchphrase einfach nur als Tastaturersatz in das Suchfeld einer Suchmaschine wandert, oder ob diese Suchphrase auch „als emotionale Stimme mit Absichten“ von der Suchmaschine oder dem digitalen Sprachassistenten verarbeitet wird.

Somit prallt die Welt der gesprochenen und gehörten Sprache der digitalen Sprachassistenten, nun mit der lesbar und geschrieben gestalteten Welt der letzten Dekaden des Bildschirms aufeinander. Aus schnell-formalen Inhalten für das Auge werden nun natürlich-emotionale situative Absichten für das Gehör.

Wer von Suchmaschinen spricht, meint in der Regel Google. Jedoch hat auch der Amazon Shop eine bestimmende Suchmaschine für Produkte jedweder Art, so dass auch hier eine eigene Form der Suchmaschinenoptimierung existiert: Amazon SEO. Amazon hat von Anfang an die Verbindung zwischen dem Shop und ihrem digitalen Sprachassistenten Alexa gebaut. So wird zum Beispiel ein als „Amazons Choice“ oder ein als „Bestseller“ markiertes Produkt, als erstes und oft einziges Ergebnis (Punkt der Erfüllung) von Alexa ausgesprochen.

Auf menschlichen Absichten basierend sind diese Ausgaben dabei dann jedoch eher nicht. Auch weil die Beschreibungsdaten (Mata-Daten) der Produkte einfach nicht „versprachlicht“ sind. Dennoch bietet Amazon für den digitalen Sprachassistenten Alexa eine Bewertungsmechanik (Ranking) für diese Informationen über Alexa an und hat diese sogar veröffentlicht (AlexaHypRank). Etwas, was Google niemals tun würde.

Keine Frage, Voice Search ist einer der wichtigsten Kanäle des digitalen Sprachassistenten, um Informationen an den Nutzer weitergeben zu können und zu einem Produkt oder einer Marke zu führen. Dennoch ist es aktuell so, dass die meisten Funktionen (Skills/Actions/Kapseln) des digitalen Sprachassistenten, sich dieser Datenquelle gar nicht bedienen, sondern aus eigenen Quellen schöpfen. Der Grund dafür liegt schlicht im Nicht- vorhanden-sein von sprech- und hörbaren Inhalten, da sämtliche Prozesse und Inhalte in den letzten Dekaden für Bildschirm, Auge und Haptik hergestellt wurden. Es ist also von primärer Wichtigkeit die Voice First kompatiblen Inhalte und Prozesse bereitstehen zu haben, um überhaupt den Smart Voice Kanal erobern zu können.

Auch hier forciert Google die Sprech- und Hörbarkeit schon seit geraumer Zeit. Zum Beispiel in Form von kurzen Fragen und Antwortboxen (Answerboxen) in den Suchergebnissen, dessen Inhalte in der Regel allesamt kurz genug sind, um gut Sprechbar zu sein. Daraus ergibt sich eigentlich auch die Logik, dass es nicht primär darauf ankommt eine Sprachanwendung für den digitalen Sprachassistenten im Marketing bereitstehen zu haben, sondern auf die menschliche Absicht hin optimierte Inhalte und Prozesse die Sprechbar sind. Letztendlich wird der digitale Sprachassistent in der Regel stets versuchen dem Nutzer die optimalste Information oder Aktion/Information liefern zu können. So wie Google schon heute die Position Null als optimalste Information direkt an den Nutzer ausliefert. Die Quelle der Information ist dabei eher irrelevant.

Werbeformate für Stimme und Gehör

Digitale Sprachassistenten erfordern im Marketing Werbeformate, die das Gehör in seiner Wahrnehmung nicht stören, hochgradig personalisiert und emotional sind. Auch wenn das Marktsegment Audio damit am nächsten dran ist, so ist Audio trotzdem nicht Smart Voice, denn Digitale Sprachassistenten haben dialogorientierte Inhalte und Prozesse, die direkt antwortfähig sind, Audio nicht! Ähnliches gilt für Chatbots. Ein bildschirmorientierter Dialog entspricht nicht einem gesprochenen Dialog und transportiert auch nicht die emotionalen Aspekte der Stimme. Wichtige Feinheiten, die gerne der Einfachheit halber aber leider gerne ignoriert werden, so dass zum Beispiel die Idee eines Voice Brands, beziehungsweise einer Brand Voice, da sehr schnell geboren wurde. Die Stimme des digitalen Sprachassistenten als Werkzeug zur Wiedererkennung und Impression einer Marke.

Charakter
z.B: Freundlich, Verspielt, Warmherzig, Professionell, …
Tonus
z.B: Persönlich, Vertraut, Direkt, Wissenschaftlich, Bescheiden, …
Sprache
z.B: Einfach, Speziell, Sicher, Seriös, Spassig, Weise, Fachlich, …
Zweck
z.B: Engagiert, Unterhaltend, Bildend, Erfreuend, …

Eigentlich kein so schlechter Ansatz, der aber trotz vieler großer Ankündigungen hipper Agenturen, bisher nicht umgesetzt wurde oder werden konnte. Der Marke eine Stimme zu geben und hörbar zu werden, erfordert eben mehr als nur das Offensichtliche und ist eben nicht einfach nur das Sound-Design einer Marke, sondern eines virtuellen Mitarbeiters in Form eines Markenbotschafters.

Voice First Passformate für Stimme und Gehör, dürfen nicht stören und/oder müssen gar Aufgaben übernehmen, welche die Technik sonst nicht leisten könnte. So können zum Beispiel Quittungstöne und Soundlogos einen gewissen Teil der Kommunikation übernehmen, die ein Mensch in einem Dialog sonst nonverbal ausdrücken wurde. Schließlich kann ein digitaler Sprachassistent zum Beispiel ja nicht süffisant Lächeln oder Zwinkern, um eine Aussage zu unterstreichen oder zu betonen.

Ebenso sind Deonyme, schon seit langem ein Mittel Marken ungestört Teil der Sprache werden zu lassen. Fast jeder Mensch hat schonmal etwas weggeflext, eingeweckt oder auch gegoogelt. Bei triefender Nase hilft nicht das Papiertaschentuch, sondern das Tempo und das Loch in der Wand macht nicht der Bohrhammer, sondern die Hilti.

Nicht zuletzt erfüllt der digitale Sprachassistent durch seine situative Dauerpräsenz am Menschen auch die Aufgabe des Gatekeepers und Influencers und bieten damit entsprechende Einflussmöglichkeiten des Marketings auf den Nutzer.

Klassische Werbeformate des Bildschirms sind im sensiblen Smart Voice Kanal eher Störformate, es sei denn, sie können multimodal in einen Voice First Prozess integriert werden und nicht die hör- und sprechbare Kommunikation stören oder eben die Kommunikation nonverbal erweitern. Letztendlich haben viele, sogar die meisten guten Prozesse für den digitalen Sprachassistenten auch einen Bildschirm. „Voice Only“ Anwendungsfälle, dürfte in vielen Situationen zwar sehr gut funktionieren, aber da der Unterschied der Informationsübertragung zwischen Auge und Ohr nun mal grundsätzlich extrem groß ist, braucht es in den meisten Fällen auch zwingend den visuellen Kanal zum Nutzer. So will zum Beispiel niemand einen Urlaub buchen ohne Fotos zu sehen.

Zafit

Das Marketing und besonders Voice Search und damit Google, biedern sich an, auch für die Entwicklung des Smart Voice Marktes, bestimmend zu sein. Dabei braucht das Marketing einen Paradigmenwechsel hin zum Intent, welches eine Entwicklung ist, die Google ebenfalls schon länger betreibt und auch immer stärker forciert. Multimodale Sprech- und Hörbarkeit von Inhalten und Prozessen ist die grundlegende Hausaufgabe und Herausforderung um dieses Ziel zu erreichen.

Also eine gewaltig große und spannende Spielwiese für Entwicklungen und Ideen also, welche aber auch wieder offene Ohren erfordert, um nicht auf alten Mustern basierende Formate zu bauen, die dann grandios versagen, weil sie schlicht nicht passen, da sie nicht dialogfähig und emotional sind.

Zu Robert C. Mendez

Robert C. Mendez wurde an der FH-Furtwangen durchdigitalisiert und hat zahlreiche Projekte vielerlei Art in der Digitalbranche realisiert. Damit gehört er zu den Dudes, die mit einem erfahrenen und umfassenden Blick auf die Komplexität des Digitalmarkts die Dinge nicht nur präsentieren, kalkulieren und planen, sondern auch realisieren können. Bereits in den Anfängen der Digitalisierung hat er nach Gründungen in der IT-Dienstleistung für Konzernkunden wie z. B. Thyssen-Krupp oder Bertelsmann federführend die Auswertung und den Vertrieb von urheberrechtlich geschützen Werken im Internet tonanagebend mitgeprägt (z. B. Universal, EMI, Sony etc.). In diesem Rahmen hat er maßgeblich die Entwicklung des Onlinemarketings über diversifizierte, massenfähige Schnittstellen und dessen rechtliche Rahmenbedingungen mitgestaltet und auch den Out-of-Home-Werbemarkt für die digitale Kreativindustrie verfügbar gemacht. Seit 2016 entwickelt er maßgeblich das Internet of Voice und damit effektive Lösungen für Unternehmen und Entwickler, um das Internet über Sprachassistenten zum Sprechen zu bringen und maximal effizient und menschlich zu machen.

Kommentare sind geschlossen.