Sprachsteuerung
09.10.2016, 21:11 Uhr
Voice Commerce: Die nächste Revolution steht vor der Tür
Die Internet-Grössen sind sich einig: Die digitale Welt steht vor ihrer nächsten Revolution. Sprachsteuerung könnte das universelle Eingabegerät der Zukunft werden - sobald die Software für Spracherkennung intelligent genug ist.
Chatbots sind das Buzzword des Jahres. Intelligente automatisierte Programme, die ohne menschliche Steuerung Mini-Aufgaben erledigen - seit der Facebook-Entwickler-Konferenz will jeder so einen haben. Facebook setzt ganz auf seine Messenger-Bots. Amazon, Google, Apple und Microsoft hingegen versuchen sich in diesem Jahr, bei der Entwicklung der ganz grossen Bot-Lösung zu übertreffen - dem Einzug von sprachgesteuerten, intelligenten Lebensassistenten ins traute Heim aller Verbraucher.
Den ersten Angriff startete Amazon am "Prime Day", seinem Mega-Verkaufsevent am 12. Juli dieses Jahres. Da bot der Online-Riese in den USA eine Reihe von besonders günstigen Schnäppchen exklusiv für diejenigen Kunden an, die über Amazons sprachgesteuerten Assistenten Alexa bestellten. Die Folge: Am gesamten Prime Day ging in jeder Sekunde eine Sprachbestellung nach dem Muster "Alexa, bestell den FireTV-Stick mit Prime-Day-Discount!" in Seattle ein.
Der Alexa Prime Day war der bisherige Höhepunkt in Amazons Voice-Strategie, die mit der Veröffentlichung des Lautsprechers Echo 2014 begann. Der Schallwandler kann auch zuhören und reagiert mithilfe der Spracherkennungstechnologie Alexa auf Nutzeranfragen. Damals sorgte Echo in der Branche eher für Stirnrunzeln: Ein intelligenter Lautsprecher, der das Licht anschalten und E-Books vorlesen kann - wer braucht das schon? Und: Hat sich Amazon mit seinem gescheiterten Fire Phone nicht schon genug die Finger an eigener Hardware verbrannt?
Die revolutionäre Kraft der Sprachsteuerung
Doch was viele Marktbeobachter anfangs nicht sehen wollten: Amazon-Chef Jeff Bezos glaubt an die revolutionäre Kraft der Sprachsteuerung - und diesmal will er mit seinem Unternehmen nicht zu spät dran sein wie weiland bei der Einführung der Smartphones. Deshalb investiert der Online-Riese seit Jahren massiv in das Thema. Rund 1.000 Mitarbeiter sind ausschliesslich mit der Weiterentwicklung von Alexa und deren Geräte-Flaggschiff Echo beschäftigt. Im letzten Jahr richtete Amazon einen Alexa-Fonds ein: 100 Millionen US-Dollar stellt der Marktplatz damit, in Zusammenarbeit mit einigen Investoren, allein für die Weiterentwicklung von Alexa zur Verfügung. Und: Hinter den Kulissen hat Amazon seine Alexa auch schon für andere Unternehmen geöffnet: Intelligente Geräte von Samsung, Philips, Belkin, Sonos und sogar Googles Nest arbeiten mit der Technologie. Auch das intelligente In-Car-System von Ford setzt auf Alexa auf.
Zudem lassen sich damit immer mehr Dienstleister wie Uber, Spotify oder Domino’s Pizza direkt ansteuern. Über 950 Aktionen beherrscht Alexa, der seit rund zwei Wochen auch in Deutschland vorbestellt werden kann, heute. Vor zwei Jahren waren es gerade mal zwölf. "Wir haben vier Jahre lang hinter den Kulissen an Alexa gearbeitet", sagte Jeff Bezos kürzlich auf der Code Conference 2016 in Los Angeles, und man habe erst an der Oberfläche gekratzt. Dabei war Amazon keineswegs der First Mover in Sachen Sprachsteuerung. 2011 integrierte Apple erstmals die Spracherkennung des übernommenen Start-ups Siri in sein iPhone 4S. 2012 reagierte Google mit einer sprachbasierten Suche für Android-Phones. Und 2014 zog Microsoft mit der ersten lernfähigen Sprachassistentin Cortana nach.
Dennoch gelang es dem Nachzügler Amazon, die Konkurrenz mithilfe von Alexa zu übertreffen. Denn die kann mehr als Suchanfragen im Web anstossen, den Wetterbericht runterrasseln, den Kalender auslesen oder die Mama anrufen. Sie kann ein Taxi bestellen, einen Tisch in einem Restaurant reservieren, Kinokarten kaufen und bei Amazon Nachschub für die Speisekammer ordern - kurz, sie kann das, was Amazon am besten beherrscht: Transaktionen abschliessen. Und das ganz ohne Bildschirm, Tastatur oder Bestätigungs-SMS. Einfach nur mit der Stimme. Dass Amazon damit offenbar einen Nerv bei den Konsumenten getroffen hat, zeigen die Verkaufszahlen: 2015 war jeder vierte in den USA verkaufte Lautsprecher ein Echo, 2016 dürfte der Anteil nochmals nach oben gehen.
Das Motto der Zukunft: Voice First
In Zukunft bekommt der Echo aber prominente Konkurrenz: Auf der Entwicklerkonferenz Google I/O im Juli dankte Google-CEO Sundar Pichai Amazon für die Aufmerksamkeit, die der Konzern für das Thema geweckt habe - und stellte dann mit einem aufwändig produzierten Image-Film Google Home vor, einen intelligenten Assistenten für das vernetzte Heim, bei dem man sich nicht mal die Mühe gemacht hat, sich im Design erkennbar von Amazons Echo abzuheben. Der Subtext „Danke, jetzt übernehmen wir“ war so deutlich vernehmbar, dass Pichai ihn nicht extra aussprechen musste. Die Voraussetzungen für den Internet-Giganten sind günstig: Die Experten sind sich einig, dass Google mit Google Search zurzeit die beste Spracherkennungssoftware auf dem Markt anbietet - und in Sachen Technologie schon seit Jahren Massstäbe setzt. In den letzten zwei Jahren hat das Unternehmen die Trefferquote beim Verstehen von Sprachanfragen von ursprünglich 80 Prozent auf derzeit über 92 Prozent gesteigert.
Andererseits: Die Krone des Technik-Giganten wollen sich auch andere aufsetzen. Die chinesische Suchmaschine Baidu arbeitet massiv an ihrer "Deep Speech"-Technologie zur Spracherkennung. Angeblich schaffen es die Chinesen bereits auf eine Trefferquote von 95 Prozent - bei Sprachanfragen auf Englisch und Mandarin. Baidus Technologie-Chef Andrew Ng sieht in der treffsicheren Spracherkennung den Schlüssel zum Erfolg der Technologie: "Sobald die Genauigkeit der Spracherkennung von 95 Prozent auf 99 Prozent steigt, werden wir alle, die wir aktuell kaum Sprachsteuerung benutzen, auf einmal beinahe alles mit Sprache steuern." Verbraucherumfragen in den USA und Europa bestätigen dies: Immer ist eine mangelhafte Spracherkennung das entscheidende Kriterium für Nutzer, die Sprachfunktion ihres Handys nicht zu nutzen.
Die "Voice First"-Bewegung
Baidu-Mann Ng gehört zu den Fürsprechern der "Voice First"-Bewegung, die unter den Grossen der Internet-Welt gerade gehypt wird: Sprache könnte, so die These, alle bisherigen Eingabegeräte als Interaktionsmittel mit Computertechnologie ablösen. Bisher habe man beim Umgang mit Computern das Laufen mithilfe von Krücken wie Lochkarten, Tastaturen, Mäusen oder auch Touchscreens gelernt. Durch Sprachsteuerung könne erstmals in der IT-Geschichte auf wahrhaft natürliche Weise mit Computern kommuniziert werden. Die Computer könnten sich an ihre Nutzer anpassen - und nicht umgekehrt.
Zu den prominentesten Anhängern der Voice-First-These gehört auch Satya Nadella. "Die menschliche Sprache ist das neue Interface", gab der Microsoft-CEO schon kurz nach seinem Antritt 2014 druckreif zum Besten. Er hat die Weiterentwicklung des persönlichen Sprachassistenten Cortana bei Microsoft zur Chefsache erklärt - wurde aber von Amazons Alexa rechts überholt. Spätestens 2017 erwarten Branchenbeobachter, dass Microsoft mit einem eigenen Cortana-Gerät für das vernetzte Heim nachzieht.
Zu den prominentesten Anhängern der Voice-First-These gehört auch Satya Nadella. "Die menschliche Sprache ist das neue Interface", gab der Microsoft-CEO schon kurz nach seinem Antritt 2014 druckreif zum Besten. Er hat die Weiterentwicklung des persönlichen Sprachassistenten Cortana bei Microsoft zur Chefsache erklärt - wurde aber von Amazons Alexa rechts überholt. Spätestens 2017 erwarten Branchenbeobachter, dass Microsoft mit einem eigenen Cortana-Gerät für das vernetzte Heim nachzieht.
Vorher könnte allerdings noch Apple einen Stich bei dem Thema machen: Der einstige Vorreiter in Sachen Sprachsteuerung versucht seit letztem Jahr gegenüber den Wettbewerbern verlorenen Boden gutzumachen und hat dazu im Mai 2015 von der Öffentlichkeit weitgehend unbemerkt den britischen Spracherkennungsspezialisten Vocal IQ übernommen, um damit sein technologisch zuletzt arg abgehängtes Siri aufzubessern. Die Aquisition trägt Früchte: Aktuelle Tests zeigten eine deutlich intelligentere Siri, die in Sachen Treffsicherheit mit Google Now und Cortana mehr als mithalten kann. Und diese Siri funktioniert seit dem letzten Update nicht mehr nur auf dem iPhone, sondern im gesamten Apple-Universum, vom Mac bis zum Apple TV. Und dann ist da noch Facebook: Dass dessen intelligenter Messenger zum Chatbot "M" eine Sprachausgabe bekommt, dürfte auch nur noch eine Frage der Zeit sein - falls er es denn je aus dem Beta-Stadium herausschafft.
Gläserne Nutzer, oder: Datenschutz? Welcher Datenschutz?
Alle Grossen der Branche haben sich weltweit darauf geeinigt, dass Voice in Verbindung mit intelligenten persönlichen Assistenten das nächste grosse Ding ist. Millionen fliessen in die Entwicklung der Geräte - und im Fall von Amazon und Google auch ins Marketing, um die Nutzer von den Vorteilen der gesprächigen Angebote zu überzeugen. Ausserdem ist mittlerweile auch die Technologie weit genug für die Massentauglichkeit: Die Spracherkennung funktioniert weitgehend fehlerfrei, künstliche Intelligenz wird immer schlauer und besser darin, aus gesprochener Syntax komplexe Handlungsbefehle abzuleiten. All diese technischen Voraussetzungen sind mittlerweile auch günstig genug in der Herstellung, um akzeptable Preise für sprachgesteuerte Endgeräte zu ermöglichen.Und auch die Nutzer stehen der Technologie dank dem jahrelangen Umgang mit Siri und Co. durchaus positiv gegenüber: Bereits 2015 nutzten 65 Prozent der US-amerikanischen Smartphone-Nutzer regelmässig ihren Sprachassistenten.
Gehen wir also unter diesen Voraussetzungen einmal davon aus, dass die Sprachrevolution der (digitalen) Welt wirklich kommt. Stellen wir uns eine Welt vor, in der zu Hause jedes elektrische Gerät, von der Deckenleuchte bis zur Kaffeemaschine, auf die Stimme reagiert. In der unser Fernseher Spracheingaben wie "Zeige mir eine Komödie, die mit mindestens vier Sternen bewertet ist" treffsicher entschlüsseln kann. In der ein intelligentes Auto uns darauf hinweist, dass der Benzinpreis an der Tankstelle zwei Strassen weiter niedriger ist als anderswo. In der ein persönlicher Assistent - mag er nun Alexa, Google, Siri, Cortana oder ganz anders heissen - unsere Termine verwaltet, E-Mails vorliest, Restauranttische reserviert, für uns online einkauft und uns jede beliebige Frage beantwortet, die wir aktuell noch am PC oder auf dem Smartphone googeln. Und in der all diese intelligenten, hörenden und sprechenden Geräte auch noch dazulernen, sich unsere Vorlieben merken und immer zielgenauer werden.
Für deutsche Verbraucherohren klingt das zuallererst einmal nach einer Welt mit massiven Datenschutzproblemen. Denn wirklich gut funktionieren all diese schönen neuen digitalen Assistenten nur, wenn sich der Nutzer bewusst darauf einlässt, komplett gläsern zu sein. Aber auch Marketer und Online-Händler müssen sich fragen, was solch ein Zukunftsszenario für sie bedeutet, warnen Voice-First-Evangelisten wie der US-amerikanische Payment-Spezialist Brian Roemmele. Denn: Wer braucht in so einer Welt noch Werbung?
Gatekeeper für Zugang zur digitalen Welt
Amazon will sich mit Echo/Alexa zum Torwächter seiner Kunden machen: Was auch immer die Nutzer brauchen, die Anfrage geht zuerst durch die Ohren von Alexa - und läuft damit direkt in den Datenpazifik von Amazon. Und dort wird dann nach einem internen Algorithmus entschieden, wie mit der Anfrage verfahren wird. Bittet ein Nutzer Alexa also "Alexa, ich brauche Kopfhörer für mein Samsung-Smartphone, am liebsten weisse", dann löst das eine Suchanfrage bei Amazon nach weissen Kopfhörern aus, die mit dem Handy des Nutzers kompatibel sind - aber statt einer ausführlichen, mehrere Seiten umfassenden Ergebnisliste bekommt der Käufer jetzt eine von Alexa getroffene Auswahl von vielleicht drei Produkten angeboten. Mehr als das per Stimme zu kommunizieren wäre für den Nutzer ermüdend und verwirrend. Ähnliches gilt auch für die Suche nach einer Information auf Google. In einer sprachgesteuerten Welt haben Treffer jenseits der obersten drei Positionen keinen Platz mehr.
Werde die bisher bekannte Online-Prozesskette durch Programme, die auf Fragen Antworten geben, tatsächlich so umfassend umgekrempelt, sei auch die Platzierung von Werbung schwer vorstellbar, so Roemmele; schliesslich führen wir mit dem persönlichen Assistenten eine Art Dialog. Indem der Assistent uns immer besser kennenlernt und unsere Vorlieben versteht, baut sich ein Vertrauensverhältnis auf. Und mitten in diese Vertraulichkeit soll Alexa dann mit einer Werbebotschaft platzen?
Sprache als ein ergänzendes Interface
Ob es wirklich zu dem radikalen Umbruch kommt, den Voice-First-Vertreter beschreiben, bleibt abzuwarten. Denn so gut die Interaktion mit einem Sprachassistenten in geschlossenen Räumen wie den eigenen vier Wänden oder dem Auto auch vorstellbar ist, so unwahrscheinlich klingt es, dass wir uns alle in der Fussgängerzone, im Büro oder in der Bahn mit Alexa und Co austauschen. Auch ist die Aufnahme komplexer oder vielfältiger Informationen über das Auge deutlich einfacher und schneller als über das Ohr; ein Buch lässt sich nun mal schneller lesen als vorlesen. Sprache, so die Argumentation der Gemässigteren, wird, sobald die Technologie gut genug ist, um einen wirklichen Mehrwert gegenüber der Touch-Eingabe zu bieten, ein weiteres Interface werden, neben der Tastatur, der Maus und dem Touchscreen.
Doch auch wenn die sprachgesteuerten persönlichen Assistenten nur Teile unsere Lebens übernehmen, bleibt das Gatekeeper-Problem bestehen: Die Unternehmen, die den Assistenten kontrollieren, kontrollieren auch den Zugang seiner Nutzer zum Internet - und damit den Zugang zu Informationen, Marketing-Botschaften und zum Verkauf stehenden Produkten. Wer in einer sprachgesteuerten Welt seine Kunden erreichen will, muss darüber nachdenken, wie Online-Marketing mit Alexa, Siri und Co in Zukunft funktionieren kann. Denn klar ist: Auch in dieser Welt wollen die Googles dieser Welt weiterhin Geld verdienen.