Voice Summit 2018 - ein Bericht

   

Sprachassistenten, Skill-Entwicklung und Voice-Dialogsysteme

Unter dem Label "voiceknecht" entwickeln und betreiben wir Skills für Voice-Assistenten für unterschiedlichste Einsatzzwecke. Hier berichten wir vom Voice-Summit in Newark, im US-Bundesstaat New Jersey. Mehr als 2500 Teilnehmer beschäftigten sich drei Tage lang mit dem Thema Voice, also mit Sprachassistenten à la Alexa und Google Home. Es gab eine Menge zu lernen, im folgenden eine Zusammenfassung:

Nach einer allgemeinen Einleitung des Veranstalters zur Stadt und zu seiner Organisation, startet der inhaltliche Teil der Konferenz mit einer Keynote des Chief Evangelists für Alexa, David Isbitski von Amazon. Dieser gibt einen Überblick darüber, wie es aktuell um das Ökosystem bestellt ist und zielt dabei im Wesentlichen auf die einfache Bedienbarkeit der Voice-Plattform, die sowohl Kinder, die noch nicht lesen können, als auch ältere Leute, die von der technologischen Entwicklung der letzten Jahre nicht mitgenommen wurden, die aber beide gerne und viel mit Sprachassistenten umgehen.

Das Verhalten der Nutzer soll auch Richtlinie für die Entwicklung von Diensten sein. Für Entwickler gibt es daher eine Ansicht auf der Entwicklungs-Website, die zeigt, an welcher Stelle, die Benutzung eines Skills abgebrochen wurde oder gescheitert ist.

Im weiteren Verlauf des Tages teilt sich die Konferenz in mehrere Stränge von kurzen Vorträgen auf, die wir - soweit wir sie besucht haben - im Folgenden konzentriert zusammenfassen, da vieles naturgemäß immer wieder wiederholt wird.

Eines dieser wiederkehrenden Themen war es, Voiceanwendungen als eigenständige Arbeiten anzusehen und sie getrennt zu designen; es reicht also nicht bereits vorhandene Web- oder Mobilanwendungen mit einem Voiceinterface zu versehen. Bei der Entwicklung von Skills soll von den Benutzerinnen und Benutzern ausgegangen werden und diesen Freiraum sowohl in der Art der Kommunikation (niemand mag es, wenn seine Sprache korrigiert wird) als auch der Reihenfolge der Eingabe gewährt werden. Als Beispiel eine Anwendung komfortabel zu gestalten, wurde hier eine Reise-App angeführt, die eben nicht jedes Mal aufs neue nach dem Abflugflughafen fragt, wenn sie von zu Hause aus aufgerufen wird – die Möglichkeit den Flughafen anzupassen muss natürlich gegeben sein, trotzdem ist es sinnvoll, den Flughafen, der üblicherweise genommen wird, für zukünftige Anwendungen zu speichern.

Interessant war der Rat, nicht nur eine Sache in einem Skill abzuhandeln, sondern durchaus Funktionen zu bündeln oder wenigstens auf einen anderen Skill zu verweisen - normalerweise wird zum Gegenteil geraten, um Anwendungen einfach zu halten.

Als Herausforderungen für die Voice-Entwicklung wurde im Besonderen die mehrmalige Benutzung genannt – nur 3-6% der Skills werden anscheinend mehrfach benutzt (zumindest im amerikanischen Skillstore). Damit hängt die Auffindbarkeit von Skills im Store zusammen, die ja bei Alexa noch freigeschaltet werden müssen. Aufgabe bei der Entwicklung ist es hier, die Nutzerinnen und Nutzer dahin zu leiten, einen Skill in ihre tägliche Routine einzubauen.

Ein sehr interessanter Vortrag setzte auf einem first date als Metapher für die ersten Kontakte mit einem Skill auf: Es muss klar werden, was genau der Skill zur Verfügung stellt, ein unmittelbarer Nutzen muss da sein, eine Persönlichkeit sowie eine Personalisierung (also der Bezug auf die Nutzerin/den Nutzer), ein Skill sollte in mehreren Situationen anwendbar sein und ein Skill muss einen Fehler bzw. eine unklare Situation auffangen und heilen können – gelingt das, kann die Beziehung zum Skill vertrauensvoller werden, als wenn von Anfang an alles glatt gegangen wäre.


Der zweite Tag startete mit einer unfreiwillig komischen Keynote eines Sponsors, über die gnädigerweise der Mantel des Schweigens gelegt werden soll. Danach gab NPR, Teil des öffentlich-rechtlichen Rundfunks in den USA, einen Einblick in seine Voice-Projekte und darüber, wie diese geplant und umgesetzt werden. Interessant zu hören, dass die Zuhörerschaft auf Smart-Speakern für NPR bereits die Nutzung über Smartphones eingeholt hat.

Ein Schwerpunkt für uns war der Einsatz von Voice-Assistenten bei älteren Leute, wobei hier mehrfach darauf hingewiesen wurde, dass es sich hier um keine homogene Gruppe handelt, sondern mitunter in einer Alterswohnsituation eine Spanne von einer Generation zu finden ist – im Beispiel war der Jüngste 72 Jahre, die Älteste 98. Während diese Gruppe nicht unbedingt von der Smartphone-Technologie mitgenommen wurde (obwohl es auch hier zahlreiche Gegenbeispiele gibt), liegt das nicht zwangsläufig an einer Skepsis oder Unfähigkeit im Umgang mit Technologien, immerhin hat diese Generation schon einige technologische Neuerungen kommen und gehen sehen und auch immer den Umgang damit gelernt. Vielmehr mag der Umgang mit Smartphones an der eingeschränkten körperlichen Fitheit liegen – kleine Touchziele, kleine Schrift – die im Umgang mit Voicegeräten oft keine Rolle mehr spielt.

Besonders interessant zum Abschluss des Tages, war eine Studie, die die Intelligenz der aktuellen Voice-Assistenten untersuchte. Die Aussage der Firma, die diese Studie betrieb, war, dass die Hersteller solche Geräte ungern als Smart-Speaker bezeichnen (dann müssten sie auch nicht viel können) sondern sie wirklich als Assistenten positionieren. Die Studie wurde in Fragen mehrerer Kategorien aufgeteilt, die den Assistenten gestellt wurden. Hier wurde oft klar, dass es mit der Intelligenz, d.h. dem wirklichen Verständnis nicht weit hergeholt ist. So wird etwa die Frage danach, was mehr wiegt, eine Tonne Kohle oder eine Tonne Federn, korrekt beantwortet, die nach dem Vergleich einer Tonne Birnen und einer Tonne Äpfeln, dann nicht mehr. Das Gerät weiß also nicht, was eine Tonne ist, sondern wurde nur mit der allgemein geläufigen Juxfrage trainiert. Fazit war ganz klar, dass hier für die Hersteller noch jede Menge zu tun ist, bei Alexa zum Beispiel gerade im Paradeanwendungsfall, nämlich dem Einsatz in der Küche.


Tag drei begann mit eine Zukunftsvision aus dem Hause Panasonic (ein weiterer Sponsor der Konferenz), in der Sprache nicht nur zur Bedienung zum Einsatz kommt, sondern – auch das ein Thema, das gelegentlich zum Anklang kam – sozusagen als Interface für den Menschen. Im Beispiel erkannte der intelligente Raumassistent, dass die Tochter des Hauses krank ist und veranlasste alles weitere von der Krankmeldung, über die Medikamentenbestellung, Anpassung des Raumklimas, Bestellung der Zutaten und Robokochen von Omas Hühnersuppe. Das mag alles noch weit hergeholt erscheinen, die Analyse von Wohlergehen und Stimmung von Menschen anhand der Stimme, ist allerdings keine Zukunftsmusik und wird bereits in Call-Centre-Systemen eingesetzt.

Außerordentlich interessant war ein Vortrag eines Wissenschaftlers über Sicherheitsrisiken von neuronalen Netzen. Während diese die Leistungsfähigkeit der künstlichen Intelligenz in den letzten Jahren deutlich nach vorne gebracht und die aktuelle Spracherkennung erst möglich gemacht haben, leiden sie darunter, dass es nicht wirklich zu verstehen ist, wie sie zu ihren Ergebnissen kommen. Der Vortragende sprach sogar davon, dass neuronale Netze im Prinzip nur Muster erkennen und eigentlich gar nichts verstehen.

Jetzt ist es möglich, gelernte Modelle so zu verwirren, dass diese ein Objekt als etwas vollkommen anderes klassifizieren, als es das eigentlich ist. Im Beispiel wurde ein Golden Retriever aus einem Foto als Guacamole identifiziert und das mit einer Wahrscheinlichkeit von 99%. Ein anderes – für den Menschen identisches Foto – wurde allerdings korrekt als Golden Retriever identifiziert. Möglich ist das dadurch, dass ein Ursprungsbild programmatisch minimal solange geändert wird, bis die gewünschte Klassifizierung herauskommt.

Dies ist auch im Bereich der Spracherkennung möglich, indem zum Beispiel Musik gespielt wird, in der das neuronale Netz Sprache erkennt, der Mensch aber nicht.

Ähnlich in ein etwas zurückhaltendes Horn blies ein weiterer Vortrag, der darauf abzog, den Menschen nicht zu vergessen, die Technik wenn möglich zurückzunehmen, weniger aufdringlich zu sein. Als Schlagworte wurden hier calm technology und anticipatory design genannt. Als einfaches Beispiel sei angeführt, dass eine Anweisung das Licht anzumachen, nicht gesondert mit einem „OK“ quittiert werden müsse; die Tatsache, dass das Licht angeht, reiche vollkommen als Bestätigung. Oder einen Schritt weiter – antizipatorisch – das Licht geht einfach in einer bestimmten Situation an (oder eben auch nicht, je nach Uhrzeit).

Der letzte Vortrag stellte kurz die Verbindung von Microsofts Cognitive Services und Voice-Assistenten dar, sozusagen als Tor in die weite Welt der KI-Dienste, die die Anwendung von Voice-Interfaces ins Unendliche erweitert.

Zusammengefasst haben wir viel gelernt und werden jede Menge in den Alltag mitnehmen und freuen uns darauf, die vielen Ideen in Kundenprojekten anzuwenden.

 

Akamai Technologies
Amazon Web Services
Aspera, an IBM Company
Bitmovin
SRT Alliance
Touchstream Media
Wowza Media Systems
Zendesk