Alexa. Sprachassistenten und ihre Funktionsweise

Was macht eigentlich diese Alexa?
Jeder von uns kennt sie, jeder von uns benutzt sie. Sprachassistenten wie Siri und Alexa sind mittlerweile fester Bestandteil unserer Medienwelt und erleichtern uns den Alltag. Doch wie genau funktionieren diese Systeme eigentlich? Woher weiß Alexa, wann ich mit ihr spreche und wann nicht? Wieso versteht sie überhaupt, was ich von ihr will und warum kann sie mir so präzise Antworten geben?

Die Funktionsweisen der Sprachassistenten – vom Befehl bis zur Antwort:

Die Aktivierung
In den Sprachassistenzgeräten sind spezielle Mikrofone eingebaut, die die Geräusche in ihrer Umgebung sehr gut auffassen können. Die integrierte Elektronik sucht dabei ständig nach bestimmten Aktivierungsworten (z.B. Alexa) und verarbeitet jede erfasste Information. Das Gerät hört also ununterbrochen seiner Umgebung zu und sobald es ein Aktivierungswort wahrnimmt, schaltet es sich ein.

Good to know: Die Hersteller*innen der Sprachassistenzsysteme versichern, dass alle Informationen, die vor dem Aktivieren erfasst werden, wieder gelöscht werden und somit kein Eingriff in die Privatsphäre stattfindet.

Der Befehl
Bei Sprachassistenzsystemen handelt es sich – vereinfacht gesagt – um eine Software, die in den Verarbeitungszentren des jeweiligen Anbieters läuft und zu jedem Zeitpunkt mit diesem verbunden ist.

Erkennt der Sprachassistent nun ein Aktivierungswort, sendet er die nachfolgenden Informationen zum jeweiligen Server. Die Software trennt dann das Gesprochene von möglichen Hintergrundgeräuschen und wandelt es mithilfe komplexer Algorithmen in computerlesbare Worte um, die dann im nächsten Schritt genauer analysiert werden. Hier findet also der Prozess der Textproduktion statt.

Beispiel: „Alexa. Schalte das Licht aus.“

Das System ist mit der Software verbunden.
Das System erkennt das Aktivierungswort „Alexa“
Die Informationen „Schalte das Licht aus“ werden in ein bestimmtes Format komprimiert und an die Software weitergeleitet, sodass diese die Informationen verarbeiten kann. Hierbei liegt das Gesprochene aber noch nicht in Textform vor, sondern in einem anderen Datenformat.
Die Software wandelt nun die Informationen in computerlesbare Worte um. Der Satz „Schalte das Licht aus“ entsteht.

Die Analyse
Die in Text umgewandelten Worte werden dann auf bestimmte Schlagworte analysiert. Enthalten die Informationen einen oder mehrere dieser Worte, kann das Programm den nächsten Schritt einleiten. Hierbei kann es sich um Wörter wie Wetter, Rufe […] an oder Schalte […] aus handeln. Für jedes Schlagwort gibt es bestimmte Skripte, die nach der Erkennung folgen und den zum Schlagwort passenden Befehl durchführen. Das Vorgehen der Assistenzsysteme wird dabei je nach Wortkombination angepasst. Schalte [..] aus hat logischerweise ein anderes Skript als Schalte […] an. Das Gerät hat hierbei die Aufgabe, die das Gesprochene der Nutzer*innen dem passenden Skript zuzuordnen, damit der Befehl richtig umgesetzt werden kann.
Und auch wenn das Programm kein Schlagwort erkennt, wird ein Skript aktiviert, welches meist um die Wiederholung der Aufforderung bittet oder den Nutzer*innen mitteilt, dass der Befehl nicht verstanden wurde. Auf jede erfasste Aussage folgt also eine Reaktion.

Die Durchführung
Nach der Ermittlung des passenden Befehls, wird der dazugehörende Softwareteil aufgerufen und die Aktion durchgeführt (z.B. wird das Licht ausgeschaltet oder nach der Temperatur in Lissabon gesucht). Hierbei wird auf eine riesige Datenmenge aus formalisierten Datenbanken zurückgegriffen. Nach der Aktion folgt dann die Antwort. Die Antwort des Sprachassistenzsystems wird zunächst als Text produziert, wobei nur der Wortschatz aus den besagten Datenbanken genutzt werden kann. Für bestimmte Schlagworte liegen dann passende Skripte und Antworten vor, bei denen nur noch die fehlenden Bausteine in den Satz integriert werden müssen.

Beispiel:
Wie ist das Wetter in Lissabon? – In Lissabon sind heute 23 Grad. Wie ist das Wetter in Kairo? – In Kairo sind heute 34 Grad.

Die Antworten, die das Sprachassistenzgerät am Ende ausgibt, liegen jetzt immer noch in Textform vor und werden erst im letzten Schritt in gesprochene Sprache umgewandelt.

Die Antwort
Im finalen Schritt werden die textbasierten Informationen vom Server wieder an das Sprachassistenzgerät gesendet und in Gesprochenes umgewandelt. Hierbei greift das System auf bereits generierte Daten zurück, also auf Wörter, von denen dem Gerät Aussprachedaten vorliegen. Dadurch, dass der Sprachassistent immer nur einzelne Wörter in seiner Datenbank aufrufen kann, wirkt die Aussprache teilweise etwas abgehakt und unmenschlich.

Zusammenfassung
Sprachassistenzsysteme sind sehr komplexe Kombinationen aus Software, Servern und Algorithmen. Die Darstellung hier soll in vereinfachter Form zeigen, was hinter den Alltagshelfern steckt und wie sie funktionieren. Vor allem wird deutlich, wie wichtig Texte für das Funktionieren der Sprachassistenten sind. Die Aufgabe der Textproduktion wird den Nutzer*innen von besagten Algorithmen abgenommen, sodass wir unseren Befehl ganz einfach aussprechen können.