Stefan Ultes, Professor für Sprachgenerierung und Dialogsysteme, im Interview

Aus dem KI-Wettbewerb des Freistaats Bayern ist die Universität Bamberg im Jahr 2020 mit der Bewilligung sieben neuer Professuren als große Gewinnerin hervorgegangen. Einige der Professuren wurden inzwischen besetzt. Den Lehrstuhl für Sprachgenerierung und Dialogsysteme hat seit dem Wintersemester 2022/23 Prof. Dr. Stefan Ultes inne. Im Interview stellt er sich, seine Forschung und seine Lehre vor.

Lieber Herr Ultes, Ihr Lehrstuhl hier an der Universität trägt den Titel „Sprachgenerierung und Dialogsysteme“. Inwiefern spiegelt die Denomination die Inhalte Ihrer Forschung wider?

Stefan Ultes: Dialogsysteme kennen wir alle zum Beispiel als Sprachassistenten wie Alexa oder Siri. Sie finden aber auch in anderen Bereichen Anwendung: Menschen mit Behinderung könnten dadurch etwa Aufzüge und Fahrkartenautomaten nutzen oder einen Rollstuhl bedienen. Im Auto dient ein Dialogsystem als interaktiver Stadtführer und medizinische Geräte können durch Sprachassistenten gesteuert werden. In meiner Forschung beschäftige ich mich nicht mit der Applikationslogik solcher Dialogsysteme, also etwa damit, wie die Navigation funktioniert. Stattdessen geht es entsprechend der Lehrstuhlbezeichnung um den Sprachanteil beziehungsweise die Sprachschnittstelle. Sprach-generierung wird hier als Teil eines Dialogsystems gesehen: Man möchte aus einer strukturellen Information – zum Beispiel einer Tabelle – einen Text generieren. Ich frage mich etwa, wie ein System aufgebaut sein muss, um überhaupt komplexere Interaktionen durchführen zu können. Teilnehmer einer Interaktion sind, neben dem Sprachassistenten, wir Menschen. In meiner Forschung untersuche ich deshalb außerdem, wie wir es schaffen können, dass sich das Dialogsystem so verhält, dass wir Menschen die Interaktion als natürlich empfinden.

Was bedeutet Natürlichkeit in diesem Zusammenhang?

Dialogschnittstellen ermöglichen, dass Nutzer*innen ihre Anliegen intuitiv und auf den Inhalt fokussiert vorbringen können, ohne dafür Spezialwissen oder Sprachkommandos zu benötigen. Das Dialogsystem soll also so gut wie möglich menschliche Sprachinteraktion verstehen und sich so verhalten, dass wir Menschen es als natürlich empfinden. Das komplexe an der Frage nach Natürlichkeit ist unter anderem, dass jeder Mensch etwas Anderes unter einer natürlichen Interaktion verstehen kann. Natürlichkeit in Dialogsystemen umfasst etwa, ob und wann ein Sprachassistent Überprüfungsfragen verwendet, die Möglichkeit zur Korrektur von Informationen, die man bereits gegeben hat, die genaue Wortwahl des Sprachassistenten oder auch ein grundlegendes Sozialverhalten, also, dass der Sprachassistent zum Beispiel grüßt oder höflich ist.

Wie lange beschäftigen Sie sich schon mit dem Thema?

Ich habe am Karlsruher Institut für Technologie Diplominformatik studiert und bin dort zum ersten Mal mit Sprachinteraktion in Berührung gekommen. Das Thema hat mich schon damals fasziniert und seitdem nicht mehr losgelassen. Als ich in Ulm ein Praktikum in dem Bereich gemacht habe, bin ich mit der Universität Ulm in Kontakt gekommen und habe dort auch zu Dialogsystemen promoviert. Anschließend war ich als Post-Doc in Cambridge und danach vier Jahre bei Mercedes in der Forschung und Entwicklung – ebenfalls zum Thema Sprachassistenz. Irgendwann einmal Professor zu werden, konnte ich mir schon während meiner Promotionszeit gut vorstellen. Und jetzt bin ich hier in Bamberg.

Worum ging es in Ihrer Promotion?

In meiner Promotion habe ich mich mit Nutzerzufriedenheit beschäftigt. Ich habe danach gefragt, wie man in der Interaktion zwischen Sprachassistent und Nutzer*in herausfinden kann, wie zufrieden Nutzer*innen am Ende sind. Daran schloss sich die Frage an, wie man die gewonnene Information nutzen kann, um das Verhalten von Systemen so zu verändern und zu optimieren, dass die Nutzerzufriedenheit steigt. Reinforcement Learning, zu Deutsch Verstärkendes Lernen, ist da ein Stichwort: Es steht für eine Methode des maschinellen Lernens, bei der ein System Lösungen und Strategien für komplexe Fragestellungen und Probleme auf Basis eines Trial-and-Error-Verfahrens und erhaltenen Belohnungen für bestimmte durchgeführte Aktionen oder Ergebnisse findet. Mit dem Thema habe ich mich auch während der Post-Doc-Phase und bei Mercedes weiterhin beschäftigt. Für mich ist die Nutzerzufriedenheit ein Teil von natürlicher Interaktion. Wenn der Nutzer oder die Nutzerin zufrieden ist, dann ist das sicher schon einmal näher an natürlicher Interaktion als wenn das System nur darauf abzielt, dass die Aufgabe erfolgreich bewältigt wird. Damit möchte ich mich auch hier in Bamberg weiter beschäftigen.

Inwiefern könnten Sie sich Kooperationen mit anderen Wissenschaftler*innen der Universität vorstellen?

Bei der Natürlichkeit von Dialogsystemen ist der menschliche Aspekt wichtig. Da gibt es zahlreiche Anknüpfungspunkte in der Psychologie und Soziologie. In diesen Bereichen bin ich selbst kein Experte und es macht Sinn, sich zusammen zu tun. Das Schöne an einem Sprachinterface ist, dass man es für verschiedene Applikationen nutzen kann. Demensprechend gibt es von vorne herein keine Grenzen, mit wem man kooperieren könnte. Wir sind auch nicht auf wissenschaftliche Einrichtungen beschränkt. Das kann zum Beispiel auch die Mensa sein, die einen Sprachassistenten nutzen will. Für mich ist es aber wichtig, dass nicht nur eine technische Entwicklungsaufgabe dahintersteht, sondern auch eine Forschungsfrage, die eine Kooperation für beide Seiten sinnvoll macht.

Warum sollte man sich aus Ihrer Sicht als Student*in für Sprachinteraktion interessieren?

Wir unterhalten uns alle. Wir wissen alle, wie das geht. Aber diese Interaktion genauer zu analysieren und auf die technische Seite zu übertragen, ist sehr spannend und gibt Einblicke, wie Kommunikation überhaupt funktioniert. Wenn wir uns außerdem anschauen, was in den letzten Jahren in der Technologiebranche passiert ist, dann ist Sprachinteraktion offensichtlich ein maßgebliches Thema. Alexa, Siri, Google – das sind alles Technologien, die vorne dran sind. Wenn man sich dafür interessiert und sein Studium auch so ausrichtet, dann qualifiziert man sich dafür, bei großen Unternehmen zu arbeiten, die die Technologien der Zukunft entwickeln.

Bereiten Sie die Studierenden in Ihren Kursen darauf vor?

In diesem Semester biete ich ein Seminar, eine Vorlesung und eine Übung an – alle tragen den Titel „Dialogsysteme“, aber es verstecken sich dahinter unterschiedliche Inhalte: In der Übung programmieren die Studierenden selbst ein Dialogsystem. Sie müssen dabei alle Elemente selbst implementieren. Das ist meiner Meinung nach eine gute Methode, um selbst eine Idee davon zu bekommen, welche Hürden und Probleme auftreten können, wenn man so ein System baut. Dementsprechend hoffe ich, dass es für die Studierenden einen großen Lerneffekt haben wird. In der Vorlesung geht es vor allem um grundlegende technische Aspekte der Sprachinteraktion mit KI-Agenten. Traditionelle Systeme laufen modular in einer Pipelinearchitektur ab. Zu den Modulen zählen etwa die Sprachvorverarbeitung, Spracherkennung, Dialogmanagement, Sprachgenerierung und am Ende die Sprachsynthese. Die Studierenden lernen alle Teile der Kette kennen. Im Seminar geht es speziell um das Dialogmanagement. Prinzipiell geht es mir weniger darum, dass die Studierenden Detailwissen jederzeit parat haben und auswendig herunterbeten müssen. Detailwissen kann man häufig nachlesen. Vielmehr ist mein Ziel, dass die Studierenden sich ein konzeptionelles Wissen aneignen, das auf viele Themen anwendbar ist.

Vielen Dank für das Interview!

Zurück

Sprachinteraktion fasziniert Stefan Ultes schon seit seinem Studium

Der Professor für Sprachgenerierung und Dialogsysteme stellt sich im Interview vor