KI-Tools wie ChatGPT, Dall-E oder Midjourney sind längst angekommen im Alltag vieler Menschen. Oftmals ist der Umgang damit geprägt von Unsicherheiten. Wie funktionieren die Tools überhaupt? Auf welcher Datengrundlage arbeiten sie? Welche Risiken gehen mit der Nutzung einher? Wie können Nutzer*innen verantwortungsvoll mit den Tools umgehen? An der Universität Bamberg setzen sich zahlreiche Wissenschaftler*innen mit dem Thema Künstliche Intelligenz auseinander – neuerdings auch gebündelt und koordiniert im Bamberger Zentrum für Künstliche Intelligenz (BAcAI). Es umfasst neun Professuren, die sich ausschließlich einem breiten Spektrum von Forschungsgebieten innerhalb der KI widmen, weitere neun Professuren für Informatik und Wirtschaftsinformatik mit starken Bezügen zur KI sowie KI-Anwendungen in Industrie, Gesundheitswesen und Bildung. Das Profil wird durch eine starke interdisziplinäre Zusammenarbeit mit den Geistes- und Sozialwissenschaften im Rahmen des Zentrums für innovative Anwendungen der Informatik (ZIAI) gestärkt. Eine der Wissenschaftler*innen die sich im BAcAI vernetzen, ist Prof. Dr. Ute Schmid, Inhaberin des Lehrstuhls für Kognitive Systeme. Sie gibt im Interview Antworten auf häufig gestellte Fragen rund um ChatGPT, Dall-E und weitere KI-Tools.
ChatGPT wird seit einigen Monaten rege genutzt – egal ob im Studium, privat oder in Arbeitskontexten. Häufig ist es einfacher, sich dort Antworten auf Fragen ausgeben zu lassen als eine klassische Suchmaschine zu bemühen. Welche Daten liegen den Antworten von ChatGPT zu Grunde? Und gehen damit auch Probleme einher?
Ute Schmid: ChatGPT nutzt das Generative Pre-trained Transformer Netz 3 (GPT 3), das mit im Internet verfügbaren Texten und anderen Symbolen trainiert wurde. GPT ist ein sogenanntes großes Sprachmodell. Die Datensammlung stammt aus dem Jahr 2021. Das heißt, Inhalte, die erst später im Internet erschienen sind, sind nicht im Modell enthalten. Die Menge an Worten, die ins Training des Netzes eingeflossen sind, ist gigantisch groß. Wikipedia macht zum Beispiel etwa drei Prozent davon aus. Je nach Themengebiet, kann das Verhältnis der Anteile von Information aus seriösen und weniger seriösen Quellen sehr unterschiedlich ausfallen. Im Gegensatz zur Nutzung einer Suchmaschine besteht keine Möglichkeit, von der Systemantwort auf die ursprünglichen Quellen zu schließen. Entsprechend kann Faktentreue nicht garantiert werden. Das ist ein Unterschied zu neuronalen Netzen.
Was versteht man unter neuronalen Netzen? Und wofür werden sie zum Beispiel eingesetzt?
Viele neuronale Netze werden aus sogenannten annotierten Daten gelernt, wie beispielsweise bei Bildklassifikatoren, die mit Daten wie ImageNet trainiert wurden. ImageNet besteht aus 14 Millionen Bildern von Tieren, Gebäuden, Fahrzeugen und Pflanzen, bei denen jedes Bild von Menschen per Hand mit den darauf zu sehenden Objekten gelabelt wurden. Diese Art von Daten wird für überwachtes Lernen genutzt. Das heißt, hier lag die Kontrolle über die Trainingsdaten in menschlicher Hand.
Also fehlt bei ChatGPT die Kontrollinstanz Mensch?
Nein, nicht ganz. GPT3 ist zwar aus ungefilterten Inhalten aus dem Internet mit einem Ansatz des selbstüberwachten Lernens trainiert worden. In diesem neuronalen Netz steckt die Information, mit welcher Wahrscheinlichkeit ein Wort auf ein anderes folgt. ChatGPT greift auf GPT3 zu, um Text zu generieren. Darauf aufbauend wurde das Sprachmodell aber mit überwachtem Lernen speziell auf das Generieren von Antworten auf gestellte Fragen trainiert. Hierin steckt dann wieder sehr viel menschliche Arbeit. Wenn wir bei ChatGPT Antworten bewerten oder korrigieren, wird diese Information genutzt. Man spricht hier von human-in-the-loop learning. Allerdings kann diese Möglichkeit auch missbraucht werden, indem Menschen bewusst Fehlinformation eingeben. Auch Bildgeneratoren basieren auf Generative Pre-trained Transformern. Hier wurden Millionen im Internet verfügbarer Bilder zum Training benutzt. Dies wirft Probleme des Urheberrechts auf, da Werke von Künstler*innen ohne Rückbezug auf diese in die generierten Bilder einfließen.
Wie erklären Sie sich den gegenwärtigen Hype um KI-Tools, wie ChatGPT und den Bildgenerator Midjourney?
Die generierten Texte und Bilder sind teilweise von sehr beeindruckender Qualität und teilweise auch Originalität. Vom sprachlichen Ausdruck oder der Art der Bilder sind die Ergebnisse – zumindest auf den ersten Blick – von der Leistung von Menschen nicht zu unterscheiden. Ohne die technischen Hintergründe zu kennen, gewinnt man leicht den Eindruck, dass solche KI-Systeme eine Frage tatsächlich verstehen und die Antwort auf Wissen über den Gegenstand, um den es geht, beruht.
KI-Systeme verstehen die ihnen gestellten Fragen also nicht wirklich?
Genau, das ist faktisch nicht der Fall. Die Systeme basieren rein auf der Kombination von Mustern. Es macht für das System keinerlei Unterschied, ob es Texte zum Thema Liebe oder zum Planetensystem generiert. Dass solche Systeme kein Weltwissen haben und keine logischen Schlüsse ziehen können, merkt man aber nur, wenn man gezielt danach sucht. Auf meine Frage „Wenn acht Menschen aus einem Bus aussteigen und fünf einsteigen, wie viele Menschen sind dann im Bus?“ kam zum Beispiel die Antwort: „Wenn fünf Personen in einen Bus einsteigen und acht aussteigen, sind dann zwei Passagiere im Bus. Man kann dies berechnen, indem man die Anzahl der Personen, die einsteigen, von der Anzahl der Personen, die aussteigen, subtrahiert: 5-8=-3, das heißt es sind drei Personen weniger im Bus als zuvor. Daher sind zwei Passagiere im Bus.“
Warum wird es trotzdem immer schwieriger, KI- Texte und -Bilder von menschlicher Schöpfung zu unterscheiden?
Zum einen gilt: „Die Masse macht´s.“ Die gelernten Modelle sind unglaublich groß. Es hat sich gezeigt: Je mehr Information in solchen Modellen gespeichert ist, desto besser ist die Qualität der generierten Ausgaben. Zum anderen darf man nicht vergessen, dass sehr viel menschliche Arbeit im Training dieser Modelle steckt, die das Verhalten der Modelle „fine tunen“.
Was sind Ihrer Meinung nach die größten Gefahren, auf die man als Nutzer*in von KI-Tools achten sollte?
Es gilt auf jeden Fall, dass blindes Vertrauen in die Korrektheit von Systemantworten gefährlich ist. Darüber hinaus möchte ich davor warnen, Informationen aus den Inhalten, die in das Sprachmodell eingeflossen sind, unkritisch zu übernehmen. Denn die Antworten, die etwa ChatGPT gibt, basieren auf den in den eingeflossenen Texten enthaltenen Meinungen. Zudem werden bestimmte als toxisch angenommene Inhalte aus den Antworten ausgefiltert. Was toxische Inhalte sind, wird aber im Prinzip vom Unternehmen Open AI bestimmt und basiert auf US-amerikanischen Normen und Werten, die nicht unbedingt unseren Wertvorstellungen entsprechen müssen.
Wie steht es um Sprache an sich?
Ich sehe die Gefahr einer Stereotypisierung und Verarmung von sprachlicher Vielfalt. Die Formulierungen von ChatGPT sind sprachlich meistens sehr gut. Sie folgen aber ganz bestimmten Sprachmustern. Stark verschachtelte Sätze oder Passivformulierungen werden selten generiert. Bestimmte grammatische Konstruktionen verschwinden also. Auch selten verwendete Wörter werden nicht in den Ausgaben vorkommen, was wiederum den Effekt haben könnte, dass diese Wörter mit der Zeit ganz verschwinden. Eine extreme Nutzung von ChatGPT kann meiner Meinung nach zudem dazu führen, dass Menschen die Kompetenz verlieren, eigenständig komplexe Texte zu formulieren.
Was können wir tun, um die Kompetenzen nicht zu verlieren?
Jedes technologische Werkzeug hat den Effekt, dass es einerseits hilfreich sein kann, aber dass andererseits auch bestimmte Kompetenzen nicht mehr trainiert werden. Die Nutzung von Taschenrechnern oder der Rechtschreibkontrolle sind sehr hilfreich und machen uns effizienter und produktiver. Allerdings muss in Bildungskontexten Sorge getragen werden, dass wir nicht unsere Kompetenzen zu rechnen verlieren oder keine Rechtschreibregeln mehr beherrschen. Ähnlich sehe ich das bei der Nutzung von ChatGPT: Warum nicht Gebrauchstexte generieren lassen? Aber wir sollten nicht damit aufhören auch selbständig Texte zu formulieren. Insbesondere halte ich es für bedenklich, wenn wir das Gefühl verlieren würden, welche Texte man in jedem Fall persönlich schreiben muss. Einen Kondolenzbrief, ein Dankesschreiben oder einen Liebesbrief generieren zu lassen ist meiner Meinung nach ein Zeichen sozialer Verwahrlosung.
Abschließend: Wie können Internetnutzer*innen KI-Tools verantwortungsvoll einsetzen?
Wichtig ist, dass möglichst alle Menschen – egal welches Alter und welcher Bildungshintergrund – ein grundlegendes Verständnis von der Funktionsweise solcher Systeme erhalten. Damit meine ich nicht, dass jede Person KI-Expertin oder -Experte werden muss. Wichtig ist, dass man sich nicht von solchen Systemen bluffen lässt, und dass Menschen geschult werden, Inhalte kritisch zu hinterfragen. Das ist eine große Bildungsaufgabe, die in jedem Fall als Erweiterung medienpädagogischer Inhalte in die Schulen muss. Die Nutzung solcher KI-Tools darf im schulischen Kontext meiner Meinung nach nicht verboten werden. Im Gegenteil: Sie sollte explizit Lerngegenstand sein. Wir müssen vermitteln, wie man gezielt Anfragen an KI-Tools stellen kann, sodass sinnvolle Antworten zu erwarten sind und es sollte geübt werden, wie man Aussagen mit Hilfe anderer Quellen überprüfen kann.
Vielen Dank für das Interview!