KI: Lügende Texte, lügende Bilder?
Generative KI-Systeme produzieren Bilder ebenso wie Texte, aber wie es scheint, legen wir an die Wahrhaftigkeit von Texten und Bildern durchaus unterschiedliche Maßstäbe an. Warum eigentlich?
Als die KI-generierten Bilder immer fotorealistischer wurden, stand in den Debatten darüber zunächst die Befürchtung im Vordergrund, diese Bilder könnten zu manipulativen Zwecken genutzt werden. Das heute viel diskutierte Thema des Urheberrechts an den zum Training verwendeten Bildern geriet erst später ins Blickfeld.
Nun können Bilder als solche nicht lügen. Ein Bild der gewaltsamen Festnahme eines widerstrebenden Donald Trump zeigt zunächst einmal nur, wie eine solche theoretisch mögliche Szene aussehen könnte. Erst wenn man das per KI generierte Bild wahrheitswidrig als Foto eines tatsächlichen Geschehens ausgäbe, wäre es eine Lüge. Aber damit lügt man dann selbst; das Bild tut es nicht. Nicht nur ein KI-generiertes Bild, auch ein Foto muss keine Realität abbilden – oder zumindest nicht die, die es abzubilden scheint. Der vermeintliche Donald Trump und die Polizisten könnten Schauspieler sein, oder Trump selbst könnte die Szene, mit welcher Absicht auch immer, so inszeniert haben. Das Foto wäre die getreue Projektion einer dreidimensionalen Realität auf eine zweidimensionale Fläche, aber es provozierte einen irreführenden Eindruck. Das läge dann aber an der Präsentation, und man könnte ein solches Foto auch von vornherein als Scherz kennzeichnen, um eine Fehlinterpretation zu unterbinden. (Erfahrungsgemäß geht das gelegentlich schief, und ein als Aprilscherz produziertes Bild taucht dann Monate später in einem anderen Medium als vermeintliches Reportagefoto auf.)
Während aber den KI-Bildern von Anfang an misstraut wurde, gilt das für die Texte der KI nicht im gleichen Maße. Überall war zu lesen, dass Systeme wie ChatGPT das Geschäftsmodell von Suchmaschinen wie Google bedrohen würden, da man seine Fragen künftig einer KI stellen könnte, statt sich mühsam durch Seiten von Suchergebnissen wühlen zu müssen. Schüler und Studenten würden sich ihre Hausaufgaben von der KI schreiben lassen und Softwareentwickler arbeitslos werden, weil eine KI nicht nur Englisch oder andere natürliche Sprachen, sondern auch Code in diversen populären Programmiersprachen schreiben kann. Es hat sich zwar herumgesprochen, dass den Systemen gelegentlich noch Fehler unterlaufen, aber das gilt eher als Kinderkrankheit, die bald abgestellt würde. Dabei sind die großen Sprachmodelle (Large Language Models = LLM), wie sie ChatGPT von OpenAI und Googles Bard zugrunde liegen, dafür denkbar ungeeignet, denn LLM sind schon von ihrem Funktionsprinzip her gar nicht darauf ausgelegt, wahre Aussagen zu generieren. Oder korrekten Programmcode, was das betrifft.
Gehen wir einmal die gängigen Alternativen durch, im Internet Antworten auf Fragen zu finden. Zunächst einmal könnten wir ein enzyklopädisches Werk wie die Wikipedia konsultieren. Oft wird von der Wikipedia verächtlich gesprochen, aber tatsächlich ist sie relativ verlässlich – mindestens so verlässlich wie die gedruckten Enzyklopädien früherer Zeiten wie der Brockhaus oder die Encyclopædia Britannica. Zudem werden Fehler darin viel schneller korrigiert. Wenn man ausgehend von einem Wikipedia-Artikel noch die darin referenzierten Quellen prüft, hat man bereits eine recht gute Basis, auch wenn eine Enzyklopädie keine spezialisierten Fachbücher ersetzen kann.
Stattdessen kann man auch eine Suchmaschine wie Google bemühen. Die im Internet gefundenen und bewerteten Seiten sind naturgemäß von unterschiedlicher Qualität und manche davon enthalten gar keine zur Beantwortung der Frage nützlichen Informationen; man muss selbst herausfinden, was wirklich verlässlich ist oder zumindest plausibel erscheint, und wie man aus den verschiedenen Wissensfragmenten eine Quintessenz bildet. Suchmaschinen sind nur so gut wie derjenige, der sie benutzt, aber wenn es darum geht, sich mit einem unbekannten Gebiet vertraut zu machen, ersparen sie einem viel Arbeit, für die man sich früher für längere Zeit in Bibliotheken und Archive zurückziehen musste.
Fragt man dagegen ein LLM, so bekommt man eine wohlkomponierte und grammatikalisch korrekte Antwort auf dem Silbertablett serviert, die einem alle weitere Arbeit abzunehmen scheint. Das Problem dabei ist nur, dass ein LLM schneller redet, als es denkt – oder vielmehr, dass es gar nicht denkt. Ein LLM hat nie gelernt, aus Fakten Schlussfolgerungen zu ziehen, sondern wurde allein darauf trainiert, einen Text passend fortzusetzen – die Antworten, egal wie lang sie sind, entstehen durch mehrfache Durchläufe eines Prozesses, der jeweils nur ein Wort oder einen Wortbestandteil produziert. Die Good Old Fashioned AI des vergangenen Jahrhunderts arbeitete noch mit Repräsentationen von Wissen, und erst nachdem diese frühen KI-Systeme durch logische Schlussfolgerungen zu einem Ergebnis gekommen waren, wurde dessen interne Repräsentation in eine natürlichsprachliche Form gebracht. Zumindest die Entwickler dieser Systeme konnten dabei auch die internen Repräsentationen inspizieren und die Schlussfolgerungsprozesse nachvollziehen. Die neueren, auf neuronalen Netzen basierenden LLM formulieren ihre Antworten direkt auf Englisch oder Deutsch, und ob dahinter Schlussfolgerungsprozesse stecken, deren Inhalte irgendwo im neuronalen Netz repräsentiert wären, wissen nicht einmal die Entwickler. Theoretisch könnte das Netz im Training der Textproduktion auch das Denken gelernt haben, aber sehr wahrscheinlich ist das nicht. Wie sollte man schließlich Denkprozesse so herunterbrechen, dass der Produktion eines Wortes jeweils ein Gedanke oder eine Schlussfolgerung entspräche?
Die gelegentlichen Halluzinationen, die solche Systeme produzieren und manchmal durch erfundene Quellen unterfüttern, sind insofern keine Betriebsunfälle, die durch leicht behebbare Bugs in der Programmierung verursacht wären, sondern sie liegen im Prinzip. LLM sollen zusammenhängende Texte produzieren, deren Wahrheit jedoch kein Kriterium für den Trainingserfolg ist.
Die Folgen davon können weitreichend sein, und sie beschränken sich nicht darauf, dass sich beispielsweise ein Schüler mit einem KI-generierten Aufsatz blamiert (ich habe Googles Bard mal mit ein paar Fragen aus dem Bereich der Literatur getestet und ihm daneben Aufgaben gestellt, wie sie Informatik-Erstsemester bewältigen müssen, und kann aufgrund der Ergebnisse nur dringend davon abraten, sich auf die KI zu verlassen).
Vor zwei Monaten hatte sich ein Journalist für eine Zusammenfassung des Rechtsstreits zwischen der Second Amendment Foundation (SAF) und Robert Ferguson auf die Dienste von ChatGPT verlassen, und die KI behauptete, es ginge dabei unter anderem darum, dass Mark Walters, ein Radiomoderator, als langjähriger Schatzmeister der SAF Gelder veruntreut hätte. Tatsächlich hatte Walters nichts mit der SAF zu tun und war nie deren Schatzmeister; es wurde niemals ein solcher Vorwurf gegen ihn erhoben und sein Name taucht in dem Verfahren – in dem es um etwas völlig anderes geht – gar nicht auf. Auch auf Nachfrage beharrte ChatGPT jedoch auf seiner Aussage und lieferte als Beleg ein frei erfundenes „Zitat“ aus der Klageschrift. Mark Walters hat daraufhin eine Verleumdungsklage gegen OpenAI angestrengt.
Im April hatte ein Professor am UCLA im Rahmen einer Recherche zu ChatGPT nach Fällen von sexueller Belästigung durch Jura-Professoren gefragt, belegt durch einschlägige Zeitungsartikel. ChatGPT nannte fünf solcher Fälle, von denen drei erfunden waren. Einer der fälschlich Beschuldigten war Jonathan Turley, Professor an der George Washington University; er hätte angeblich im Jahre 2018 während einer Studienreise nach Alaska eine Studentin belästigt. Als Beleg wurde ein Artikel in der Washington Post angeführt. Tatsächlich gab es keinen solchen Vorwurf gegen Turley, nicht einmal eine Alaska-Reise, und der Zeitungsartikel war wiederum frei erfunden.
Das Halluzinieren nicht existenter Quellen wächst sich im Journalismus zu einem Problem aus. Der britische Guardian berichtete, jüngst zweimal nach angeblich vor Jahren erschienenen Artikeln gefragt worden zu sein, die auf der Website der Tageszeitung nicht aufzufinden waren. Die genannten Autoren arbeiteten tatsächlich für das Blatt, und die Themen der Artikel passten zu den von ihnen betreuten Bereichen, aber die gesuchten Texte hatten sie nie geschrieben – die Artikel existierten nicht. In beiden Fällen war es ChatGPT, das den Guardian als Referenz angeführt hatte. Wenn Medien künftig verstärkt auf KI setzen, um online und in Printprodukten die Seiten zu füllen, und Korrekturleser abgeschafft oder ihrerseits durch eine KI ersetzt werden, wie es wohl bei Springers BILD geplant ist, könnten wir bald in die Situation kommen, dass echte, von einer KI publizierte Artikel ihre falschen Behauptungen mit erfundenen Quellen belegen. Diese Artikel könnten wiederum anderen Medien als Quelle dienen, und das wäre das KI-Äquivalent zur Geldwäsche: Nachdem eine Meldung erst einmal die Runde durch alle Medien gemacht hat, weiß keiner mehr, dass sie im Ursprung frei erfunden war. (Zugegeben: Im Boulevard kam das auch ohne KI-Einsatz schon gelegentlich vor.)
In einer Hinsicht ist die Textproduktion der KI der des Menschen längst überlegen: Die Rechtschreibung und Grammatik der KI-generierten Texte ist über fast jeden Zweifel erhaben, was für vieles, das man im Internet liest, ganz und gar nicht gilt. Aber während selbst der dümmste Kommentar in den sozialen Medien das Ergebnis eines Denkprozesses ist, wie unzulänglich dieser auch sein mag, plappern die KI-Systeme ohne jedes Nachdenken fröhlich drauflos.
Eine interessantes Experiment zu diesem Thema von Jürgen Scriba, der sich fragt, was passiert, wenn man künstliche Intelligenz dazu bringt, eine historische Persönlichkeit zu erfinden. Das Experiment zeigt eine Zukunft, in der Realität zur Ansichtssache wird.
https://www.spiegel.de/netzwelt/ki-experiment-wenn-kuenstliche-intelligenz-eine-historische-persoenlichkeit-erfindet-a-0a146ab5-6404-4bfb-9965-dd7265af6e84?sara_ref=re-xx-cp-sh
Danke für den spannenden Artikel!
Da der erwähnte SPON-Artikel leider ein „+“ ist, habe ich mal nach dem Original gesucht:
https://wirsing.info
Es lohnt sich definitiv. Dort wird auch sehr gutdeutlich gemacht, wie man zu gewünschten Ergebnissen kommt. Also der Manipulation Tür und Tor geöffnet…
ChatGPT erscheint mir (immer mehr) wie ein sich allwissend gebärdendes Orakel. Im Unterschied zu den Orakeln aus der Antike eröffnet es denen, die es befragen, immer die Möglichkeit, seinen Orakelspruch zu korrigieren. Es entschuldigt sich und bindet die Korrektur in einen erneuten Orakelspruch ein:
Hier zwei Beispiele:
„Entschuldigung für die Verwirrung. Das Gedicht … hat tatsächlich 21 Worte, nicht 15. Hier ist die korrekte Zählung:…“
„Entschuldigung, mein Fehler. Sie haben recht. … Vielen Dank für die Korrektur, und ich entschuldige mich für die vorherige falsche Aussage.“
Also alles eher tatsächlich ein großes Halluzinieren als ein Quell der Erkenntniss – man muss nur in der Lage sein, den Depp auf der Bühne zu entlarven.
Mit Fragen, deren korrekte Antwort auf Zahlenwerten beruht, kann man die KI zuverlässig aufs Glatteis führen. Ein Facebook-Freund von mir, der sich mit Weinbau auskennt, fragte ChatGPT mal nach der Bedeutung verschiedener Rebsorten für den Weinbau in Deutschland. Dass sich ChatGPT dabei vertat und seine Antworten auch nach mehrfachen Korrekturen kaum richtiger wurden, war gar nicht so bemerkenswert – aber die KI nannte konkrete Zahlen für die Anbauflächen und behauptete dann, die größere Fläche sei die kleinere.
Kürzlich fragte ich Googles Bard danach, warum die Figur des Webers Bottom in Shakespeares „Sommernachtstraum“ in deutschen Übersetzungen meist „Zettel“ heißt. Zugegeben, eine nicht ganz einfache Frage, aber Bard behauptete unter anderem, „Zettel“ sei kürzer als „Bottom“ und daher von Schauspielern leichter auszusprechen – obwohl doch beide Namen sechs Buchstaben und zwei Silben haben. Die KI-Chatbots können oft weder richtig zählen noch richtig rechnen.