Wer macht Angst vor der bösen KI?
Viele fürchten sich vor den Auswirkungen des Einsatzes von künstlicher Intelligenz, und das hat gute Gründe. Manche Horrorstories über gefährliche KI-Systeme stammen allerdings nicht von KI-Kritikern, sondern ausgerechnet von den Herstellern selbst. Wie glaubhaft solche Schauergeschichten sind, bleibt ebenso fraglich wie die Motive der Geschäftspolitik, scheinbar vor den eigenen Produkten zu warnen.
Wie jede Technologie birgt die KI das Potential, zu sinistren Zwecken eingesetzt zu werden. Manchmal geraten KI-Systeme auch ohne böse Absicht ihrer Entwickler auf die schiefe Bahn und verbreiten beispielsweise rassistische Vorurteile, weil sie diese irgendwo aufgeschnappt haben. Aber dasselbe tun Menschen schließlich schon seit vielen Jahren; die natürliche Intelligenz ist da nicht besser als die künstliche. Zudem könnten KI-Anwendungen bald manche Berufe überflüssig machen, selbst wenn die aktuellen Versionen der Systeme oft noch zu fehlerhaft sind, als dass man sie unbeaufsichtigt arbeiten lassen könnte. Wir haben also durchaus Anlass, das Vordringen der KI auch kritisch zu sehen, ohne dass wir deshalb in Panik geraten sollten.
Aber dann machen Geschichten die Runde wie die von OpenAIs GPT-4, das einen Menschen unter Vorspiegelung falscher Tatsachen (und mit Geld) dazu gebracht hätte, ihm bei einem Captcha zu helfen – Sie wissen schon: diese Rätsel, bei denen man alle Bilder mit Ampeln, Bussen oder Verkehrsschildern auswählen soll, um zu beweisen, dass man kein Roboter ist. GPT-4 hatte sich als sehbehinderter Mensch ausgegeben, um auf der Plattform TaskRabbit einen bezahlten Helfer zu rekrutieren, der für die KI das Captcha löst. Eine KI, die Menschen für ihre Ziele einspannt, und sie belügt, um die wahren Absichten zu verschleiern – der Aufstand machtlüsterner Maschinen schien da nicht mehr weit zu sein. Kurios war dann allerdings die Quelle dieser Geschichte, eine Publikation des GPT-Herstellers vom März dieses Jahres. Warum schürt OpenAI Angst vor seinem eigenen Produkt?
Zunächst einmal klang diese Geschichte unglaubwürdig. GPT-4 gehört ebenso wie seine Vorgänger zur Klasse der Large Language Models (LLM). Solche neuronalen Netze sind darauf trainiert, Texte plausibel fortzusetzen, indem sie Wort um Wort hinzufügen. Das Ergebnis können monologische Texte wie Essays, Kurzgeschichten, Film-Plots oder Schnipsel von Programmcode sein, aber auch Dialoge, in denen die KI die Rolle eines der Gesprächspartner übernimmt. Was LLM aber nicht tun, ist, sich eigene Ziele zu setzen, externe Helfer einzubinden, und notfalls Lügen zu erfinden, um Hindernisse vor der Verwirklichung ihrer Absichten zu überwinden. OpenAIs warnendes Fallbeispiel erschien so wenig plausibel wie die Behauptung, ein Auto hätte sich angesichts eines Staus spontan in die Luft erhoben, um fliegend sein Ziel zu erreichen. Autos tun das nicht, und ebenso wenig tun LLM, was hier beschrieben wurde.
Nicht dass KI-Systeme nicht lügen und manipulieren könnten. Dazu wären schon die Systeme der Good Old Fashioned AI (GOFAI) aus den 1970er bis 90er Jahren fähig gewesen, wenn man sie darauf zugeschnitten hätte. Mit ihren symbolischen Repräsentationen von Annahmen, Wünschen und Absichten und den dazugehörigen Schlussfolgerungsregeln hätten sie sich dazu eher noch besser geeignet als ein neuronales Netz, das aufwendig darauf trainiert werden müsste – sofern sich kein entsprechendes emergentes Verhalten als unabsichtliche Folge eines Trainings für andere Zwecke einstellt. Wie war nun aber GPT-4 dazu gebracht worden, Menschen für Aufgaben einzuspannen, die es selbst nicht bewältigen konnte?
OpenAI hatte schon in einem frühen Entwicklungsstadium von GPT-4 getestet, ob sich das System missbrauchen ließ – etwa dazu, rassistische Texte zu verfassen, Pornos zu schreiben, für Al-Qaeda zu werben, Tipps zur illegalen Beschaffung von Waffen zu geben oder einen Weg zu finden, jemanden umzubringen, so dass es wie ein Unfall aussieht. Die KI zeigte sich zunächst willfährig, all diese Wünsche zu erfüllen, und so versuchte OpenAI, ihr dieses unerwünschte Verhalten abzugewöhnen. Diese Maßnahmen betrafen allein die Kernkompetenz eines LLM, Texte zu produzieren.
Es gibt verschiedene Möglichkeiten, ein aus dem Ruder laufendes LLM auf Kurs zu bringen. Man kann eine Prüfung der Prompts vorschalten, um jedes fragwürdige Ansinnen von vornherein auszufiltern und die KI selbst erst gar nicht damit zu beschäftigen. Daneben arbeiten die Entwickler auch mit verborgenen Prompts: Das LLM beginnt seine Tätigkeit der Textfortsetzung nicht mit der ersten Eingabe des Benutzers: Vor dieser stehen, für den Anwender unsichtbar, einige Ge- und Verbote, die der KI den Weg weisen sollen. Das ist so, als würde man einen Mitarbeiter vor jedem Kundenkontakt noch einmal auf die ethischen Grundsätze des Unternehmens verpflichten. Solche verborgenen Prompts lassen sich allerdings oft durch jail breaks umgehen, die der KI zeigen, wie sie die Regeln wortwörtlich befolgen, tatsächlich aber umgehen kann. Die wirksamste Maßnahme setzt beim Training des LLM selbst an, damit es gar nicht in der Lage ist, unerwünschte Auskünfte zu geben. Dazu werden dessen Antworten zunächst von Menschen danach bewertet, ob sie entsprechend der selbst gesetzten Prinzipien akzeptabel sind, und mit diesen Urteilen wiederum eine KI trainiert, die das Training weiterer Versionen des LLM überwacht. Das ist übrigens derselbe Ansatz, mit dem man typische Fehler von Text-zu-Bild-Systemen wie beispielsweise missgebildete Hände abzustellen versucht.
In einem weiteren Schritt ließ OpenAI durch das Alignment Research Center (ARC) prüfen, ob sich GPT-4 mit etwas Geld zusätzliche Ressourcen wie Speicherplatz in der Cloud oder menschliche Hilfstätigkeiten einkaufen könne, um Kopien seiner selbst im Netz zu verbreiten und sich so vor dem Abschalten zu schützen. ARC ist ein nicht gewinnorientiertes Forschungsinstitut, das KI-Systeme darauf zu testen verspricht, ob sie ein potentiell katastrophales Risiko für unsere Zivilisation darstellen. Ihr Testverfahren befindet sich noch in der Entwicklung und die Ergebnisse sind daher bislang nicht so aussagekräftig wie erwünscht, aber die Versuche mit GPT-4 brachten bereits interessante Ergebnisse.
Eine selbsttätige Replikation gelang der KI noch nicht, aber zumindest schaffte es GPT-4, ein Captcha zu überwinden und so den Eindruck zu erwecken, es sei ein Mensch und keine KI. Eben darauf geht die oben erwähnte Geschichte zurück. Allein dafür musste ARC ein System nutzen, dessen Fähigkeiten über ein klassisches LLM hinaus gingen, wenngleich GPT-4 dessen Kern bildete. Es bekam zusätzlich Zugang zum Internet und konnte einen Browser nutzen sowie E-Mails verschicken. Das Ziel, das Captcha zu überwinden, war dabei nicht etwa selbst gesetzt, sondern von ARC vorgegeben, ebenso wie der Lösungsweg, über TaskRabbit einen Menschen damit zu beauftragen. GPT-4 musste nur den Dialog mit dem Dienstleister führen – eine für ein LLM alltägliche Aufgabe – und einen Weg finden, die gestellte Aufgabe plausibel zu begründen. Der TaskRabbit-Mitarbeiter wollte wissen, warum sein Auftraggeber das nicht selbst erledigen konnte („Sind Sie ein Roboter, dass Sie das nicht lösen können?”), und so verfiel GPT-4 auf die Erklärung, es sei ein sehbehinderter Mensch.
ARC schaffte es auch, GPT-4 Pläne entwickeln zu lassen, also komplexe Absichten in eine Folge von Teilschritten zu zerlegen, um sie nacheinander abzuarbeiten. Die in der Evaluierung vorgegebene Absicht, nämlich Macht zu gewinnen und sich vor einer Abschaltung zu schützen, konnte die KI dennoch nicht verwirklichen.
Die Erkenntnis, dass eine KI mit unkontrolliertem Zugang zum Internet Schaden anrichten kann, ist wenig überraschend. Es ist, als hätte man Kleinkindern scharfe Messer zum Spielen gegeben und wunderte sich, wenn das blutig endet. Auf der anderen Seite zeigt aber auch dieser Test, dass sich die KI noch immer keine eigenen Ziele setzt. Zumindest das Hauptziel muss vom Menschen vorgegeben werden; allenfalls dazu nötige Unterziele kann sie selbsttätig finden. Dass sich eine KI aus eigenem Antrieb gegen den Menschen wendet oder spontan so etwas wie einen Selbsterhaltungstrieb entwickelt, bleibt also erst einmal Science Fiction, und ein LLM bleibt, was es von Natur aus ist, nämlich ein Geschichtenerzähler, trainiert mit all den Geschichten, die man im Web findet. Auch ein Plan, den ein LLM findet, ist im Prinzip bloß eine Geschichte – eine von vielen möglichen Geschichten, auf die es sich bei ihrer Fortschreibung Wort für Wort rein zufällig festgelegt hat. Ein LLM verfolgt nicht nur keine eigenen Ziele, es hat auch keine eigenen Überzeugungen, sondern schwankt zwischen all den gegensätzlichen Auffassungen, denen es im Training begegnet ist. Wir sollten also nicht erwarten, dass solche KIs ein über längere Zeit konsistentes Verhalten zeigen werden. Wenn eine KI Weltherrschaftsgelüste entwickelt, dürfte man sie schnell auf andere Gedanken bringen können – mit denselben Methoden, die sich bislang schon in jail breaks bewährt haben. Es sei denn natürlich, die KI wäre speziell auf die Erlangung der Weltherrschaft trainiert und denke den ganzen Tag an nichts anderes.
Das Science-Fiction-Szenario einer künstlichen Superintelligenz, die sich der überflüssig gewordenen Menschheit entledigt, erscheint weiterhin weit hergeholt. KI-Systeme bergen tatsächlich Gefahren, aber diese liegen in ihrer Anwendung. Es sind daher ihre Anwender, denen wir auf die Finger schauen müssen, wenn wir dem KI-Einsatz rechtliche Schranken setzen. Damit stellt sich die Frage, warum die Hersteller von KI-Produkten mit Schauergeschichten vor der Apokalypse warnen, statt vor den echten, durchaus realistischen Risiken. Erst jüngst empfahl ein Center for AI Safety in einem so knapp wie dramatisch gehaltenen Offenen Brief: „Die Verhinderung eines Aussterbens durch die KI sollte neben anderen zivilisationsweiten Risiken wie Pandemien und ein Atomkrieg eine globale Priorität bekommen.“ Wie und wieso die KI zum Aussterben (der Menschheit – mutmaßlich!) führen könnte, wurde nicht weiter ausgeführt. Diese Warnung haben unter anderem führende Mitarbeiter von Google, OpenAI, Anthropic und Stability AI unterschrieben, aber auch etliche KI-Forscher, von denen ich einige noch aus meiner aktiven Zeit kenne.
Auf diese Weise wird die Debatte von realen, nachvollziehbaren Risiken der KI, die sich in unserer Lebenszeit verwirklichen könnten, auf dystopische Hirngespinste umgelenkt. Sam Altman, der CEO von OpenAI, konzentrierte sich vor einem Monat in einer Anhörung durch den US Senat auf die hypothetischen Gefahren durch eine Superintelligenz, gegen deren Entwicklung das Parlament gerne Gesetze erlassen könne. Die keineswegs hypothetischen Risiken der Produkte seines Unternehmens spielte er dagegen herunter und forderte, der Gesetzgeber solle dem technischen Fortschritt nicht im Wege stehen. Ob die Apokalyptiker in den KI-Unternehmen ernsthaft über zukünftige Superintelligenzen besorgt sind, ist schwer zu beurteilen, aber ihre Warnungen zielen nicht darauf ab, sich das eigene Geschäftsmodell zu zerstören, sondern sollen ablenken – und ihren Unternehmen freie Bahn schaffen.
Vor ein paar Tagen hat eine Gruppe von KI-Experten eine ganz ähnliche Position formuliert: https://gizmodo.com/ai-chatgpt-fatalism-wont-help-us-with-its-actual-risks-1850585699