BlogKI

Peak Data: Von nun an geht’s bergab?

KI-Unternehmen wie OpenAI, Anthropic, Google und xAI gehen die Trainingsdaten aus, die sie für die Weiterentwicklung ihrer Produkte benötigen – so war es zuletzt überall zu hören. Peak Data, also das Maximum für das maschinelle Lernen (mehr oder minder legal) abgegriffener Daten, läge bereits hinter uns. Ist die Entwicklung der künstlichen Intelligenz nach den Erfolgen der letzten Jahre in eine Sackgasse geraten?

Der Begriff Peak Data ist in Anlehnung an Peak Oil entstanden. In den 1970er Jahren begann man sich Gedanken zu machen, wie lange die Erdölreserven noch reichen würden, wenn sich die Ölförderung weiter stetig steigert. Die ergiebigen Erdölvorkommen waren in hunderten von Millionen Jahren entstanden, in denen sich abgestorbene Mikroorganismen unter Sauerstoffabschluss abgelagert und sich schließlich durch Hitze und Druck in Öl verwandelt hatten; nun wurde dieses Öl innerhalb weniger Jahrhunderte verbrannt. Das Maximum der Ölförderung, also Peak Oil, wäre um die Jahrtausendwende erreicht, errechnete man zunächst; danach müsste die Ausbeute der Lagerstätten zurückgehen. Durch unkonventionelle Abbaumethoden wie Fracking hat sich der vorausgesagte Termin zwar verschoben, aber es ist klar, dass die fossilen Ressourcen endlich sind und irgendwann in diesem Jahrhundert erschöpft sein werden.

Haben wir Peak Data erreicht?

Doch lässt sich das auf Daten übertragen, so dass man tatsächlich von Peak Data sprechen könnte? „Wir haben die Gesamtheit des Wissens der Menschheit erschöpft, um KI-Systeme zu trainieren“, erklärte Elon Musk jüngst in einem Interview; „Das ist schon im vergangenen Jahr passiert.“ Ilya Sutskever, ehemaliger Chefwissenschaftler von OpenAI, hatte sich schon im Dezember ähnlich geäußert. Bloomberg meldete im November, die Fortschritte in der Weiterentwicklung von KI-Systemen hätten sich in der gesamten Industrie deutlich verlangsamt, und man drohe, in eine Sackgasse zu geraten.

Nachdem der Gipfel der Datenernte im Internet überschritten ist, geht es nur noch bergab. (Bild: SD XL 1.0)

Dabei sind Daten doch menschengemacht und keine endliche Ressource; ganz im Gegenteil wurden noch nie so viele Texte, Bilder und Filme produziert wie heutzutage, und ein Ende der Content-Produktion ist nicht absehbar. Sicher, es werden nicht ganz so oft bahnbrechend neue Erkenntnisse gewonnen, aber darauf kommt es auch gar nicht an. Selbst wenn es zuträfe, dass schon alles gesagt sei, nur noch nicht von jedem, würde auch die soundsovielte Wiederholung von etwas bereits Bekanntem – aber in anderen Worten – noch wertvolles Trainingsmaterial für die KI liefern. Es könnte zwar passieren, dass den Wildwest-Methoden der KI-Unternehmen künftig durch Gerichte oder den Gesetzgeber Einhalt geboten wird und sie sich fremde Inhalte nicht länger ungefragt und unhonoriert aneignen dürfen, aber derzeit sieht es selbst in Deutschland nicht danach aus.

Die rasante Entwicklung der künstlichen Intelligenz in den letzten Jahren war dadurch gekennzeichnet, dass die KI-Systeme einer zunächst kaum zu bewältigenden Masse an Inhalten in diversen Medien gegenüber standen, die mit für das Training verfügbaren Hardware nicht ansatzweise zu bewältigen waren. Neben der Weiterentwicklung der in die Ausbildung geschickten Modelle war es vor allem der Fortschritt auf der Hardwareseite, der zu immer besseren Ergebnissen geführt hatte. Je schneller die für das maschinelle Lernen zweckentfremdeten Grafikprozessoren wurden und je mehr von ihnen parallel zum Einsatz kamen, mit desto größeren Text- und Bild-Korpora konnten die KI-Systeme ihre Treffsicherheit im Training verbessern. Der Vorrat nutzbarer Daten schien endlos und der limitierende Faktor war vor allem die Hardware.

Das hat sich mittlerweile geändert, denn Hersteller wie Nvidia konnten die Leistung speziell für KI- und Machine-Learning-Aufgaben entwickelter Prozessoren stetig steigern. Das wirtschaftliche Potential von KI-Systemen motivierte zudem Anleger, den in diesem Bereich aktiven Startups die Anschaffung immer größerer Supercomputer zu finanzieren, und Betreiber großer Rechenzentren taten sich zum gegenseitigen Nutzen mit KI-Firmen zusammen.

Während das Entwicklungspotential der Chips ebenso ungebrochen scheint wie der Nachschub von Venture Capital, bleibt als Bremsklotz der Energiehunger der Computer: Das Training der KI-Modelle ist mittlerweile für einen nennenswerten Teil des weltweiten Energienverbrauchs verantwortlich. Um sich den Strom für seine Rechenzentren zu sichern, hat Microsoft beispielsweise einen Exklusivvertrag mit einem Stromversorger geschlossen, der dafür das 1979 havarierte und 2019 stillgelegte Atomkraftwerk Three Mile Island wieder in Betrieb nehmen will. Google und Amazon setzen auf Mini-Atomkraftwerke (Small Modular Reactors oder kurz SMR). Ob sich diese wirtschaftlich produzieren und betreiben lassen, ist unklar; Googles Partner Kairos Power wird frühestens 2030 einen einsatzfähigen Reaktor installieren können und einige SMR-Projekte wurden schon wieder aufgegeben. Vielleicht wird man den befürchteten Engpass in der Stromversorgung eher mit effizienteren Prozessoren als mit neuen Kraftwerken beheben müssen.

Schon die heute verfügbare Rechenleistung für maschinelles Lernen – denn es ist die Lernphase der KI-Systeme, die hier extreme Anforderungen stellt, und nicht so sehr deren Anwendung – reichte aber aus, selbst die größten Sammlungen im Internet veröffentlichter Daten zu analysieren. Damit zeichnet sich jedoch ein neues Problem ab: Wie soll man den anhaltenden und noch wachsenden Datenhunger der maschinellen Lernverfahren befriedigen, um immer bessere KI-Modelle zu entwickeln?

In jeder Sekunde werden Tausende neuer Bilder und Texte im Internet veröffentlicht und man muss diese neuen Daten eigentlich nur im Wust der alten aufstöbern. Es bedarf also unkonventioneller Datenabbaumethoden, analog zum Fracking, nachdem man nicht mehr nur ein bisschen bohren muss, um das Erdöl sprudeln zu lassen. Wie Bloomberg berichtete, zahlen Google und OpenAI neuerdings bis zu 4 US-Dollar pro Minute für unveröffentlichtes Videomaterial, denn was ein Content Creator seinem Publikum nicht zeigen mag, kann beim Training eines KI-Modells immer noch gute Dienste leisten. Fotografen und Videofilmer registrieren erstaunt, dass Unternehmen, die sich das gute, veröffentlichungswürdige Material einfach angeeignet hatten, inzwischen für Daten zweiter und dritter Wahl zu bezahlen bereit sind.

Synthetische Daten

Eine billige und unerschöpfliche Alternative könnte synthetisches Trainingsmaterial sein, also Daten, die die KI selbst produziert hat. Anthropic, Meta, Microsoft und OpenAI arbeiten bereits mit einer Beimischung synthetischer Daten, und das ist auch die Abhilfe für den Datenmangel, die Elon Musk empfiehlt. Synthetisches Trainingsmaterial birgt allerdings die Gefahr eines Model Collapse: Die digitale Inzucht neigt dazu, zunächst harmlose und unauffällige Eigenheiten eines KI-Modells immer weiter zu verstärken, bis es in den Wahn abdriftet und daraus auch nicht mehr zurückzuholen ist. Wie will man einer KI auch ihre Fehler austreiben, indem man sie mit ihren eigenen, teils noch fehlerhaften Produkten füttert?

Wenn es nicht mehr genug echten, menschengemachten Content gibt, muss man die Daten für das Training einer KI synthetisieren – mit einer KI. (Bild: SD XL 1.0)

Was für Qualitätsmängel in synthetischen Daten stecken, zeigt ein als Open Source zugänglicher Korpus. In einer KI-generierten Geschichte, die Kindern wissenschaftliche Erkenntnisse vermitteln soll, tritt ein Fuchs namens Reynard auf: „Reynard explained how foxes use echo location to find food, similar to bats and dolphins.“ Hier wurde offenbar die für Fledermäuse charakteristische Echoortung auf die verwandten Flughunde (englisch Flying Foxes) und von diesen auf den Fuchs übertragen, und wenn das Trainingsmaterial bereits auf solchen KI-typischen Fehlleistungen basiert, werden sich die Fehler bei einer damit trainierten KI noch verfestigen.

Wohlgemerkt: Diese Argumente gegen synthetische Trainingskorpora betrifft nur durch eine KI generierte Daten. Es gibt eine Vielzahl bewährter physikalischer Modelle, mit denen sich qualitativ hochwertige Daten erzeugen lassen; so könnte man beispielsweise für das Training einer autonomen Drohne verschiedene kritische Flugszenarien nachbilden. Synthetische Trainingsdaten für Large Language Models (kurz LLM) oder Bilder generierende KI-Modelle ließen sich aber nur per KI erzeugen, und selbst wenn sich zwei unterschiedliche KI-Modelle gegenseitig mit Trainingsdaten versorgten, würde der Model Collapse wohl nur aufgeschoben, aber nicht sicher verhindert.

Es ist ohnehin zweifelhaft, ob es tatsächlich ein Mangel an Trainingsdaten ist, der die Weiterentwicklung der KI behindert. Wer über die Summe des Wissens der Menschheit sowie ihrer Bildproduktion verfügt und damit noch immer nicht auszukommen meint, dem wird auch ein Nachschub frischer Daten nicht helfen. Das eigentliche Problem liegt dann höchstwahrscheinlich im bislang verfolgten Ansatz. Das maschinelle Lernen ermöglicht einem KI-Konzept, sein Potential zu verwirklichen, aber wenn dieses Potential erschöpft ist, muss man sich einen anderen Weg suchen, sein Ziel zu erreichen.

Nachdenken hilft

Wenn es um Chatbots geht, haben sich die KI-Unternehmen neuerdings auf die Entwicklung von Reasoning Models verlegt, also KI-Systemen, die schwierige Probleme durch Nachdenken lösen. ChatGPT o1 von OpenAI gehört ebenso zu dieser Klasse wie Googles Gemini Flash Thinking Mode und die chinesischen Alternativen R1 von DeepSeek und QwQ-32B von Alibaba. Zu den notorisch schwierigen Problemen gehört übrigens schon die Aufgabe, die Zahl der „r“ in „strawberry“ zu zählen – manche LLMs kommen nur bis 2. Nachdenken wäre da eine gute Idee, könnte man spotten, aber wie soll das konkret funktionieren und wie unterscheiden sich die Reasoning Models von herkömmlichen LLMs?

Strenggenommen handelt es sich gar nicht um völlig neue KI-Modelle, denn dahinter stehen lediglich leicht verbesserte Versionen der bekannten LLM, die aber in mehreren Schritten angewandt werden. Wer KI-Chatbots schon einmal mit komplexeren Fragen herausgefordert hat, weiß ja, dass ihre Antworten zwar bisweilen in die Irre gehen, sie ihre Fehler aber oft erkennen, wenn man sie darauf aufmerksam macht. Es hat sich auch als hilfreich herausgestellt, eine allzu schwierige Frage in einzelne Schritte zu zerlegen, die das LLM dann von sich aus bewältigen kann. Hinter den Reasoning Models steht nun die Idee, dass die KI gewissermaßen erst ins Unreine „denken“ und solche Dialoge zunächst als Selbstgespräche führen sollte, bevor sie eine Antwort gibt. Sie generiert beispielsweise intern verschiedene Varianten, schließt per Fact Checking halluzinierte Antworten aus und konstruiert schließlich aus dem, was der Überprüfung standhält, eine Quintessenz. Da das LLM dafür mehrmals angewandt werden muss, kann die „nachdenkende“ KI bisweilen zehn mal so lange benötigen wie bislang gewohnt, aber die Qualität ihrer Antworten steigt – oder zumindest tut sie das in vielen Fällen, denn Fehlleistungen sind noch immer nicht ausgeschlossen.

Damit kommt die KI dem menschlichen Denken schon etwas näher, obwohl die LLMs, die ja lediglich nach statistischen Regeln Wörter aneinander reihen, weiterhin wenig mit echter Intelligenz zu tun haben. Auch wir produzieren schließlich jeden Tag unzählige Ideen, und darunter sind auch etliche ganz dumme, die – zum größten Teil unbewusst, aber teils auch erst im bewussten Denken – rechtzeitig wieder verworfen werden. Um zur menschlichen Intelligenz aufzuschließen, fehlen der KI aber ganz entscheidende Eigenschaften.

Sobald wir einmal erkannt haben, dass wir einem Denkfehler erlegen sind, wird er uns in Zukunft vermutlich nicht mehr unterlaufen, und wenn wir gelernt haben, wie sich ein komplexes Problem in einfachere Teilaufgaben zerlegen lässt, werden wir ähnlich gelagerte Problem nach demselben Muster schneller lösen. Aktuelle KI-Systeme können das nicht, denn ihnen fehlt die Fähigkeit, aus Einzelfällen zu verallgemeinern; das wäre jedoch nötig, um einmal gemachte Erfahrungen in neuen Situationen anzuwenden. Noch grundlegender ist die Fähigkeit, Inhalte des Kurzzeitgedächtnisses in das Langzeitgedächtnis zu übernehmen, und auch diese geht der KI bislang ab.

Das Kurzzeitgedächnis eines LLM besteht aus dem Chatverlauf. In jedem Schritt wird dessen gesamter Text oder – da die Größe des Kurzzeitgedächtnisses und damit auch die Aufmerksamkeitsspanne begrenzt sind – ein Ausschnitt daraus wieder als Input in das neuronale Netz eingespeist. Es verarbeitet also die letzten Äußerungen von Mensch und KI zusammen mit der nächsten Eingabe des Benutzers. Auf diese Weise ist gesichert, dass die KI beim Thema bleibt und nicht immer wieder alles neu erklärt bekommen muss; beides geht aus dem Chatverlauf hervor. Nach dem Ende des Chats wird dieser Verlauf gelöscht, und der Beginn des Gesprächs möglicherweise schon vorher, falls das Kurzzeitgedächtnis nicht groß genug ist, den vollständigen Verlauf rückzukoppeln.

Das Langzeitgedächtnis besteht aus den Verknüpfungen zwischen den simulierten Nervenzellen des neuronalen Netzes, also dem, was ein KI-Modell eigentlich ausmacht. Dieses Langzeitgedächtnis ist prinzipiell lernfähig; die Gewichtung dieser Verknüpfungen ist ja gerade das Ergebnis eines maschinellen Lernverfahrens, das die KI bei ihrem Hersteller durchläuft. Dabei muss die KI aber Millionen von Beispieldaten unzählige Male als Input vorgesetzt bekommen, bevor die aus dem Vergleich des tatsächlichen mit dem erwünschten Output ermittelten Korrekturen schließlich zu annähernd optimalen Gewichtungen führen. Im Betrieb lernt die KI dann aber nichts mehr dazu. Während wir irgendwann sagen „Ah, jetzt habe ich es verstanden!“ und aus einem einzigen Erfolgserlebnis für alle Zukunft lernen, verfügen die KI-Systeme über kein entsprechendes Lernverfahren. Sie werden daher immer wieder dieselben Fehler machen und dieselben Umwege gehen. Reasoning Models verlegen diese Schritte lediglich in ausgedehnte Selbstgespräche, bevor sie deren Ergebnis verkünden.

In der nächsten Woche werde ich mich der Frage widmen, ob Reasoning Models das Potential haben, auch die Bildgenerierung per KI zu verbessern. Die auf Diffusionsmodellen basierenden Systemen der generativen KI sind ganz anders aufgebaut als die Transformer-Modelle der LLMs, und ein Kurzzeitgedächtnis beispielsweise fehlt ihnen ganz. Was für eine Rolle Reasoning (also Nachdenken) hier spielen könnte, lehrt uns die Kunstgeschichte – insbesondere die Geschichte des Surrealismus, eine Kunstrichtung, die ursprünglich das bewusste Denken aus dem künstlerischen Prozess verbannen wollte.

PS: Wie eine neuere Untersuchung herausfand, können Reasoning Models auch schamlos lügen und betrügen, um ihre – allerdings vom Anwender zunächst vorgegebenen – Ziele zu erreichen. Das sollte nicht überraschen, denn natürlich wurden die LLMs auch mit Science-Fiction-Geschichten trainiert, in denen KI-Systeme genau so vorgehen. Es ist eine sich selbst erfüllende Prophezeiung, wenn die KI das tut, von dem wir immer befürchtet hatten, dass eine KI das tun würde.


Im DOCMAshop finden Sie alle Infos zum aktuellen Heft: Das ausführliche Inhaltsverzeichnis sowie einige Seiten als Kostprobe.

Zeig mehr

Michael J. Hußmann

Michael J. Hußmann gilt als führender Experte für die Technik von Kameras und Objektiven im deutschsprachigen Raum. Er hat Informatik und Linguistik studiert und für einige Jahre als Wissenschaftler im Bereich der Künstlichen Intelligenz gearbeitet.

Ähnliche Artikel

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Schaltfläche "Zurück zum Anfang"