BlogKI

Mit KI vom Text zum Bild: Vom Nutzen und Schaden des Nachdenkens

Während die KI-basierten Chatbots zunehmend auf Reasoning Models umgestellt werden, die sich erst äußern, nachdem sie über einige Alternativen „nachgedacht“ haben, arbeiten Text-zu-Bild-Systeme weiterhin völlig unreflektiert. Könnte Reasoning nicht auch hier eine nützliche Rolle spielen, um absurde Resultate zu verhindern? Allerdings gab es bereits eine Kunstrichtung, die das Nachdenken über die Bildproduktion bewusst auszuschalten versuchte.

Letzte Woche hatte ich an dieser Stelle die neueren Reasoning Models beschrieben, die zwar auf den schon länger bekannten Large Language Models (LLMs) beschrieben, deren Output aber nicht ungeprüft ausgeben, sondern nach einem Faktencheck aus mehreren Alternativen ihre Antwort destillieren. ChatGPT o1 zählt dazu, ebenso wie R1 der chinesischen Firma DeepSeek, die den US-Unternehmen gerade vorführt, dass für eine mehr als konkurrenzfähige KI gar kein so großer Aufwand nötig ist, wie ihn künftig das Stargate-Projekt für 500 Milliarden Dollar bereitstellen wird. Dagegen sollen 6 Millionen Dollar und 2048 relativ preisgünstige H800 SXM5-GPUs von Nvidia zur Entwicklung von R1 ausgereicht haben. Offenbar sind effiziente Algorithmen und eine maschinennahe Programmierung doch noch wichtiger als ein massiver Hardware- und Energieeinsatz, und das ist nur für jene schlecht, die spekulativ in Kraftwerksbetreiber investiert hatten.

Aber das nur am Rande, denn heute soll es um ein anderes Thema gehen: Ließe sich die Idee hinter den Reasoning Models, nicht gleich alles auszusprechen, was einem einfällt, auf die Text-zu-Bild-Systeme übertragen? Eine Plausibilitätskontrolle der generierten Bilder könnte rechtzeitig überzählige Gliedmaßen und physikalisch unmögliche Bauten erkennen, um solche Fehler entweder im Nachhinein zu korrigieren oder völlig misslungene Ergebnisse auszusortieren. Allerdings haben die Diffusionsmodelle für die Bildproduktion eine ganz andere Architektur als die LLMs, was eine direkte Übertragung ausschließt.

Diffusionsmodelle lernen mit schrittweise immer stärker verrauschten Bildern, aus Rauschen wieder Bilder entstehen zu lassen.

Wie eine KI zu einem Prompt (mehr oder weniger) passende Bilder generiert, habe ich hier und in DOCMA 107 ab Seite 68 ausführlich beschrieben; auch in Promptologie II ist dieser Artikel enthalten. Den Ausgangspunkt bildet reines Rauschen, aus dem in mehreren Schritten ein immer deutlicher zu erkennendes Bildresultat hervor tritt. Der Vorgang erinnert an die bei Tageslicht sichtbare Entwicklung eines Sofortbilds, die ja entgegen dem Namen gut eine Minute braucht. Die Bildgenerierung der KI wird in jedem Schritt durch den Prompt gesteuert, der einen Punkt in einem multidimensionalen Merkmalsraum identifiziert, der gleichzeitig ein Raum aller denkbaren Bilder ist, und diesem Punkt strebt das sich entwickelnde Bild zu. Dabei operiert die KI aber gewissermaßen blind; sie „sieht“ nicht, was sie im Begriff ist zu produzieren.

Nicht dass so etwas prinzipiell unmöglich wäre. AARON, ein KI-System, an dem der britische Maler Harold Cohen (1928–2016) von den 1970er Jahren bis zu seinem Tod gearbeitet hatte, konnte schon seine halbfertigen Werke „sehen“, so dass sich aus jedem virtuellen Pinselstrich der nächste ergab. AARON verfügte zwar nicht über eine Kamera, arbeitete aber mit einer internen Repräsentation des in Entstehung begriffenen Bildes und sah es sozusagen vor seinem geistigen Auge. AARON basierte aber noch auf der Good Old-Fashioned AI (GOFAI), nicht den neuronalen Netzen aktueller KI-Systeme. (Mehr zu AARON hatte ich in DOCMA 105 ab Seite 84 sowie in Promptologie I geschrieben; auf den Unterschied zwischen GOFAI und neuronalen Netzen war ich bereits im Blog eingegangen.)

Reasoning
Harold Cohen bei der Vorführung einer frühen AARON-Version (1979) – aus seinem Archiv

AARON ging wie ein Maler vor; es war ein Expertensystem, programmiert von einem Künstler, der die KI in seiner eigenen Arbeitsweise anleitete (und ich verwende die Vergangenheitsform, weil AARON nicht Open Source war und das Projekt leider mit dem Tod seines Schöpfers endete). Kein bildender Künstler geht wie ein Diffusionsmodell vor und lässt alle Teile des Bildes gleichzeitig erscheinen; das wäre auch gar nicht möglich. Ob er oder sie mit dem Pinsel, einem Stift oder einer Radiernadel arbeitet, oder wie Jackson Pollock die Farbe auf die Leinwand tröpfeln lässt, entstehen die Bilder immer Stück für Stück. Manche arbeiten nach einer Vorzeichnung, andere malen frei; einige Maler tragen erst große Farbflächen auf, um dann die einzelnen Details fein auszuarbeiten, während andere von Motiv zu Motiv wechseln und auch mal wieder zurück. Und egal was der ursprüngliche Plan war, kann er im künstlerischen Prozess jederzeit modifiziert oder umgeworfen werden, wenn der Eindruck vom noch unfertigen Bild das nötig erscheinen lässt.

Dabei ist ein Bild nicht fertig, bevor es der Künstler für fertig erklärt hat; Korrekturen bleiben immer möglich. Jedenfalls im Prinzip, denn in der Praxis hängt das auch von der verwendeten Technik ab. Bei einem Aquarell sind Korrekturen schwierig, was auch für Radierungen und Holzschnitte gilt. Die Ölmalerei dagegen ist ideal für selbstkritische Künstler, die sich mit ihrer ersten Version selten zufrieden geben. Misslungene Bildteile lassen sich problemlos übermalen, und wenn man sich Gemälde schräg von der Seite anschaut, kann man das bisweilen deutlich sehen: Dort, wo der Farbauftrag am dicksten ist, hat der Maler am meisten korrigiert.

Malen wie die Maler

Dass der künstlichen Intelligenz unüberwindliche Grenzen gesetzt wären, der nicht auch jede andere Art von Intelligenz unterliegt, hat noch niemand beweisen können. Schon deshalb lässt es sich nicht ausschließen, dass eine generative KI Kunstwerke so produzieren könnte, wie es ein bildender Künstler tut, der über jeden Schritt nachdenkt und vor jedem Pinselstrich – oder womit immer der Künstler arbeitet – das bisherige Ergebnis auf sich wirken lässt. Mit Diffusionsmodellen ist das jedoch kaum möglich; dazu wäre eine neue KI-Architektur nötig. Vor allem aber müsste geeignetes Trainingsmaterial beschafft werden.

Ob eine KI so wie ein Maler malen kann? (Illustration: SD XL 1.0)

Das Training eines Diffusionsmodells erfordert einen möglichst großen Korpus von Bildern und deren Beschreibungen. Beides kann man problemlos und ohne jemanden zu fragen im Internet einsammeln – jedenfalls so lange Gerichte und Gesetzgeber die Verwertungsinteressen der KI-Unternehmen höher priorisieren als die Urheberrechte derjenigen, die diese Werke geschaffen haben. Eine KI, die mehr wie ein Künstler arbeitet, müsste Bilder verarbeiten können, was hierbei noch das geringste Problem ist. KI-Modelle wurden schon für die unterschiedlichsten Bildanalyseaufgaben trainiert und könnten sicher auch lernen, zu erkennen, was einem halbfertigen Werk noch zur Vollendung fehlt. Schwieriger wäre es, Trainingsmaterial für die verschiedensten künstlerischen Techniken zusammenzutragen, damit die KI erkennt, wie Künstler mit unterschiedlichen Techniken und Stilen ihre Bilder kreieren. Hier gibt es wenig, das man einfach abgreifen könnte – außer den 200 Stunden von Bob Ross’ The Joy of Painting, aber damit ausgebildet könnte ein KI-Modell nur kitschige Landschaftsbilder abliefern, und nicht jeder erfreut sich an „happy little trees“.

Eine Alternative könnte darin bestehen, physikalische Modelle der verschiedenen Techniken zu entwickeln und ein KI-Modell im Training damit frei herumprobieren zu lassen. Aber auch dieses autodidaktische Lernen würde einen um Größenordnungen höheren Aufwand erfordern als das Training eines Diffusionsmodells.

Andererseits könnte man sich fragen, ob es den Aufwand überhaupt wert ist. Zwar gibt es viele Anwendungen von Text-zu-Bild-KIs, bei denen ein kritischer Blick auf das entstehende Werk nützlich, wenn nicht unabdingbar wäre, aber das gilt nicht universell, und schon gar nicht im Bereich der Kunst. Es gibt sogar eine Kunstrichtung, die sich die Ausschaltung einer rationalen oder moralischen Kritik an den Ergebnissen des künstlerischen Prozesses ausdrücklich zum Ziel gesetzt hat: den Surrealismus.

Malen ohne nachzudenken

Wenn heute von „Surrealismus“ die Rede ist, denkt man meist an Malerei, an die Bilder von Künstlern wie Max Ernst, Salvador Dalí, René Magritte oder Giorgio de Chirico. Dabei war der Surrealismus im Ursprung eine literarische Bewegung, seit 1924 straff geführt von ihrem Gründer André Breton (1896–1966), der vor allem Dichter und Schriftsteller angehörten. Den Begriff selbst hatte Guillaume Apollinaire (1880–1918) geprägt – auch er ein Dichter.

Die Surrealisten zielten darauf ab, das Unbewusste, wie es sich in Träumen oder Rauschzuständen äußerte, als Inspirationsquelle der künstlerischen Produktion zu nutzen. Die wichtigste surrealistische Technik der Anfangszeit war das automatische Schreiben (französisch Écriture automatique), bei dem man alles notierte, was und wie es einem in den Sinn kam, ohne kritisch darüber nachzudenken oder moralisch zu werten, und ohne irgendeine Art von Selbstzensur zu üben. In den Worten André Bretons: „Sehen Sie ganz ab von Ihrer Genialität, von Ihren Talenten und denen aller anderen. (…) Schreiben Sie schnell, ohne vorgefasstes Thema, schnell genug, um nichts zu behalten, oder um nicht versucht zu sein, zu überlegen.“

Ob es eine surrealistische Malerei geben könne, war zunächst umstritten, schon weil die gegenständliche Malerei ein gewisses Maß an Vorplanung verlangte und zu langsam schien, als dass sich eine rationale Kontrolle umgehen ließe. In der Zeitschrift La Révolution surréaliste, von 1924 bis 1929 das Zentralorgan der surrealistischen Bewegung, dominierten die Texte; Bilder – neben Gemälden und Zeichnungen auch Fotos wie die von Man Ray – spielten noch eine Nebenrolle. Breton setzte sich aber schließlich mit seiner Position durch, auch bildende Künstler im Kreis der Surrealisten zu akzeptieren.

Aus Max Ernsts Bildroman La femme 100 têtes

Die surrealistischen Maler adaptierten Techniken wie Frottage und Décalcomanie, um das Unbewusste zu Bilderfindungen zu inspirieren. Indem sie vorgefundene Strukturen wie etwa eine Holzmaserung durch Abreiben (Frottage) mit einem Bleistift auf ein darauf gelegtes Papier übertrugen oder Farben willkürlich auf einer Glasplatte oder anderen glatten Oberfläche ineinander fließen ließen und davon einen Abklatsch auf Papier anfertigten (Décalcomanie), erzeugten sie weitgehend zufällige Formen, in denen der Künstler, der seinen Geist frei von jeder kritischen Kontrolle zu machen suchte, fantastische Szenen erkennen konnte – eine Idee, die letztlich auf Leonardo da Vinci zurückgeht. Auch die Collage, mit der sich vermeintlich nicht zueinander passende Elemente kombinieren ließen, wurde aufgegriffen – mit Ergebnissen, die entsprechend der Formulierung Lautréamonts (1846–1870), eines Vorläufers des Surrealismus, oft „schön wie das zufällige Zusammentreffen einer Nähmaschine und eines Regenschirms auf einem Seziertisch“ waren. Max Ernsts Bildgeschichten La femme 100 têtes (1929) und Une semaine de bonté (1934) sind die bekanntesten Beispiele.

Aus Max Ernsts Bildroman Une semaine de bonté

Salvador Dalí entwickelte in den 30er Jahren seine paranoisch-kritische Methode. Sie beruht darauf, sich willentlich in einen „paranoiden“ geistigen Zustand zu versetzen, in dem man Zusammenhänge zwischen Dingen oder Ereignissen zu erkennen meint, die tatsächlich nicht bestehen, um diese irrationalen Eingebungen dann in der „kritischen“ Phase als Inspirationen zu Motiven und Bildkompositionen nutzbar zu machen. André Breton sah nicht nur in der Malerei Anwendungsfelder für Dalís Methode, sondern auch im Film, in der Bildhauerei und sogar im Modedesign.

Vielleicht gelingt es irgendwann auch im Bereich der KI, beides zu vereinbaren, also einerseits einer unzensierten Fantasie die Zügel schießen zu lassen, die so gefundenen Ergebnisse dann aber einer rationalen Kontrolle zu unterwerfen und nur zu verwenden, was der jeweiligen Aufgabe dient.


Im DOCMAshop finden Sie alle Infos zum aktuellen Heft: Das ausführliche Inhaltsverzeichnis sowie einige Seiten als Kostprobe.

Zeig mehr

Michael J. Hußmann

Michael J. Hußmann gilt als führender Experte für die Technik von Kameras und Objektiven im deutschsprachigen Raum. Er hat Informatik und Linguistik studiert und für einige Jahre als Wissenschaftler im Bereich der Künstlichen Intelligenz gearbeitet.

Ähnliche Artikel

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Schaltfläche "Zurück zum Anfang"