Wenn ein Meister der Filmbilder im hohen Alter KI als Ausdrucksmedium entdeckt, ist das durchaus bemerkenswert. Alexander Kluge hat ein Leben lang die Welt durch die Filmkamera betrachtet – und so ist es in mehrfacher Hinsicht überraschend, was er zum Thema KI zu sagen hat.
Asiatische Lady Liberty, sich ausruhend (Doc Baumann mit Midjourney)
Ich hatte von dem Buch zweierlei erhofft, als ich es zur Rezension bestellte: Aufschluss über den Titel „Konjunktiv der Bilder“ (da wollte ich gern erfahren, ob Kluge darunter dasselbe versteht wie ich), und KI-Bilder von einem, der sich mit Bildern, wenn auch solchen anderer Art, hervorragend auskennt. Beide Erwartungen, ich muss das zu meinem Bedauern so sagen, wurden enttäuscht.
Alle KI-Abbildungen des Buches wurden mit Stable Diffusion generiert, und da ich damit schon lange nicht mehr gearbeitet habe, wusste ich zunächst nicht, ob sie repräsentativ sind für den aktuellen Stand dieser KI. Im Rückblick auf das, was wir in den vergangenen Jahren auf diesem Weg produziert und präsentiert haben, war mein Eindruck, dass das der qualitative Stand von vor zwei Jahren ist. Und die Galerie auf der Website von Stable Diffusion belegt in der Tat, dass auch diese KI inzwischen hochwertige und detaillierte Bilder hervorbringt.
Nun sind zwei Jahre in machen Bereichen nicht viel – hier ist das jedoch etwas ganz anderes. Es liegen Welten zwischen dem, was Kluge mit Prompt-Vorgaben aus seiner KI herausholt oder was diese auf der Basis hochgeladener Referenzbilder generiert hat, und dem, was KI heute zu leisten in der Lage ist. Seine KI-Bilder sind voller „Matsch-Gesichter“, die inzwischen zum Glück weitestgehend überholt sind (und die man in ähnlicher Weise vielleicht bei den Porträts von Francis Bacon schätzt, aber weniger in eigenen Kreationen). Mit dieser Bildauswahl tut er sich weder selbst einen Gefallen noch informiert er Leser auf der Höhe der Zeit darüber, was inzwischen möglich ist. Das ist, angesichts der Entwicklungsgeschwindigkeit, etwa so, als verfasse man ein Buch über Autos und zeige darin den VW Käfer und den Opel Kapitän. (Ich zeige oben die – aus meiner Sicht – besten.)
Nun denn, vergessen wir also die Bilder und schauen uns die Texte an. Hier fällt zunächst auf, dass Kluge nach einer vergleichsweise kurzen Einleitung, in der er u.a. auf sein Konzept des „Konjunktivs der Bilder“ eingeht, die übrigen 420 Seiten des kleinen Büchleins dazu nutzt, Bilder und Themen mit Stable Diffusion umsetzen zu lassen und das jeweils durch knappe Texte zu den Referenz-Originalen zu erläutern. Dass ihm das viel Spaß gemacht hat, sieht man und es ist ihm zu gönnen. Kommentieren lässt sich das sinnvoll kaum.
Nach einigen Vorbemerkungen, die mit KI wenig zu tun haben, leitet Kluge sein Buch mit dem Erstaunen darüber ein, was Stable Diffusion aus einem Prompt machte, mit dem er die Freiheitsstatue nach Ostasien versetzen wollte. Sie verweigerte das – ein uns allen vertrautes Phänomen – und brachte stattdessen das Bild einer freundlichen und schmerzunempfindlichen Asiatin hervor, die zwar eine brennende Fackel in der rechten Hand trägt, deren anderer Arm aber ebenfalls brennt und bis zum Ellbogen bereits den Flammen zum Opfer gefallen ist.
Als klassisch gebildetem Menschen fällt Kluge dazu die antike Geschichte des römischen Freiheitskämpfers Scævola ein, der den Tyrannen Porsenna ermorden wollte und lieber seine Hand bis zum Stumpf verkohlen ließ, als die Namen seiner Mitverschwörer zu verraten. Nun würde ich meine Hand nicht dafür ins Feuer legen, dass die KI diese Geschichte kennt und im Vektorraum der Milliarden Daten diese digitale Assoziation geknüpft hat. Ich stimme Kluge zu, dass man das KI-generierte Bild unter Umständen durchaus so interpretieren darf – ob nun eine Deep-Dreams-„Intention“ dahintersteckt oder die Kombination reiner Zufall ist, weil die KI sich auf die Stichwörter Arm und Fackel ihren eigenen Reim gemacht hat.
Das Problem dabei ist allerdings, dass man in diesem Fall genau weiß, dass das Bild von einer KI stammt und diese den Prompt nicht im Sinne des Nutzers Kluge umgesetzt hat. Die Möglichkeit einer Interpretation ist aber eher dann gegeben, wenn der Betrachter nicht weiß, ob es einen menschlichen Schöpfer mit einer bestimmten Absicht gab oder nicht. Wenn man weiß oder auch nur annimmt, es gäbe diesen Schöpfer, kann und darf man interpretieren, was einem das Werk unter Zugrundlegung kultureller Konventionen, Symbole usw. sagen könnte. Es mutet dagegen immer etwas willkürlich an, mit dem eigenwilligen Bild einer KI, das nicht einmal den Vorgaben des Prompts entspricht, in dieser Weise umzugehen. Es erfordert bekanntlich keine Mühe – man könnte auch sagen: es ist keine Kunst –, ein x-beliebiges KI-Bild, das ohne angemessene Berücksichtigung des Prompts (oder auf der Basis eines bewusst unsinnigen) entstanden ist, seiner „hand“werklichen, kompositorischen und ästhetischen Qualitäten wegen begeistert zu präsentieren, weil unsere Betrachtungsgewohnheiten darin eine bestimmte Intention zu erkennen erlauben. Isoliert und ohne Hintergrundwissen ließe sich dagegen nichts einwenden. Im Wissen um die KI-Entstehungsgeschichte allerdings lässt sich diese Herangehensweise schwer rechtfertigen.
Selbstverständlich ist das ganz anders zu beurteilen, wenn KI nicht von der Leine gelassen, sondern als Werkzeug eingesetzt wird, wenn die Ergebnisse so lange durch Promptverfeinerungen verbessert, nötigenfalls später noch durch Bildbearbeitung korrigiert werden, bis sie der Intention des Anwenders entsprechen. Aber gerade dem widerspricht Kluge ausdrücklich, indem er postuliert, man müsse der KI ihre „Freiheit“ lassen:
„Der Autor muss seine Absichten in der Reserve halten, und seine Beobachtung in die spätere Montage investieren. Es darf nicht den »virtuellen, quasi-alchemistischen« Prozess, den der Rechenkünstler K.I. ausübt, willkürlich oder vorzeitig stören.“ Das klingt mir dann doch zu sehr nach einer Anthropomophisierung der KI, als wolle Kluge vermeiden, dass diese in ihrem kreativen Drang behindert und ihren Gefühlen verletzt wird und beleidigt schmollt.
*****
Überrascht hat mich Kluges Konstruktion „Konjunktiv der Bilder“. Um nicht missverstanden zu werden: Im Prinzip stimme ich seiner Parallelisierung von Bild und Sprache (Grammatik der Verb-Modi) in dieser Hinsicht durchaus zu (und verwende sie selbst in einem Buch, das ich derzeit verfasse). Doch sie könnte etwas tiefer gehen. Zum einen ist jedes Bild stetige und ewige Gegenwart, eine eingefrorene Situation, an der sich nie etwas ändern wird. Zum anderen ist es, jedenfalls bei Fotografie und Film, die Fixierung von etwas, das in der Vergangenheit stattgefunden hat – schon der Blick auf die Nachbetrachtung des gerade Aufgenommenen auf dem Kameramonitor zeigt etwas Vergangenes.
Ich kann ihm nicht zustimmen, was den Konjunktiv betrifft. Denn er schließt ihn als „nicht filmbar“ aus. Dabei zeigt etwa – nur ein Beispiel – der Film „Vaterland“ ein fiktives Deutschland, in dem die Nazis den Zweiten Weltkrieg gewonnen haben, also etwas Kontrafaktisches. Produktionsseitig sind Kulissen, Hakenkreuzfahnen, Kleidung usw. in der Tat als bloße Requisiten mit Vergangenheitsanmutung einfach da und werden abgefilmt – betrachterseitig hingegen werden wir für die Laufzeit des Films in eine Situation hineingezogen, die so nie war, aber unter bestimmten Umständen so hätte gewesen sein können. Genau das also, was eine Konjunktiv-Konstruktion ausmacht (Konjunktiv II Plusquamperfekt Irrealis). Selbst der getreueste historische Film komponiert, ergänzt und strafft, die Darstellerin einer Königin ist keine, sondern eine Schauspielerin. Und wenn das schon für historisches Material gilt, was ist dann mit den zahllosen rein fiktionalen Spielfilmen?
Richtig ist dann zwar, dass KI solche konjunktivischen Ansichten realisieren kann, aber da wären Malerei und Zeichnung näherliegend und könnten ältere Rechte geltendmachen. Hinzu kommt, dass der Konjunktiv eben die Konstruktion des Möglichen ist, während die KI mangels Weltwissens doch allzu viel produziert, das – auf den ersten Blick oder im Detail betrachtet – eben nicht möglich wäre.
Und was ist zum Beispiel mit dem Imperativ? Als Filmer mit politischem Anspruch hätte Kluge dazu etwas schreiben können. (Wenn ich auch der Ansicht bin, dass Bilder dieses Potenzial in der Tat nicht haben, aber das bedürfte der Diskussion und Begründung. Immerhin erwähnt er den verwandten, nicht filmbaren Optativ als Ausdruck von Wünschen.) Und schließlich, von der Fotografie abgesehen: Ist nicht jedes gemalte und gezeichnete Bild eine konjunktivische Konstruktion, weil es selbst im Falle des Naturalismus kaum je exakt das wiedergibt, was der Maler vor Augen hat, sondern eine durch Komposition und Idealisierung vergegenständlichte Ansicht dessen, was hätte sein können?
Ganz und gar zustimmen möchte ich Kluge dagegen, wenn er mit Kant betont, dass es mit Sinnlichkeit und Verstand zwei Stämme der Erkenntnis gebe, die sich aber nicht so recht miteinander verstünden, und dass es daher einer dritten Kraft bedürfe, der Einbildungskraft, um zwischen beiden zu vermitteln und zur praktischen Erkenntnis zu gelangen. Eine Einsicht, die in der Diskussion um Bilder und Kunst oft zu kurz kommt.
*****
Dafür, dass Kluge seinen Begriff der „virtuellen Kamera (K.I.)“ im Untertitel des Buches verwendet, ist mir die Rechtfertigung dafür im Buch zu schwach. Ich finde die Begriffsbildung nicht nur problematisch, sondern sogar gefährlich, weil sie durch die Verwendung desselben Wortes den gewaltigen Unterschied einebnet, der zwischen fotografierten (oder gefilmten) und KI-generierten Bildern besteht. Jedes Foto ist, ungeachtet aller subjektiven Entscheidungen des Fotografen, ein getreues Abbild des aufgenommenen Augenblicks – es ist im Wortsinne ein Licht-Bild. Doch jedes KI-generierte Bild, so fotografisch es auch auf seine Betrachter wirken mag, ist eine auf Zahlenwerten, Vektoren, Wahrscheinlichkeiten und Prompt-Anforderungen beruhende Rekombination von Sichtbaren, nicht einmal eine Rekonstruktion. Entspräche einem solchen Bild tatsächlich einmal etwas genau so sichtbar Gewesenes, wäre das keine Leistung, sondern ein – eher unerwünschter – Zufall.
KI-Bilder sind daher näher an Malerei, Zeichnung, vor allem Montage, ergänzt um menschliche Einbildungskraft, als ausgerechnet an einer Kamera, auch wenn sie dem Output von Kameras als Trainingsmaterial fast alles verdanken. Kluges Analogie verwundert umso mehr, als die von ihm mit Stable Diffusion generierten Bilder weit davon entfernt sind, mit Kamera-erzeugten Bildern verwechselt werden zu können. Sicherlich möchte Kluge den Populisten, die mit KI-„Fotos“ das Weltbild ihrer Betrachter manipulieren wollen (siehe dazu den Beitrag von Michael J. Hussmann in der aktuellen DOCMA), nicht das Theorie-Alibi liefern, zwar seien diese Machwerke nicht authentisch, aber doch immerhin dank einer „virtuellen Kamera“ zustande gekommen.
*****
Wenn ich dem Autor auch in vielem nicht zustimmen mag, so wäre es doch höchst respektlos und schlicht falsch, gewisse problematische Passagen in Kluges Text auf sein hohes Alter – 92 – zurückzuführen. Denn die Texte sind aufschlussreich, klar gegliedert und ebenso klar formuliert. Schaut man sich das Video auf der Seite des Spector-Verlages an (https://spectorbooks.com/de/buch/alexander-kluge-der-konjunktiv-der-bilder), in dem er über sein Buch spricht, merkt man ihm sein Alter in der Tat nicht an.
Aber machen Sie sich selbst ein Bild. Dass mir seine KI-Werke nicht gefallen, ebenso wenig wie Typographie und Layout des Buches, kann ja nur meinen persönlichen Eindruck wiedergeben, der keineswegs Ihrem entsprechen muss.
Virtuelle Kamera, die einen Möglichkeits-Vektorraum aufnimmt, so wie Midjourney sie sich vorstellt
(Doc Baumann)
Alexander Kluge
Der Konjunktiv der Bilder | Meine virtuelle Kamera (K.I.)
Spector Verlag, 2024
Kleinformat, gebunden, Farbe, 480 Seiten
€ 26,00
Einen schönen guten Tag an docma, doch die Vorstellung des Buches „Konjunktiv der Bilder“ Ki als Buch, brachte mich doch zum schmunzeln. Was doch Ki alles so schön kann, aber nicht besser als die Alten Meister mit Pinsel. Gut die Pinsel wurden durch den Computer ersetzt, aber besser wird es nimmer. Also von mir sollte jeder machen was ihm gefällt, aber es werden immer irgendwelche Trends neugesetzt und kommen mit Überschwang in Mode, ohne das manch einer daran denkt was daraus folgen könnte. Also ich für mich ist klar, ich brauche solche malerische Bildersprache nicht, lese keine Comics und interessiere mich auch nicht für solche Art von Bildern. Klar eindeutig wird es den Trend verstärken und sogar nachhaltig, aber sind wir mal ehrlich, es vergeht alles irgendwann, das macht mich doch sehr froh.
Ich habe vor einigen Monaten mit den Kasseler Museen und der Regionalzeitung ein Experiment gemacht: Die Leser sollten einsenden, welches bei fünf Bildpaaren das echte gemalte ist und welches das KI-generierte. Der Durchschnittswert der richtig zugeordneten Bilder war 66% – immerhin ein Drittel konnte also den Unterschied zwischen Alten Meistern und neuen KI-Meistern nicht erkennen. Was sagt uns das?