Mal mir ein Bild!
In grauer Vorzeit musste man Bilder noch selbst malen oder zeichnen; später genügte es, erinnerungswerte Szenen zu fotografieren. Heute sagt man einem KI-System, was man sehen möchte, und es generiert das Gewünschte – in jedem beliebigen Stil. Mal mir ein Bild! Aber ganz so einfach ist es dann doch nicht.
In DOCMA 104 (ab dem 7. Dezember am Kiosk zu finden) gehen wir in einem Schwerpunkt darauf ein, wie sich Verfahren der Künstlichen Intelligenz auf die Zukunft des Bildermachens auswirken werden. In Wissenslücken der KI (Seite 66–69) gebe ich den Spielverderber und zeige die Grenzen auf, die generative KI-Systeme wie Stable Diffusion noch immer haben – und warum sich diese auch nicht so einfach überwinden lassen.
Solche Systeme wurden mit Millionen von Bildern trainiert – Fotos, Gemälden, Zeichnungen und Illustrationen –, wissen aber nichts über die dreidimensionale Welt, die sie abbilden. Sie können nach diesem Training zwar neue Ansichten von Menschen, Tieren und den verschiedensten Objekten erzeugen, aber da sie nichts über Anatomie oder die Gesetze der Physik wissen, unterlaufen ihnen regelmäßig Fehler – beispielsweise sind in einem Bild, das Stable Diffusion nach der Vorgabe „A photograph of Hellboy dancing in a club“ durchaus erkennbare Versionen des Comic- und Film-Charakters zu sehen, nur wachsen ihm die charakteristischen, gestutzten Hörner aus den Augen. Das neuronale Netz „weiß“, dass da irgendwo Hörner hingehören, aber nicht genau, wohin.
Bisweilen sind die Ergebnisse zwar einerseits unbefriedigend, aber andererseits faszinierend, weil die KI dann doch mehr zu ahnen scheint, als sie wirklich wissen kann. Beispielsweise kennt Stable Diffusion offenbar nicht die Hamburger Elbphilharmonie, was nicht weiter überraschend ist – vermutlich war die KI nicht mit Bildern dieses Konzerthauses trainiert worden. Zum Prompt „Batman on the roof of the Elbphilharmonie“ generiert sie also kein Bild des mittlerweile ikonischen Bauwerks, aber die Ergebnisse erwecken dennoch den Eindruck, als hätte die KI eine vage Idee, was gemeint sein könnte:
Man erkennt eine aus verschiedenen Gebäuden wahllos zusammengewürfelte Großstadt, und bei genauerem Hinsehen auch einen Fluss; selbst die geschwungene Dachform des Konzertsaals ist zu erahnen. Zwar ist es weder Hamburg noch die Elbphilharmonie, aber eben auch nicht etwas völlig anderes. Es ist ein bisschen so, als hätte man einen Künstler, der die Elbphilharmonie noch nie gesehen, aber schon einiges darüber gehört hat, ein Bild davon anfertigen lassen. Zu erklären, wie die KI frei assoziierend zu diesem Ergebnis gekommen ist, dürfte aber selbst ihren Entwicklern nicht leicht fallen.
Mal mir ein Bild? Um herauszufinden, wie solche Systeme arbeiten und welchen Funktionsprinzipien sie ihre Fähigkeiten und Schwächen verdanken, habe ich zwei KI-Experten, Dr. Thomas Käster und Kai Röhr von der Lübecker Pattern Recognition Company (bekannt durch deren KI-basierte Bildverwaltung Excire) befragt; das Interview („Lesen aus dem Kaffeesatz“) finden Sie auf den Seiten 70–73.