Prompt-Inspiration: Miniaturisierung
Generative KI eignet sich vorwiegend für Bilder, die man auf konventionellem Weg nur aufwendig oder gar nicht umsetzen kann. In dieser Folge geht es um das Thema Miniaturisierung, also die künstliche visuelle Verkleinerung von Objekten, Tieren oder auch Menschen.
Eine Frage der Verhältnismäßigkeit
Wie groß oder klein ein Motiv ist, erschließt sich nur im Vergleich zu Referenzobjekten. Idealerweise wählt man hier Dinge, die eine fixe, allen Betrachtern bekannte Größe besitzen. Oft tut es etwa ein Geldstück. Am Besten eines, das alle vermeintlichen Betrachter einschätzen können. In Europa wäre das zum Beispiel eine Euromünze.
Im Prinzip funktioniert das mit Midjourney, nicht wirklich perfekt, aber man kann damit arbeiten.
Miniaturisierung – einfache Ideen
Ein Elefant soll auf einer Fingerspitze stehen. Das geht relativ einfach, ist aber auch ziemlich langweilig.
Versuchen wir es mal mit einer beschreibenden Geschichte zu unserer Miniaturisierung: Ein Elefant steht auf der Fingerspitze eines Kindes in dessen Spielzimmer. Da wird unser Elefant in jedem Fall erheblich miniaturisiert, aber von der Fingerspitze ist nichts mehr zu erkennen.
Hier ist wohl mehr sprachliche Klarheit nötig. Also geben wir die Art der Fotografie vor und trennen das Thema vom Hintergrund. Das funktioniert relativ gut, einmal abgesehen davon, dass der Elefant auf der Hand und nicht auf der Fingerspitze steht und die Hand noch ein wenig ungewöhnlich geformt ist.
Zwei Bildkonzepte kombinieren
Bei der Arbeit mit generativer KI sollte man immer im Hinterkopf haben: Sie arbeitet am besten, wenn man mit – für die KI! – klaren Konzepten arbeitet. Nehmen wir die Konzepte „Hochhaus“ und „Nussschale“ und versuchen diese zu verbinden. Aus strategischen Gründen, testen wir, was passiert, wenn wir die Worte zunächst einzeln eingeben.
Beim „Skyscraper“, wie man Hochhäuser gemeinhin auf Englisch bezeichnet, nimmt die KI das Wort wörtlich und lässt das Hochhaus durch die Wolken sprießen und am Himmel kratzen. Irritierender sind die Ergebnisse der Nussschale: Hier kommen unterschiedliche Bedeutungen ins Spiel, zum Beispiel, dass man Schiffe auch als Nussschalen bezeichnet. In jedem Fall zeigt keines der Bilder die Schale einer Nuss. Das sollte man also genauer formulieren. Allerdings kommen dabei eher Fantasie-Nüsse als das heraus, was zumindest ich mir, mit meinem beschränkten Horizont, unter einer Nuss vorstelle.
Wie so oft hilft die Konkretisierung, in diesem Fall also die Angabe, um welche Art von Nuss es gehen soll.
Damit das Hochhaus zur Kokosnuss passt, sollten wir hier vielleicht auch etwas genauer werden. Die meisten Kokosnüsse kommen aus Indonesien, also soll es ein asiatisches, natürlich vollständig ökologisches Hochhaus werden.
Kombiniert man die beiden nunmehr relativ klaren Konzepte, kommt nicht das heraus, was intendiert war, also keine Miniaturisierung, sondern die Kokosnuss bestimmt eher die Form des Hochhauses.
Zeit also für sprachliche KI-Kunstgriffe: Zunächst definieren wir die Bildart als Kunst-Fotomontage und rücken die Kokosnuss sprachlich in den Vordergrund.
Mit der Definition auf eine Makro-Fotografie und der Positionierung in der Wohnumgebung kommt das Ergebnis langsam auf die Zielgrade der ursprünglichen Idee.
Die Festlegung auf ein Tilt-Shift-Objektiv macht den nicht wirklich sichtbar umgesetzten Wohnraumhintergrund überflüssig. Dafür ist jetzt eine ganze miniaturisierte Stadt in der Kokosnussschale.
Das lässt sich relativ einfach lösen, indem man die Anforderungsbeschreibung auf einen einzigen Wolkenkratzer beschränkt.
Nur kratzt der jetzt nicht mehr so richtig an den Wolken, sondern ist eher ein mehrstöckiges Gebäude.
Menschenklein
Auch Personen lassen sich wie in Filmen oder der – dieser Idee oft zugrunde liegenden – Literaturvorlage Gullivers Reisen von John Swift (1726) schrumpfen. Besonders bleibt – und nach heutiger Lesart sehr frauenfeindlich – war dieses Sujet bei den frühen Fotomonteuren der 30er-Jahre aus dem Atelier Manassé, das Dependancen in Wien und Berlin besaß.
Fazit
Hier zeigt sich mal wieder deutlich das (noch) fehlende Weltwissen der KI. Für uns als Betrachter ist klar: Die Frau sitzt entweder ganz im Glas oder davor. Oder das Glas ist an einer Übergangsstelle geborsten. Die KI hat hier augenscheinlich zu wenig Trainingsmaterial bekommen, um diese Zusammenhänge zu berücksichtigen.
Man erkennt wieder einmal, dass der KI ein Weltmodell fehlt, oder genauer gesagt das, was man als Naive Physik bezeichnet. Wir wissen alle, dass auch eine geschrumpfte Frau nicht ihre Beine durch ein Weinglas stecken könnte, ohne dass ein Loch im Glas entstünde und der Wein ausliefe, aber Midjourney weiß es nicht. Wenn Licht durch das Glas hindurch geht, warum dann nicht auch Beine?