BlogKI

KI-Bildgenerierung der nächsten Generation von Google und OpenAI

KI-Bildgenerierung

Für Bildbearbeitungsspezialisten und professionelle Fotografen stellt die neue Generation der KI-Bildgenerierung von OpenAI und Google möglicherweise den nächsten Schritt eines ernsthaften Paradigmenwechsels dar.

OpenAI GPT-4o: Technische Integration in professionelle Workflows

OpenAIs GPT-4o-Modell repräsentiert eine signifikante Weiterentwicklung für professionelle Bildbearbeiter. Das multimodale System geht über die reine Bildgenerierung hinaus und versteht simultan visuelle und textliche Nuancen – vergleichbar mit dem Level eines erfahrenen Retuscheurs, der komplexe Anweisungen intuitiv interpretieren kann.

Besonders relevant für professionelle Anwender ist die Fähigkeit des Systems, nuancierte und technisch komplexe Anweisungen zu verstehen. Wo bisher in Photoshop mit mehrschichtigen Bearbeitungsebenen, komplexen Maskierungstechniken und Farbkorrekturprozessen gearbeitet werden musste, ermöglicht GPT-4o eine direkte sprachliche Steuerung des Bildbearbeitungsprozesses. Dies könnte die zeitaufwändigen Aspekte der Postproduktion revolutionieren, etwa Freisteller, komplexe Composings oder Hautretuschen.

Die Technologie hat das Potenzial insbesondere den Workflow für kommerzielle Produktfotografie transformieren, wo häufig zahlreiche Variationen eines Grundsetups gebraucht werden. Die Möglichkeit, Perspektiven, Lichtsetzungen und Produktvarianten durch KI zu generieren, könnte die Produktionsprozesse von Katalogen und E-Commerce erheblich beschleunigen.

Google Gemini 2.0 Flash: Dialogbasierte Bildentwicklung

Screenshot aus Googles AI-Studio, in dem man gratis mit der Technik experimentieren kann.
Screenshot aus Googles AI-Studio, in dem man gratis mit der Technik experimentieren kann.

Googles Ansatz mit Gemini 2.0 Flash spiegelt einen Prozess wider, der dem iterativen Workflow professioneller Bildbearbeiter bemerkenswert nahekommt. Die konversationelle Natur des Systems ermöglicht einen Prozess, der an die Zusammenarbeit zwischen Art Director und Retuscheur erinnert – ein dialogisches Entwickeln zum finalen Bild.

Besonders bemerkenswert für Fachleute ist die Geschwindigkeit, mit der das System arbeitet. In einer Branche, in der Terminvorgaben und schnelle Lieferzeiten allgegenwärtig sind, könnte die Fähigkeit, hochwertige visuelle Inhalte nahezu in Echtzeit zu generieren und zu verfeinern, Projektzeitpläne drastisch verkürzen.

Die API-Integration verspricht zudem eine nahtlose Einbindung in bestehende digitale Asset Management (DAM)-Systeme und Veröffentlichungsworkflows.

Technische Betrachtungen und Workflow-Integration

Für professionelle Anwender stellt sich konkret die Frage, wie diese Systeme mit etablierten Workflow-Elementen interagieren werden. Der traditionelle Weg vom RAW-File über die primäre Entwicklung in Lightroom oder Capture One bis hin zur Feinretusche in Photoshop hat sich über Jahrzehnte bewährt.

Noch unklar ist, wie diese KI-Systeme mit RAW-Files umgehen – ein zentrales Element professioneller Workflows, das maximale Flexibilität und Qualitätskontrolle gewährleistet. Die Integration von KI-generierten Elementen in einen bestehenden RAW-Workflow wird eine entscheidende Herausforderung darstellen, insbesondere hinsichtlich der Farbraum-Kompatibilität und der Erhaltung von Metadaten.

Für High-End-Retuscheure stellt sich zudem die Frage nach der Präzision der KI-Bildgenerierung: Während aktuelle Bildbearbeitungssoftware pixelgenaue Kontrolle ermöglicht, arbeiten KI-Systeme oft mit einer gewissen „kreativen Interpretation“. Für Branchen wie die Werbe- oder Modefotografie, wo exakte Farbtöne (etwa Corporate-Farben) und präzise Details entscheidend sind, könnte dies problematisch sein.

Marktveränderungen und berufliche Implikationen

Für professionelle Fotografen und Bildbearbeiter bedeuten diese Entwicklungen immer drängender eine strategische Neupositionierung. Die Fähigkeit zur KI-gesteuerten Bildgenerierung senkt die Eintrittsbarrieren für visuelle Produktion dramatisch. Dies könnte insbesondere den Markt für standardisierte Produktfotografie noch stärker als bisher schon unter Druck setzen.

Gleichzeitig eröffnen sich neue Spezialisierungsmöglichkeiten: Als Experten für visuelle Ästhetik könnten Fotografen zu „Prompt Engineers“ und „Visual Directors“ werden, die KI-Systeme präzise steuern, um einzigartige visuelle Konzepte zu verwirklichen. Ähnlich wie der Übergang von der Dunkelkammer zur digitalen Bildbearbeitung wird dies eine Anpassung der beruflichen Identität erfordern.

Für Hochpreissegmente wie Werbung und Editorial bleibt die Frage nach der Authentizität zentral. Hier könnte sich eine neue Wertschätzung für nachweislich von Menschen fotografierte Bilder entwickeln – ähnlich der Renaissance analoger Techniken als Reaktion auf die Digitalisierung.

Technische Limitationen und kritische Perspektiven

Trotz aller Fortschritte bestehen weiterhin erhebliche Einschränkungen. Beide Systeme zeigen noch Schwächen bei komplexen Lichtsimulationen, die mit physikalisch korrekten Renderingmethoden wie in CGI-Workflows vergleichbar wären. Die subtile Qualität der Lichtführung, die das Markenzeichen großer Fotografen wie Annie Leibovitz oder Peter Lindbergh ist, bleibt eine Herausforderung für KI-Systeme.

Für technisch versierte Bildbearbeiter offenbaren sich zudem Schwachstellen bei extremen Perspektiven, anatomischer Korrektheit und der präzisen Darstellung komplexer Materialien wie Glas, Metall oder transluzenter Stoffe. Hier behält die klassische CGI mit physikalisch basierten Rendering-Techniken (PBR) vorerst ihren Vorteil.

Ein weiterer kritischer Aspekt ist die Kompatibilität mit professionellen Farb-Workflows. Die Ausgabe der KI-Systeme in standardisierten Farbräumen wie ProPhoto RGB oder die Integration in kalibrierte Monitorketten wird entscheidend für die professionelle Nutzung sein.

Fazit: Neupositionierung in einem transformierten Markt

Für professionelle Fotografen und Bildbearbeiter markieren die Systeme von OpenAI und Google keine bloße Erweiterung des Werkzeugkastens, sondern kündigen eine fundamentale Neuordnung des Berufsfeldes an. Die Integration dieser Technologien in bestehende professionelle Workflows wird eine komplexe Aufgabe sein, die technisches Verständnis und kreative Weitsicht erfordert.

Die erfolgreiche Anpassung könnte darin bestehen, die visuellen Perspektiven und das tiefe Verständnis für Bildsprache, das professionelle Fotografen auszeichnet, mit den neuen technologischen Möglichkeiten zu verschmelzen. Die Zukunft liegt bestimmt nicht nicht im Widerstand gegen diese Entwicklung, sondern in einer kritischen Aneignung, die spezialisiertes Fachwissen mit den transformativen Möglichkeiten der KI-Bildgenerierung verbindet.

Wenn jeder Bilder generieren kann, wird die visuelle Intelligenz hinter dem Prompt zum entscheidenden Differenzierungsmerkmal – die Fähigkeit, zu wissen, welches Bild erzeugt werden sollte und warum. Diese Expertise bleibt die Kernkompetenz professioneller Bildschaffender, unabhängig davon, wie sich die Werkzeuge weiterentwickeln.

Zeig mehr

Christoph Künne

Christoph Künne, von Haus aus Kulturwissenschaftler, forscht seit 1991 unabhängig zur Theorie und Praxis der Post-Photography. Er gründete 2002 das Kreativ-Magazin DOCMA zusammen mit Doc Baumann und hat neben unzähligen Artikeln in europäischen Fachmagazinen rund um die Themen Bildbearbeitung, Fotografie und Generative KI über 20 Bücher veröffentlicht.

Kommentar

  1. Könnt ihr mal ne Ausgabe herausbringen, wo ihr genau dieses Thema intensiv behandelt? Welche Weiterbildung gibt es, welche Tools sind in der Kreativ Szene gefragt, womit die Profis durch Prompt Engineering Geld verdienen. Wie kann man sich da als Mediengestalter positionieren. Ein wichtiges Thema.

    Weil Prompt Engineering als Berufsfeld finde ich nicht, nur Stellenausschreibung die selber an LLM tüfteln, die nennen das dann „Prompt Engineering“, hat aber mit dem, was immer erzählt nicht viel zu tuen. Was die da draußen wollen, sind IT Cracks.

Schreibe einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Das könnte Dich interessieren
Schließen
Schaltfläche "Zurück zum Anfang"