Blog

InstructPix2Pix: Bildbearbeitung per Sprachbefehl

Auf playgroundai.com können Sie die Bildbearbeitung per Texteingabe selbst ausprobieren. InstructPix2Pix: Bildbearbeitung per Sprachbefehl
Auf playgroundai.com können Sie die Bildbearbeitung per Texteingabe selbst ausprobieren.

Die aus Science-Fiction-Filmen bekannte und gern belächelte Anweisung „Das verpixelte Bild verbessern!“ ist längst Realität. Jetzt geht es der kreativen Bildbearbeitung an den Kragen: Die aktuelle Version von InstructPix2Pix erlaubt Bildveränderungen per Texteingabe. Das ist angesichts potenter Spracherkennungs-KIs gleichzusetzen mit „Bilder mit Worten bearbeiten“.

Das kann KI schon

Bildverbesserungen wie das Entrauschen von „unrettbar verrauschten“ Fotos oder das Schärfen von „unrettbar verwackelten“ Fotos können moderne Filter wie die von DxO oder Topaz Labs erzielen. Denn die auf künstlicher Intelligenz (KI) basierenden Programme haben durch intensives maschinelles Lernen – nun ja … gelernt, wie man aus Pixelmatsch wieder scharfe Bilder macht. Der König für natürlich wirkende Ergebnisse ist dabei nach meinen Tests bislang die App Remini (mein Test). In der Regel werden dabei durch die KI komplett neue Details erzeugt. Im Fall von Remini sind die Ergebnisse oft sehr nah am mutmaßlichen Original. Für kriminaltechnische Ermittlungen würden solche Bilder aber natürlich wenig taugen – denn sie könnten Details für die Identifikation einer Person vorgaukeln, die eben nicht vorhanden wären, sodass falsche Personen verdächtigt werden könnten. Die Gefahr besteht aber auch – und sogar in höherem Maße – bei herkömmlichen Phantombildern. Insofern sind und bleiben die utopischen Bildverbesserungen von CSI und Co. Fiktion.

Um solche Schärfe-Verbesserungen geht es hier nicht. Aber die können Sie bereits über Ihr Smartphone ausführen lassen. © Olaf Giermann + Remini. InstructPix2Pix
Um solche Schärfe-Verbesserungen geht es hier nicht. Aber die können Sie bereits über Ihr Smartphone ausführen lassen. © Olaf Giermann + Remini

Auch Anweisungen zum Erzeugen von neuen Bildern mit Midjourney und Stable Diffusion kennen Sie vielleicht bereits (siehe DOCMA 104 und meinen Blogeintrag zu SD mit Blender; in DOCMA 105 stelle ich Ihnen übrigens die Installation und Oberfläche von Invoke AI vor, die das Stable Diffusion auf allen Betriebssystemen relativ einfach nutzbar macht).

Hübsche Cyborgs per KI. @ Olaf Giermann + Stable Diffusion. InstructPix2Pix
Schicke Cyborgs per KI. @ Olaf Giermann + Stable Diffusion

Das ist in der Entwicklung: Bildbearbeitung durch Spracheingaben

Die Text-zu-Bild-KI wie Stable Diffusion und Midjourney erkennen schon Worte und erlauben das Verfeinern der Eingabe über Parameter, Gewichtungsangaben und negativen Prompts ( = bei denen man eingibt, was man alles nicht sehen will). Ganze Sätze und deren Syntax verstehen sie meistens noch nicht wirklich.

Die nächste, folgerichtige Entwicklungsstufe stellt InstructPix2Pix: Learning to Follow Image Editing Instructions dar. Bei dieser versteht eine KI durch den Satzaufbau eingetippter Texte, was Sie von Ihr wollen und verändert zuvor geladene Bilder dementsprechend. So können Sie die Tageszeit ode den Stil verändern, Elemente hinzufügen oder entfernen.

Selbst die nächste Evolutionsstufe der Bildbearbeitung ist damit schon geebnet: die Bildbearbeitung durch Spracheingabe statt Texteingabe per Tastatur. Denn die Spracheingabe funktioniert (nach meinen Erfahrungen mit Siri von Apple und Alexa von Amazon) schon seit Jahren sehr zuverlässig und gut.

Hier einige Beispiele von dieser Seite:

© University of California, Berkeley. InstructPix2Pix
© University of California, Berkeley
© University of California, Berkeley. InstructPix2Pix
© University of California, Berkeley
© University of California, Berkeley. InstructPix2Pix
© University of California, Berkeley
© University of California, Berkeley
© University of California, Berkeley

InstructPix2Pix: Probieren Sie es selbst aus!

Hugging face

Auf Hugging Face haben Sie mit einem Hugging Face-Account direkten Zugang zur aktuellen Version von InstructPix2Pix

Playgroundai

Auf Playground ist die Nutzung komfortabler. Dafür ist ein Google-Account und eine Anmeldung mit diesem erforderlich.

In allen Fällen sollten Sie heutzutage Englisch zumindest in den Grundzügen beherrschen, um die Ergebnisse von Übersetzungs-KI korrekt interpretieren zu können.

PS: Falls Sie von dem vielen Englisch heutzutage genervt sein sollten, erinnern Sie sich daran, dass sich die Sprache der Wissenschaft oder der gebildeten Schicht im Laufe der Menschheitsgeschichte mehrfach geändert hat. Wenn Sie an der vordersten Linie dabei sein wollen, hätten Sie immer auch eine bestimmte Sprache lernen müssen: Sumerisch, Latein, Arabisch, Französisch, Deutsch, Englisch, Chinesisch … alles ist im Fluss. Englisch ist von all diesen wahrscheinlich zum Glück nicht einmal die komplizierteste Sprache. Und heute können Sie sogar künstliche Intelligenz (DeepL, Google) zum Übersetzen benutzen und müssen nicht alles auswendig lernen.

What a time to be alive! 😉


Zeig mehr

Olaf Giermann

Olaf Giermann gilt heute mit 20 Jahren Photoshop-Erfahrung sprichwörtlich als das »Photoshop-Lexikon« im deutschsprachigen Raum und teilt sein Wissen in DOCMA, in Video­kursen und in Seminaren.

Ähnliche Artikel

Schreiben Sie einen Kommentar

Bitte melden Sie sich an, um einen Kommentar zu schreiben.

Das könnte Dich interessieren
Close
Back to top button