Generative KI: Midjourney V6
Nach längerer Ankündigung ist Midjourney V6 zwischen den Jahren im Alphastatus online gegangen. Christoph Künne hat sie sich bereits näher angeschaut und erste Praxis-Tests durchgeführt.
Laut den Angaben des Betreibers bietet die neueste Version des KI-Modells eine deutliche Verbesserung in der Präzision bei der Befolgung von Anweisungen und der Verarbeitung längerer Texteingaben. Die wichtigsten Neuerungen umfassen eine verbesserte Kohärenz und Wissensbasis des Modells.
Um regelmäßig die Probe aufs Exempel zu machen, wie gravierend sich die Neuerungen eines verbesserten Modells auswirken, arbeite ich schon seit Mai 2022 mit einem Prompt, der ursprünglich dazu gedacht war, diesen DOCMA-Artikel zum Thema Metaversum zu bebildern.
»A young woman walks through a city with augmented reality glasses and organizes a trip with a digital assistant. highly detailed, photorealistic, hyperreal, cinematic atmosphere –s 1000 –ar 16:9«
Es ist nicht zu übersehen: In diesem Beispiel zeigt sich der Sprung, den die KI mit Version 6 gemacht hat, deutlich in den fotografischen Details. Die Prompt-Interpretation des Themas Urlaub oder die von einem digitalen Assistenten sucht man allerdings immer noch vergeblich.
Textdarstellung
Neben der besseren Bildqualität soll die Midjourney V6 nun auch eine begrenzte Fähigkeit zur Textdarstellung mitbringen. Nehmen wir ein aktuelles Thema: In England fordern Aktivisten Trigger-Warnungen für James Bond-Filme einzuführen.
Immerhin kann man auf einigen Bildern im Ansatz erkennen, worum es geht. Es wird leider auch nicht besser, wenn man per Reroll-Button weitere Versuche unternimmt.
Die Qualität des Fortschritts erkennt man jedoch sofort, wenn man denselben Prompt zum Vergleich in der Version 5.2 rechnen lässt. Hier zeigt sich auch die Verbesserung des Prompt-Textverständnisses deutlich.
Midjourney V6: Technisches
Die Version 6 unterstützt erweiterte Funktionen wie verschiedene Auflösungsoptionen, Stilisierungen und Mischmodi. Einige Funktionen sind zum Start verfügbar, darunter –ar, –chaos, –weird, –tile, –stylize, –style raw, und verschiedene Remix-Optionen. Andere Funktionen wie Pan, Zoom und /tune werden in den kommenden Monaten hinzugefügt.
Prompten
Die Anwendung von V6 unterscheidet sich wesentlich von der vorherigen Version V5. Nutzer müssen sich darauf einstellen, ihre Eingabeaufforderungen neu zu lernen, da V6 empfindlicher auf spezifische Anweisungen reagiert und unnötige Zusätze wie „preisgekrönt, fotorealistisch, 4k, 8k“ vermeidet.
Im Rahmen eines Alpha-Tests unterliegt V6 absehbar häufigen Änderungen und Verbesserungen. Obwohl die V6 aktuell noch etwas langsamer und damit kostspieliger als die V5 ist, werden Geschwindigkeit, Bildqualität, Kohärenz, Befehlsfolge und Textgenauigkeit in den nächsten Wochen weiter verbessert.
Die „Gemeinschaftsstandards“, ein Euphemismus für die Zensur von Bildinhalten, sind strenger geworden. Die Moderationssysteme wurden verstärkt, um diese Standards strenger durchzusetzen und vermeintlichen Missbrauch zu verhindern.