Mit der Darstellung von Text haben die meisten KIs noch erhebliche Probleme, obwohl sich das in letzter Zeit deutlich verbessert hat. Doch nicht nur, wenn es besonders auf Lesbarkeit und korrekte Buchstabenformen ankommt, hat die KI ideogram meist die Nase weit vorn, auch ihre Umsetzung der Prompts ist oft exakter als bei der Konkurrenz.
Darstellung eines KI-Magazins namens DOCMA auf einem Schreibtisch mit entsprechender Headline in Ideogram. Alle Grafiken: Doc Baumann
Sollten Sie sich an die hier abgebildeten DOCMA-Cover nicht erinnern, müssen Sie nicht an Ihrem Gedächtnis zweifeln. Es hat sie nie gegeben. Alle entstanden mit verschiedenen KIs; der Prompt lautete jeweils (ins Deutsche übersetzt): „Detailliertes, realistisches Foto eines Schreibtischs, auf dem Papiere, Stifte und ein Laptop liegen. Oben auf den Papieren liegt ein Magazin mit der Titelzeile „DOCMA“ und der Überschrift „Generate readable text with ideogram“.” (Wobei der Name der KI jeweils angepasst wurde.)
Die besten Ergebnisse erbrachte dabei zweifellos ideogram. Der Name leitet sich von einem Begriff der Paläographie, also der Schriftgeschichte her – dort bezeichnen Ideogramme frühe Schriftzeichen, die keine Laute repräsentieren, sondern „Ideen“: Objekte, Tätigkeiten, Eigenschaften, Abstrakta … Zum Vergleich wurde derselbe Prompt für Midjourney und Deep Dream Generator verwendet. Während die Szene insgesamt angemessen umgesetzt wurde, war bei ihnen die Lesbarkeit von Schrift erheblich eingeschränkt.
Auf das Thema war ich ja bereits zu Beginn des Jahres eingegangen (www.docma.info/blog/ki-lernt-schreiben). Seitdem hat sich einiges getan.
Von oben nach unten: Midjourney, zwei mal Deep Dream Generator, Ideogram. Dass in der Aufmacher-Illustration der DOCMA-Schriftzug von Typo und Gestaltung her dem tatsächlichen ähnelt, war nicht vorgegeben.
Auch ideogram ist keineswegs immer fehlerfrei, es gibt bei den einzelnen Durchläufen immer wieder mal fehlende oder doppelte Buchstaben, aber sie sind immerhin klar als lateinische Buchstaben identifizierbar. Auch das ist bei anderen Systemen nicht selbstverständlich.
Die zu verwendende Schrift kann man vorgeben, sie wird aber nicht immer verwendet. (Ich habe die KI nur im Testmodus ausprobieren können, der fünf Generierungen à vier Bilder pro Tag erlaubt; bei mehr Versuchen wären wahrscheinlich auch bessere Resultate entstanden.) So wurde etwa bei der Pergamentseite des mittelalterlichen Manuskripts der Prompt-Bestandteil „Textura“ als Schrifttyp ignoriert – stattdessen entstand eine Mischung aus karolingischer Minuskel und Unzialschrift. Der Textauszug aus Ciceros 3. Catilinarischer Rede war wohl zu lang und weist viele Fehler auf.
Weder die ausgeschmückte Initiale noch die eingezeichneten waagerechten Linien zum Halten der Zeilen für den Schreiber waren vorgegeben, ebenso nicht die schwach sichtbaren Buchstaben am Seitenrand, die je nachdem (spiegelverkehrt?) von der Rückseite des Bogens durchscheinen oder als Reste der Abschabung eines Palimpsests gedeutet werden könnten. Beeindruckend!
Schaut man sich die vielen Typo-Beispiele auf der ideogram-Seite an (https://ideogram.ai/t/explore), wird deutlich, wie gut die KI mit Schrift umgehen kann (wie üblich zeigen die Galerien natürlich nur die Beispiele, die fehlerfrei sind). Das betrifft sowohl reinen Text als auch visuell eingebundenen, etwa aus Objekten und Elementen zusammengesetzten. Und die gewählten Fonts passen in der Regel überzeugend zum Thema.
Da das Ausprobieren wie erwähnt limitiert war, konnte ich bestimmte Versuche nicht vertiefen. Positiv fiel auf, dass eine visuell eingebettete Schrift wie die Tätowierung auf dem Rücken des Mannes typographisch passend war, ohne dass dieser Aspekt im Prompt erwähnt worden wäre. Zudem zeigt das Beispiel die überzeugende Anpassung an die Oberfläche, auf der die Schrift steht.
Unabhängig vom Vorkommen von darzustellendem Text im Prompt ist eine interessante Option von ideogram die – für die KI besser interpretierbare – Umwandlung des eigenen in einen „magic prompt“. So hieß meine Vorgabe für das Bild mit dem römischen Tempel: „professional photo, marble plaque on an old Roman temple with the inscription in Latin capitals: „WAS DU HEUTE KANNST BESORGEN, DAS VERSCHIEBE NICHT AUF MORGEN“. In front of the plaque, some Romans in ancient clothing are standing, seen from behind, reading the plaque.” Der optimierte Prompt lautete: “A professional photo of a marble plaque on an old Roman temple with the inscription in Latin capitals: „WAS DU HEUTE KANNST BESORGEN, DAS VERSCHIEBE NICHT AUF MORGEN“. In front of the plaque, some Romans in ancient clothing are standing, seen from behind, reading the plaque. The temple has multiple columns and is made of grey marble. The background contains trees and a pathway.” Und er ist nicht für jedes der jeweils vier generierten Bilder identisch. In einem weiteren derselben Serie hieß es etwa: „A professional photo of a marble plaque on an old Roman temple. The plaque has the Latin inscription „WAS DU HEUTE KANNST BESORGEN, DAS VERSCHIEBE NICHT AUF MORGEN“. In front of the plaque, some Romans in ancient clothing are standing, seen from behind, reading the plaque. The temple has columns and is partially ruins, with greenery growing on it. The background reveals a vast landscape. The photo has a warm hue.“
Antike Tempel werden übrigens von KI nahezu immer als Ruinen dargestellt, auch wenn das Gegenteil ausdrücklich im Prompt steht. Neue Tempel gehören eben nicht zum Trainingsmaterial beim Deep Learning.
Die Kapitelle der Säulen dagegen sind mitunter gewöhnungsbedürftig und nicht sonderlich stilsicher – eine Mischung aus ägyptischem und korinthischem Stil.
Die Textdarstellung in Midjourney ist deutlich schlechter, die Buchstaben passen nicht zur Zeit, und die angeforderten Römerinnen und Römer, von hinten zu sehen, erscheinen nur als Grüppchen im Hintergrund und mit heutiger Kleidung, meist aber gar nicht.
Oft sind diese Ergänzungen auch grundlegender; ob man das in jedem Fall so haben möchte, ist eine andere Frage. Die Option lässt sich abschalten. Dass in zwei der hier gezeigten Bilder übrigens „KANST“ mit nur einem „N“ heißt, war mein eigener Flüchtigkeitsfehler beim Tippen des Prompts.
Sofern ich das auf der Basis der wenigen möglichen Versuche sagen kann, habe ich zudem den Eindruck, dass ideogram Prompts exakter umsetzt als die Konkurrenz. Das mit den von hinten gesehenen Römern etwa funktionierte in Midjourney selten, bei ideogram immer, ebenso passt die in Midjourney verwendete Schrift oft stilistisch nicht zum Umfeld.
Die Text-Anforderung einer New Yorker „DOCMA BAR“ mit passender Neon-Schrift, nachts bei Regen und mit durchnässten Jugendlichen davor, wurde von Ideogram weit überzeugender umgesetzt als von Midjourney – nicht nur, was die Schrift betrifft.