Grundlagen der Text-zu-Bild-Systeme: Lesen aus dem Kaffeesatz
Text-zu-Bild-Systeme sind nicht leicht zu durchschauen. Wie sie ihre verblüffenden Bildergebnisse, aber bisweilen auch eklatante Fehler produzieren, bleibt dem Anwender verborgen. Zu diesem Thema hat Michael J. Hußmann zwei ausgewiesene KI-Experten befragt – Dr. Thomas Käster, den technischen Direktor der Lübecker Pattern Recognition Company, und seinen Kollegen Kai Röhr.
Michael J. Hußmann (MJH): Eure Software Excire analysiert Bilder: Man steckt hochaufgelöste Bilder als Input hinein und bekommt als Output einen Text – Schlagwörter, die den Inhalt der Bilder beschreiben. Bei der Bildsynthese ist es umgekehrt: Man steckt kurze Texte hinein und erhält als Output mehr oder minder hochaufgelöste Bilder. Was sind die Bausteine, aus denen ein neuronales Netz eine unüberschaubare Vielzahl von Bildern generieren kann?
Dr. Thomas Käster (TK): Solche generativen Systeme sind um einiges komplizierter als eine KI wie unsere, die Bilder analysiert. Bei der Bildsynthese treffen verschiedene Welten aufeinander. Da ist einmal die Bildkodierung, bei der man versucht, …
Dieser Inhalt ist Teil unserer Premium-Inhalte von DOCMA2go.
Als Abonnent einloggen
DOCMA 2GO abonnieren
Das DOCMA-Magazin als wöchentliches E-Mail-Update. Mehr erfahren.
- Nur 3,99 EUR/Monat