Qualitätsverlust durch KI-generierte Trainingsdaten

Christoph Künne30. Juli 2024

1 Minute Lesezeit

Ein Team von Forschern der Universität Cambridge hat in einer aktuellen Studie herausgefunden, dass generative KI-Modelle, die mit KI-generierte Trainingsdaten trainiert werden, schnell unbrauchbare Ergebnisse liefern. Diese “Kannibalisierung” von Trainingsdaten könnte die rasante Entwicklung von Künstlicher Intelligenz (KI) erheblich bremsen.

Die in der Fachzeitschrift Nature veröffentlichte Untersuchung zeigt mittels mathematischer Analysen, dass große Sprachmodelle (LLMs) wie ChatGPT sowie KI-Bildgeneratoren wie Midjourney und DALL-E besonders anfällig für dieses Problem sind. Ein Beispiel verdeutlicht die Problematik: Bei der Generierung eines Modells, das Wikipedia-ähnliche Artikel verfassen soll, führten mehrere Trainingsrunden mit synthetischen Daten dazu, dass das Modell in einem Artikel über englische Kirchtürme ausführliche Details über Feldhasen einfügte.

Die zunehmend verzerrten Bilder, die von einem KI-Bildmodell erzeugt werden, das auf Daten trainiert wurde, die von einer früheren Version des Modells erzeugt wurden. | M. Boháček & H. Farid/arXiv (CC BY 4.0)

„Die Botschaft ist klar: Wir müssen sehr vorsichtig sein, welche Daten wir für das Training unserer Modelle verwenden“, warnt Zakhar Shumaylov, Mitautor der Studie und KI-Forscher an der Universität Cambridge. „Andernfalls wird es wahrscheinlich immer zu Fehlern kommen.“

Der Vergleich von Hany Farid, Informatiker an der University of California, Berkeley, verdeutlicht das Problem anschaulich: „Wenn eine Spezies sich nur mit ihren eigenen Nachkommen paart und ihren Genpool nicht diversifiziert, kann dies zum Zusammenbruch der Spezies führen.“

Die Forscher waren überrascht, wie schnell die Modelle unbrauchbar wurden, sobald KI-generierte Inhalte als Trainingsdaten verwendet wurden. Shumaylov prognostiziert, dass diese technische Besonderheit die Kosten für den Aufbau von KI-Modellen erhöhen wird, da der Preis für qualitativ hochwertige Daten steigen wird.

Ein weiteres Problem für KI-Unternehmen ist, dass das offene Web – die Hauptquelle für ihre Daten – zunehmend mit KI-Inhalten überflutet wird, was ihre Ressourcen verunreinigt und sie zum Umdenken zwingt. Viele Urheberrechtsinhaber werden jedoch kaum Mitleid mit den KI-Unternehmen haben. Künstler, Fotografen und Inhaltsproduzenten aller Art sind seit langem empört über die unverfrorene Nutzung ihrer Werke zum Training von KI-Modellen.

Die Studie unterstreicht die Notwendigkeit, qualitativ hochwertige, menschlich hergestellte Trainingsdaten zu verwenden, um die Weiterentwicklung und den Erfolg von KI-Technologien zu gewährleisten.

Christoph Künne30. Juli 2024

1 Minute Lesezeit

Zeig mehr

Christoph Künne
Wie wäre es, einfach mal den Link "Das Paper auf Englisch mi...
freikraft
Wäre es für ein Foto-Magazin vielleicht möglich, in den Onli...
Michael J. Hußmann
Interpolierte Sensorauflösungen, um das Datenblatt aufzuhübs...
Lars Thomsen
Hallo Herr Künne, vielen Dank für Ihren hervorragenden Kurza...
Lars Thomsen
Da stimme ich gänzlich zu. Auch ich arbeite gewöhnlich mit z...

Qualitätsverlust durch KI-generierte Trainingsdaten

Christoph Künne

Schreibe einen Kommentar Antworten abbrechen

HAIBRIDS – das Buch zum Projekt ist jetzt lieferbar

Menschen fotografieren

Neu im DOCMA-Shop: Vintage Objektive, die 7. Auflage

Historische Kino-Objektive – der neue Kieckhöfel

Niépce Recoded: KI bringt neues Leben ins älteste Foto der Welt

Piraten – Bilder und Geschichten