Qualitätsverlust durch KI-generierte Trainingsdaten
Ein Team von Forschern der Universität Cambridge hat in einer aktuellen Studie herausgefunden, dass generative KI-Modelle, die mit KI-generierte Trainingsdaten trainiert werden, schnell unbrauchbare Ergebnisse liefern. Diese “Kannibalisierung” von Trainingsdaten könnte die rasante Entwicklung von Künstlicher Intelligenz (KI) erheblich bremsen.
Die in der Fachzeitschrift Nature veröffentlichte Untersuchung zeigt mittels mathematischer Analysen, dass große Sprachmodelle (LLMs) wie ChatGPT sowie KI-Bildgeneratoren wie Midjourney und DALL-E besonders anfällig für dieses Problem sind. Ein Beispiel verdeutlicht die Problematik: Bei der Generierung eines Modells, das Wikipedia-ähnliche Artikel verfassen soll, führten mehrere Trainingsrunden mit synthetischen Daten dazu, dass das Modell in einem Artikel über englische Kirchtürme ausführliche Details über Feldhasen einfügte.
„Die Botschaft ist klar: Wir müssen sehr vorsichtig sein, welche Daten wir für das Training unserer Modelle verwenden“, warnt Zakhar Shumaylov, Mitautor der Studie und KI-Forscher an der Universität Cambridge. „Andernfalls wird es wahrscheinlich immer zu Fehlern kommen.“
Der Vergleich von Hany Farid, Informatiker an der University of California, Berkeley, verdeutlicht das Problem anschaulich: „Wenn eine Spezies sich nur mit ihren eigenen Nachkommen paart und ihren Genpool nicht diversifiziert, kann dies zum Zusammenbruch der Spezies führen.“
Die Forscher waren überrascht, wie schnell die Modelle unbrauchbar wurden, sobald KI-generierte Inhalte als Trainingsdaten verwendet wurden. Shumaylov prognostiziert, dass diese technische Besonderheit die Kosten für den Aufbau von KI-Modellen erhöhen wird, da der Preis für qualitativ hochwertige Daten steigen wird.
Ein weiteres Problem für KI-Unternehmen ist, dass das offene Web – die Hauptquelle für ihre Daten – zunehmend mit KI-Inhalten überflutet wird, was ihre Ressourcen verunreinigt und sie zum Umdenken zwingt. Viele Urheberrechtsinhaber werden jedoch kaum Mitleid mit den KI-Unternehmen haben. Künstler, Fotografen und Inhaltsproduzenten aller Art sind seit langem empört über die unverfrorene Nutzung ihrer Werke zum Training von KI-Modellen.
Die Studie unterstreicht die Notwendigkeit, qualitativ hochwertige, menschlich hergestellte Trainingsdaten zu verwenden, um die Weiterentwicklung und den Erfolg von KI-Technologien zu gewährleisten.