Software-Entwicklung: Die Zukunft des Findens
Die Zukunft des Findens: 10 Prozent aller jemals aufgenommenen Fotos entstanden in den letzten 12 Monaten. Solche Datenmengen stellen uns vor die Frage: Wie werden wir in Zukunft einzelne Bilder wiederfinden? DOCMA hat bei den beiden Experten für künstliche Intelligenz (KI) Erhardt Barth und Thomas Käster nachgefragt.
Wie sieht die Zukunft des Findens von Fotografien aus?
DOCMA: In den frühen neunziger Jahren hat man seine gescannten Bilder mit den verfügbaren Suchwerkzeugen nur wiedergefunden, wenn man sie zuvor mühsam verschlagwortet hatte. Exif-Daten digitaler Kameras fügten dem eine Vielzahl von textbasierten Merkmalen hinzu. Heute kann eine handelsübliche Bildverwaltungssoftware automatisch nach Gesichtern oder Aufnahmeorten suchen. Das ist praktisch, aber noch weit davon entfernt, Bildinhalte automatisch zu analysieren. Können KI-Techniken das Problem heute schon lösen?
Barth: Komplexe Software zur Bildverwaltung kann inzwischen weit mehr als nur Gesichter finden oder Aufnahme-Informationen auswerten. Sie sucht nach Farben, Bild-Strukturen und Texturen. Mit den zugrunde liegenden Algorithmen lassen sich heute bereits Sonnenuntergänge genauso zweifelsfrei identifizieren wie im Studio aufgenommene Porträts.
DOCMA: Sind also Such-Techniken, die Bildinhalte selbst erkennen, heute schon die Regel?
Käster: Die Regel noch nicht, obwohl die großen Unternehmen wie Google, Facebook & Co neueste Algorithmen der Bildanalyse in ihre Systeme integrieren. Gewöhnlich bilden in kommerziellen Produkten nach wie vor manuell angelegte Schlüsselwörter oder EXIF-Daten die Grundlage einer Bildersuche. Komplettiert werden diese Ansätze gelegentlich durch farbbasierte Suchansätze, bei denen Bilder beispielsweise auf der Basis ihrer Histogramme miteinander verglichen werden. Unter semantischen Aspekten sind diese Ansätze jedoch stark begrenzt, da das einfache Merkmal Farbe nicht ausreicht, alle möglichen Bildinhalte treffend zu beschreiben. Inhaltlich speziellere Erweiterungen, wie etwa die Gesichtsanalyse, sind zwar auch vorhanden, allerdings auf einen speziellen Bildinhalt begrenzt. Ist man jedoch in der Lage, verschiedenste Bildinhalte mathematisch treffend abzubilden, lässt sich auch die Qualität einer Bildersuche steigern.
DOCMA: Je präziser ich also das Suchobjekt im Vorfeld – auf mathematische Weise – beschreiben kann, desto genauer wird meine Trefferquote. Das würde bedeuten, der Suchalgorithmus-Entwickler muss die Welt bis ins letzte Detail ausformulieren, wenn er erreichen will, dass seine Suche selbstständig die Motive auf Fotos identifiziert.
Käster: Das ist im Prinzip richtig, allerdings ist dies bei der Menge der zu beschreibenden Bildinhalte sehr mühsam beziehungsweise einfach unmöglich. Ideal wäre ein System, das anhand von Beispielen lernt, welche Merkmale für bestimmte Bildinhalte wichtig sind. Und genau an diesem Punkt knüpfen spezielle Formen neuronaler Netze an. Diese sogenannten Faltungsnetze kombinieren Merkmalsextraktion und Klassifikation, indem sie beides anhand von Beispieldaten lernen. Diese Technik stammt aus den 80er Jahren, war damals aber aufgrund mangelnder Rechenpower und zu geringer Mengen von Beispieldaten praktisch nicht anwendbar. Dies hat sich in den letzten Jahren geändert, sodass ein wahrer Hype um „Deep Learning“, so der Oberbegriff für derartige neuronale Netze, entstanden ist.
DOCMA: Das klingt so, als könnte ich heute schon mit einer solchen Bildersuche arbeiten.
Barth: Das kann man – auch ohne universitären Großrechner oder speziell angepassten Hochleistungsserver. Wir haben unter anderem ein Plug-in für Lightroom entwickelt, mit dem Sie auf Basis von Bildvorlagen nach ähnlichen Inhalten suchen können. Wenn Sie also zum Beispiel das Bild einer Katze als Vorlage bestimmen, bekommen Sie im ersten Suchlauf alle Bilder aus Ihrem Archiv angezeigt, die Katzen zeigen oder auch Katzenähnliches, wie Löwen oder bestimmte Hunderassen. Wenn Sie aus der Ergebnismenge ein oder mehrere weitere Katzenbilder als zusätzliche Vorlagen definieren, wird die Ergebnisqualität mit jeder zusätzlichen Vorlage besser und am Ende bleiben nur die Bilder mit den Katzen übrig.
DOCMA: Wäre so ein Algorithmus auch in der Lage, mein Bildarchiv automatisch textlich zu verschlagworten?
Barth: Das ist ein anderes Projekt, an dem wir arbeiten. Allerdings ist es etwas komplexer, wenn die Qualität der Schlagworte gehobenen Ansprüchen genügen soll. Das Bild eines Autos aus einem Archiv zu filtern, ist noch relativ einfach. Wirklich nützlich wird die Funktion aber erst, wenn ich nach unterschiedlichen Fahrzeugtypen, nach Marken und nach Modellen suchen kann.
DOCMA: Welche praktischen Anwendungen solcher Suchfunktionen sehen Sie für die nähere Zukunft?
Käster: Unser Ziel ist es, den Workflow im Umgang mit Bildern zu vereinfachen, unabhängig davon, ob diese Teil eines „Digital Asset Management“-Systems (DAM) sind oder zur Bildsammlung von Hobby- und Profifotografen gehören. Unsere Bildersuche ermöglicht einem Anwender, Bilder mit ähnlichen Bildinhalten zu finden. Und das ohne eine zeitaufwändige Verschlagwortung und weit besser, als dies allein auf der Basis einfacher Merkmale wie Farbe und Textur möglich wäre. Duplikate und Beinahe-Duplikate lassen sich dabei genauso identifizieren, wie Bilder, deren Inhalt unter semantischen Aspekten dem Inhalt eines Beispielbildes ähnelt. Aber dies ist nur der Anfang und unsere Technologie bietet noch mehr Möglichkeiten.
DOCMA: Wie würden diese Möglichkeiten aussehen?
Käster: Aufbauend auf ausreichend vielen Trainingsbeispielen könnten Bilder gefunden werden, deren Aufbau und Gestaltung bestimmten Prinzipen der Fotografie folgt. Oder solche, die an Werke bestimmter Fotografen erinnern. Die automatische Identifikation der nach diesen Kriterien besten Bilder einer Sammlung könnte in Zukunft dabei helfen, Fotobücher, Mappen oder andere Präsentationen zusammenzustellen. Mindestens ebenso nützlich wäre es, die schlechtesten Bilder zu finden. Derartige Technologien würden den Fotografen bei der Beurteilung seiner Bilder unterstützen und den eigenen Lernprozess fördern.
[message_box title=“Mitmachen“ color=“red“]
PRC sucht exklusiv 100 DOCMA-Leser für den Test des neuen Lightroom-Tools für MacOS X. Bewerben Sie sich jetzt für die die Zukunft des Findens und testen Sie die bildbasierte Suche mit Ihren eigenen Bildern. Alle Programmteilnehmer, die ihre Erfahrungen in einem Fragebogen aufzeichnen, erhalten eine Vollversion des finalen Plug-ins.
Hier gibt es alle Infos zum Mitmachen beim Betatest-Programm.
[/message_box]
Wie sieht die Zukunft des Findens von Fotografien aus?
Das Interview finden Sie auch in der neuen DOCMA-Ausgabe 3/2016, die Sie im Zeitschriftenhandel kaufen können.
Sie bekommen das Heft außerdem bei uns im Webshop – als gedruckte Ausgabe und als preiswertes ePaper.