Im Zauberspiegel neuronaler Netze
Schneewittchens Stiefmutter musste noch einen Zauberspiegel bemühen, um die Schönste im Lande zu finden. Heute erfüllt Software auf Basis neuronaler Netze diese Aufgabe – mehr oder weniger gut.
In den letzten Wochen machten zwei Dienste Furore, die von Wissenschaftlern der Eidgenössischen Technischen Hochschule Zürich beziehungsweise des MIT in Cambridge, Massachusetts entwickelt wurden. Bei unterschiedlicher Zielsetzung haben sie eines gemeinsam: Sie versprechen, Bilder nach denselben Kriterien zu analysieren, nach denen sie ein Mensch klassifizieren würde. Das an der ETH Zürich entwickelte Verfahren findet Gesichter in Fotos, schätzt Alter und Geschlecht der abgebildeten Person, und, was das Entscheidende ist: Es beurteilt deren Attraktivität mit sechs Noten zwischen „Hmm …“ und „gottgleich“.
Da die Software der Allgemeinheit zur Verfügung steht, bot sie endlich die Gelegenheit, die ewig nagende Frage objektiv zu beantworten, wer denn nun in unserer DOCMA-Truppe der oder die Schönste ist. Kommen wir gleich zum Ergebnis, absteigend sortiert nach Attraktivität und – bei gleicher Attraktivität – aufsteigend nach dem geschätzten Alter:
1: Der Schönste ist natürlich der Doc, der keinen Tag älter als 60 aussieht.
2. Redaktions-Youngster Olaf, hier auf 42 geschätzt, sieht immerhin „OK“ aus.
3. Eva, die sich um die Lesbarkeit und die Rechtschreibung unserer Texte verdient macht, gilt mit geschätzten 57 Jahren ebenfalls als „OK“; warum sie hier für einen Mann gehalten wird, bleibt unerfindlich.
4. Christoph liegt gleichauf – ebenfalls „OK“, aber auch 57? Das gibt zu denken.
5. Mir bleibt der letzte Platz und bloß ein „Hmm…“ – unattraktiver geht’s nicht. Das geschätzte Alter ist immerhin schmeichelhaft.
Gut … damit wäre geklärt, weshalb uns keine kreischenden Massen von Fans erwarten, wo immer wir auftreten – ich hatte mich schon gewundert. Selbst wenn ich mich hinter meinen Kollegen ganz klein mache, sind wir allenfalls so mittel attraktiv. Nun liegt Attraktivität aber doch im Auge des Betrachters; wie soll eine Software das beurteilen können?
In den Berichten über diese Anwendung war oft von einem Algorithmus die Rede, aber dieser Begriff führt in die Irre. Unter einem Algorithmus versteht man ein formalisiertes Rechenverfahren. Informatiker analysieren ein Problem und entwickeln einen Algorithmus zu dessen Lösung, der sich dann in einer Programmiersprache codieren lässt. (Mit dem Rhythmus in der Musik hat das Wort übrigens nichts zu tun, und es schreibt sich daher auch ganz anders: „Algorithmus“ ist die latinisierte Form des Namens „al-Chwarizmi“ – Abu Dscha’far Muhammad ibn Musa al-Chwarizmi war ein iranischer Mathematiker des 8. und 9. Jahrhunderts, der in Lehrbüchern solche Rechenverfahren beschrieben hatte.)
Die Wissenschaftler der ETH Zürich gingen anders vor. Ihre Anwendung basiert auf einem mehrstufigen Verfahren, das die relevanten Features eines Bildes erkennt und daraus einen Attraktivitätsindex berechnet. Die einzelnen Stufen verwenden unterschiedliche Methoden; zur Feature-Extraktion dient beispielsweise ein neuronales Netz, also ein Ansatz, der von Nervenzellen und deren Verschaltung inspiriert ist. Seine besonderen Fähigkeiten erhält das System durch maschinelles Lernen. Vereinfacht kann man sich das so vorstellen: Jede Komponente liefert zu jedem Input einen Output, und welcher Output das jeweils ist, wird durch eine Vielzahl von Koeffizienten bestimmt. Für das Training braucht man eine große Zahl repräsentativer Beispiele, für die das richtige Resultat bekannt ist. Man speist jeweils ein Beispiel als Input ein, vergleicht den Output mit dem richtigen Ergebnis und berechnet aus der Differenz beider Ergebnisse Korrekturwerte für die Koeffizienten. Das wiederholt man einige Tausend Mal, bis der Output stets dem richtigen Ergebnis entspricht. Danach sichert man den Lernerfolg ab, indem man der Komponente weitere, nicht während der Lernphase benutzte Beispielfälle vorlegt, und wenn sie auch damit zum richtigen Ergebnis kommt, kann man sie auf neue Fälle ansetzen, für die das richtige Ergebnis noch unbekannt ist. Anders als bei einem Algorithmus, dessen Entwickler genau sagen kann, auf welche Weise das Rechenverfahren zu seinem Ergebnis kommt, steckt das Wissen hier in den erlernten Koeffizienten, und es wäre eine aufwendige Analyse dieser Koeffizienten nötig, um zu verstehen, wie die Komponente vorgeht. (Um Spitzfindigkeiten zuvorzukommen: Natürlich werden auch beim maschinellen Lernen Algorithmen eingesetzt, aber es sind nicht diese sehr allgemeinen Algorithmen, in denen die erlernte Fähigkeit steckt.)
Für die erlernte Beurteilung der Attraktivität waren also Beispieldaten nötig, und in diesem Fall lieferte diese ein Dating-Dienst. Die Teilnehmer hatten ihre Porträtfotos hochgeladen und die Bilder anderer Teilnehmer danach beurteilt, ob sie an diesen interessiert sind: „Hi or Bye“. Bei gegenseitigem Interesse können die Teilnehmer miteinander chatten. Insgesamt lagen die Bilder von 13.000 Teilnehmern und 17 Millionen Bewertungen vor, und diese reichten aus, das System die dahinter stehenden Vorlieben erlernen zu lassen. Da der Dating-Dienst vor allem in der Schweiz aktiv ist, besteht also noch Hoffnung: Wer als weniger attraktiv eingeschätzt wird, kommt vielleicht nur in der Schweiz nicht so gut an. Außerdem dürften die Teilnehmer eines Dating-Dienstes kaum repräsentativ für die Gesamtpopulation sein. Man sollte das Ergebnis nicht allzu ernst nehmen, und auch die Wissenschaftler, die das System entwickelt haben, scheinen den auf ihrer Website angebotenen Service eher als Unterhaltung anzusehen. Ihr wissenschaftliches Interesse gilt eher dem Versuch, die Präferenzen einzelner Personen zu modellieren, während es bei dem der Allgemeinheit zugänglichen Verfahren zwangsläufig darum gehen muss, einen allgemeingültigen Maßstab der Attraktivität zu implementieren, den es im Grunde gar nicht gibt.
Damit komme ich zu LaMem. Diese am MIT entwickelte Anwendung basiert ebenfalls auf neuronalen Netzen, die ihre Fähigkeit zur Klassifizierung von Bildern durch ein Training anhand von Beispielen erlernt haben. Bei LaMem geht es allerdings nicht um eine Bewertung der Motive, sondern um die Bilder selbst – genauer gesagt darum, ob sie im Gedächtnis eines Betrachters haften bleiben, nachdem er sie 100 Sekunden lang angeschaut hat. Das Ergebnis ist nicht nur ein Memorabilitätsindex zwischen 0 und 1, der angibt, ein wie großer Teil der Betrachter sich später an ein Bild erinnern wird, sondern auch eine dem Bild überlagerte „heat map“ zur Hervorhebung der besonders erinnerungsträchtigen Bildteile – Rot steht für besonders bemerkenswerte Bereiche. Auch diese Anwendung können Sie mit eigenen Bildern ausprobieren.
Ich habe LaMem einmal einige meiner Fotos vorgelegt. Oft erscheint das Ergebnis plausibel:
Das Foto erreicht einen relativ hohen Wiedererinnerungswert und die „heat map“ hebt den im Vordergrund abgebildeten Fotografen als erinnerungsträchtig hervor. Bei der Klassifizierung des nächsten Bildes irritiert nicht so sehr, dass es nur einen mittleren Memorabilitätsindex hat – es ist eben kein sehr bemerkenswertes Bild –, sondern die Tatsache, dass LaMem den blumengeschmückten Balkon, nach meiner Intention das Hauptmotiv, für den uninteressantesten Teil des Bildes hält:
Zur Abwechslung machte ich einen Versuch mit einem Gemälde. Der Hamburger Maler Thomas Herbst hatte ein bevorzugtes Motiv: Kühe. Unter anderem aufgrund seiner Motivwahl wurde er nie so populär wie sein Zeitgenosse und Freund Max Liebermann. Auch LaMem scheint Kühe eher langweilig zu finden:
Dagegen findet LaMem eines höchst faszinierend: Text. Beim folgenden Foto von der Piazza di Spagna wollte ich die Statue von König David der Handy-Werbung im Hintergrund gegenüberstellen, aber LaMem findet die Inschrift viel spannender:
Dasselbe Phänomen zeigt sich bei der Analyse eines anderen Fotos:
Hauptmotiv ist hier der Fotograf Phil Toledano, der inmitten einer Ausstellung seiner Werke steht, aber LaMem konzentriert sich auf die Texttafel im Hintergrund, die immerhin für einen hohen Memorabilitätswert sorgt.
Insgesamt kann die automatische Bildanalyse nicht überzeugen. LaMem krankt daran, dass das Verfahren auf rein formalen Kriterien beruht; die Software weiß nicht, was die Bilder darstellen, und kann daher deren Relevanz für den Betrachter nicht wirklich einschätzen. Auch die Beurteilung der Attraktivität durch künstliche Intelligenz, wie sie die ETH Zürich verspricht, sollten Sie nicht allzu ernst nehmen. Im besten Fall erfahren Sie damit, ob Sie irgendeinem Ideal entsprechen, aber am Ende kommt es darauf an, ob man dem Menschen gefällt, an dessen Urteil einem etwas liegt. Und das wird dann oft ganz andere Gründe haben als jene, die ein neuronales Netz erkennt.