Künstliche Intelligenz: Der synthetisierte Obama

Wissenschaftlern ist es gelungen, ausgehend von einer Audiodatei mit einer Rede Obamas gleich vier unterschiedliche fotorealistische Videos herzustellen, in denen jeweils ein Obama aus dem Computer diese Rede hält.

Man weiß nun gar nicht, was man beeindruckender finden soll: diese hochauflösenden Videos aus intelligenten neuronalen Netzwerken, die einen lippensynchron sprechenden Barack Obama zeigen? Oder aber die Fortschritte in jener Technologie, die solche synthetischen Bilder inzwischen erzeugen kann, und zwar so, dass sie nicht mehr als rechnergeneriert erkennbar sind? Seit etwas mehr als einem Jahr, seit Googles Deep-Learning-Netzwerke diese psychedelisch anmutenden Zwischenstadien in der Bilder- und Gesichtserkennung veröffentlichten, haben die im Aufbau dem menschlichen Hirn vergleichbaren neuronalen Netzwerke gewaltige Fortschritte in der Entwicklung der künstlichen Intelligenz gemacht. Die Netze unterrichten sich selbst und werden immer schneller immer besser.

Ziel war es, einen künstlichen Film herzustellen, der lediglich auf einer Audio-Datei beruht

Die Bilder von Obama auf dieser Seite sind denn auch keine Bilder von Obama, sondern fast alle Artefakte. Sie sind den Videos entnommen, welche die Professoren mit den unbedingt Superhelden-tauglichen Namen Supasorn Suwajanakorn, Steven M. Seitz und Ira Kemelmacher-Shlizerman von der University of Washington errechnen ließen. Das Spezialgebiet der Forscher ist die Modellierung von Gesichtern am Computer. Nicht lediglich in Porträtbilder von Menschen, sondern eben gleich für fotorealistische Videos. Für diese hier haben sie die Aufzeichnung (nur des Tons) einer Rede, die Obama irgendwann einmal tatsächlich gehalten hat, gleich für vier Videos errechnen lassen. In diesem Kleeblatt hört man nun dieselbe Obama-Rede, und doch sind die Filme völlig verschieden voneinander, sogar das Alter des Präsidenten differiert darin deutlich. Nur eines haben die Präsidial-Videos gemein: Sie sind eben keine Videos, sondern errechnete Computerbilder.

Social Bots Wenn Computerprogramme Propaganda betreiben — Soziale Netzwerke

Wenn Computerprogramme Propaganda betreiben

Ob Brexit-Referendum oder Trump-Kampagne - politische Akteure setzen auf Social Bots, um die öffentliche Meinung zu beeinflussen. Auch im Bundestagswahlkampf? Von Bernd Graff

"Synthezising Obama", Obama synthetisieren, ist denn auch das 13-seitige Forschungspapier betitelt, das die drei Wissenschaftler jetzt gerade vorgelegt haben. Es referiert schrittweise, wie sie unter Einsatz von rückgekoppelten neuronalen Netzen das Gesicht, genauer: ab der unteren Gesichtshälfte schrittweise die komplette Anmutung und Mimik Obamas passend zu dem Tondokument mit der Rede anfertigten. Ausgangsmaterial für den Ton waren Obama-Statements (sogar aus vorpräsidialer Zeit), Basis der Bilder - und Trainingsstoff für die Computer - waren die annähernd 300 wöchentlichen Fernsehansprachen des Präsidenten aus dessen acht Jahren Amtszeit. Insgesamt waren es 17 Stunden Videomaterial mit annähernd 19 Millionen Einzelbildern.

Ziel war es, einen vollkommen künstlichen Film herzustellen, dessen Ausgangsmaterial nur eine Audiodatei war. Es ging also nicht darum, Obamas Mimik in einem wirklich gedrehten, schon vorhandenen Film so zu manipulieren, dass seine Gesichtszüge nun zur neuen Rede passen. Die Autoren betonen, dass ihre Methode realistische Obama-echte Lippen- und Kopfbewegungen aufweisen, dass Falten und Linien um Mund, Wangen, Nase, Kinn stets lippensynchron und realistisch bleiben, auch in den Millisekunden der sichtbaren Redepausen und der Atmung, den Momenten des Nachdenkens. Sogar Obamas Zähne zeigen sich ganz lebensecht.

Vorgegangen sei man so: Man habe in einem Kompositionsverfahren die errechneten Gesichtspartien und den (sich ebenfalls künstlich bewegenden) Hals auf Rest-Kopf-Material und Jackett aus dem 300-Stunden-Material von Obama überblendet. Sehr schön ist von den Forschern dargelegt, wie sie so vier verschiedene Videos aus einer einzigen Rede Obamas "drehten". Ja, die Lernerfolge des neuronalen Netzes waren so überbordend, dass die synthetischen Videos nun "echter" und eher nach typischem Obama aussehen als die Originalbilder, die von ihm während solcher Reden geschossen wurden.

Dabei sei es extrem schwierig gewesen, die Mundregion des sprechenden Präsidenten dauerhaft plausibel zu halten, meinen die Autoren. Zwar habe man mit den Wochenvideos, die Obama in einem relativ fixen Setting zeigten, einem Ambiente mit definierter Ausleuchtung und konstanter Körper-Proportionierung, bei reduzierten Kopfbewegungen während der auch stimmlich wenig variablen Ansprachen, eine gute Materialbasis für die Computertrainings zur Verfügung gehabt.

Doch Menschen reagieren sensibel auf "unecht wirkende" Mundbewegungen. Man spricht vom "uncanny Valley". Um dort nicht zu landen, bauten die Forscher ihre Obama-Videos eben von dessen Mund her auf. Die Ergebnisse sind hier: youtube.com/watch?v=9Yq67CjDqvw

Könnten Netzwerke nicht auch lernen, in welcher Stimmung sich eine Person befindet?

Damit wäre der Videobeweis in Politik und Nachrichtenwesen also erst einmal erschüttert. Fake-News-Produzenten destillieren sich ihre Belegbilder nun selber, könnte man meinen. Das sehen die Autoren anders. Man könne, so heben sie hervor, jetzt Bandbreite im Internet sparen, wenn Online-Videokonferenzen künftig nur noch die Sätze übertragen und die Köpfe im Konferenzraum dazu künstlich errechnet würden. Außerdem könnten Menschen mit Hörschäden nun leichter Lippen lesen, wenn gesprochene Sprache auf diese Weise auch bebildert würde. Zudem haben doch Kino und Computerspiele auch einen immer größeren Bedarf an (preisgünstigen) Humanoiden mit plausiblen Ansprachen an die Spieler und Zuschauer.

Ausgehen müssen man in allen Fällen eben von Lippen-Material für eine echt wirkende Simulation und Synchronisierung. Im Fall Obamas habe die Ausgangssituation eben perfekt gepasst: riesige Mengen an Original-Filmmaterial sorgten für die überzeugenden Ergebnisse.

Für die Zukunft ergäben sich hieraus "interessante Perspektiven": Könnte man den neuronalen Netzwerken nicht bald schon die ganze Feinarbeit des "Kopf- und Körperbaus" überlassen? Oder anders gefragt: Könnten diese Netzwerke aus den Lernerfolgen und Erfahrungen, die sie jetzt schon gemacht haben, nicht auch lernen, in welchem emotionalen Zustand eine Person sich befindet, wenn man (dem Netzwerk) bloß eine Tonspur von ihr vorführt? Und könnten sie nicht auch gleich den Film dazu drehen mit eben jener Person als Hauptdarsteller?

Das hier verwendete System wäre weitaus schwieriger auf eine beliebige Person zu trainieren gewesen, also auf jemanden, der nicht in der Öffentlichkeit steht und von dem entsprechende Video-Massen fehlen. Woher sollten da die Trainingsdaten kommen? Trotzdem geben sich die Wissenschaftler zuversichtlich, ihre Erfahrungen mit den zu den Wortlauten einhergehenden Mundbewegungen könnten sich ja auch als Sprecher-unabhängig erweisen. Vielleicht könnte das "Obama"-Netz dann auch für andere Menschen Verwendung finden. Und überhaupt: Vielleicht kann man ja auch gleich ein Universal-Netzwerk daraus ableiten - die Videothek der synthetischen menschlichen Mundbewegungen.