Uni Saarland
14.08.2017, 12:18 Uhr
Software erkennt Blickkontakt in alltäglichen Situationen
Informatiker der Universität des Saarlandes und des Max-Planck-Instituts für Informatik eine Methode entwickelt, mit deren Hilfe Blickkontakte unabhängig von Zielobjekten, Kamera und Umgebung erkannt werden.
Die neue Software erkennt mit Hilfe von lediglich einer Kamera, ob eine oder gar mehrere Personen ein Zielobjekt anschauen (grüner Kasten) oder nicht (roter Kasten).
Der menschliche Blickkontakt ist eine wichtige Informationsquelle im Bereich der Aussenwerbung und des Marketings, für Assistenzsysteme wie beispielsweise im Auto oder auch für die Zusammenarbeit zwischen Robotern und Menschen. Allerdings war es bisher nur sehr eingeschränkt möglich, Blickkontakt in alltäglichen Situationen zu erkennen. Informatiker des Exzellenzclusters an der Universität des Saarlandes und des Max-Planck-Instituts für Informatik haben nun mit einem Kollegen von der Universität Osaka eine Methode entwickelt, mit deren Hilfe der Blickkontakt unabhängig von der Art und Grösse der Zielobjekte, der Position der Kamera und der Umgebung möglich ist.
„Wenn Sie ein Werbeplakat in der Fussgängerzone aufhängen oder Werbung und wissen wollen, wie viele Personen es tatsächlich anschauen, hatten Sie bisher keine Chance“, erklärt Andreas Bulling, der am Exzellenzcluster der Universität des Saarlandes und am Max-Planck-Institut für Informatik die unabhängige Nachwuchsgruppe „Perceptual User Interfaces“ leitet. Denn bisher sucht man diese wichtige, aber auch simple Information zu erfassen, indem man die Blickrichtung mass. Das setzte spezielle Kameras, deren minutenlange Kalibrierung voraus, und vor allem galt: Jeder musste eine solche Kamera tragen. Tests wie in der Fussgängerzone oder gar nur mehreren Personen waren damit im besten Fall sehr aufwendig, im schlimmsten Fall unmöglich.
Selbst wenn die Kamera am Zielobjekt, beispielsweise am Poster, sass und Maschinelles Lernen eingesetzt wurde, der Computer also mithilfe einer ausreichenden Menge von Beispieldaten trainiert wurde, konnten nur Blicke auf die Kamera selbst erkannt werden. Zu oft war der Unterschied zwischen den Trainingsdaten und den Daten in der Zielumgebung zu gross. Ein universeller Blickkontakt-Erkenner, einsetzbar sowohl für kleine und grosse Zielobjekte, in stationären und mobilen Situationen, einen Anwender oder gar eine ganze Gruppe oder unter wechselnden Beleuchtungssituationen, war bislang nahezu unmöglich.
Zusammen mit seinem Doktorand Xucong Zhang und seinem Postdoktorand Yusuke Sugano, der nun Professor an der Universität Osaka ist, hat Bulling nun eine Methode entwickelt [1], die auf einer neuen Generation von Algorithmen zur Blickrichtungsschätzung basiert. Diese verwenden eine spezielle Art von neuronalem Netzwerk, das unter dem Begriff „Deep Learning“ aktuell in vielen Bereichen der Industrie und Wirtschaft für Furore sorgt. Bereits seit zwei Jahren [2] arbeiten Bulling und seine Kollegen damit und haben es Schritt für Schritt weiterentwickelt [3]. Im nun vorgestellten Verfahren wird zunächst ein sogenanntes Clustering (Ballungsanalyse) der geschätzten Blickrichtungen durchgeführt. Mit der gleichen Strategie kann man beispielsweise auch Äpfel und Birnen anhand verschiedener Merkmale sortieren, ohne explizit vorgeben zu müssen, worin sich die beiden unterscheiden. In einem zweiten Schritt wird dann der wahrscheinlichste Cluster identifiziert und die darin enthaltenen Blickrichtungsschätzungen für das Training eines, für das Zielobjekt spezifischen, Blickrichtungserkenners verwendet. Ein entscheidender Vorteil dieses Vorgehens ist, dass er ganz ohne Mitwirkung des Benutzers erfolgt und die Methode somit auch immer besser werden kann, je länger die Kamera neben dem Zielobjekt verbleibt und Daten aufnimmt. „Auf diese Weise verwandelt unsere Methode normale Kameras in einen Blickkontakterkenner, ohne zuvor Grösse oder Position des Zielobjektes kennen oder vorgeben zu müssen“, erklärt Bulling.
„Wenn Sie ein Werbeplakat in der Fussgängerzone aufhängen oder Werbung und wissen wollen, wie viele Personen es tatsächlich anschauen, hatten Sie bisher keine Chance“, erklärt Andreas Bulling, der am Exzellenzcluster der Universität des Saarlandes und am Max-Planck-Institut für Informatik die unabhängige Nachwuchsgruppe „Perceptual User Interfaces“ leitet. Denn bisher sucht man diese wichtige, aber auch simple Information zu erfassen, indem man die Blickrichtung mass. Das setzte spezielle Kameras, deren minutenlange Kalibrierung voraus, und vor allem galt: Jeder musste eine solche Kamera tragen. Tests wie in der Fussgängerzone oder gar nur mehreren Personen waren damit im besten Fall sehr aufwendig, im schlimmsten Fall unmöglich.
Selbst wenn die Kamera am Zielobjekt, beispielsweise am Poster, sass und Maschinelles Lernen eingesetzt wurde, der Computer also mithilfe einer ausreichenden Menge von Beispieldaten trainiert wurde, konnten nur Blicke auf die Kamera selbst erkannt werden. Zu oft war der Unterschied zwischen den Trainingsdaten und den Daten in der Zielumgebung zu gross. Ein universeller Blickkontakt-Erkenner, einsetzbar sowohl für kleine und grosse Zielobjekte, in stationären und mobilen Situationen, einen Anwender oder gar eine ganze Gruppe oder unter wechselnden Beleuchtungssituationen, war bislang nahezu unmöglich.
Zusammen mit seinem Doktorand Xucong Zhang und seinem Postdoktorand Yusuke Sugano, der nun Professor an der Universität Osaka ist, hat Bulling nun eine Methode entwickelt [1], die auf einer neuen Generation von Algorithmen zur Blickrichtungsschätzung basiert. Diese verwenden eine spezielle Art von neuronalem Netzwerk, das unter dem Begriff „Deep Learning“ aktuell in vielen Bereichen der Industrie und Wirtschaft für Furore sorgt. Bereits seit zwei Jahren [2] arbeiten Bulling und seine Kollegen damit und haben es Schritt für Schritt weiterentwickelt [3]. Im nun vorgestellten Verfahren wird zunächst ein sogenanntes Clustering (Ballungsanalyse) der geschätzten Blickrichtungen durchgeführt. Mit der gleichen Strategie kann man beispielsweise auch Äpfel und Birnen anhand verschiedener Merkmale sortieren, ohne explizit vorgeben zu müssen, worin sich die beiden unterscheiden. In einem zweiten Schritt wird dann der wahrscheinlichste Cluster identifiziert und die darin enthaltenen Blickrichtungsschätzungen für das Training eines, für das Zielobjekt spezifischen, Blickrichtungserkenners verwendet. Ein entscheidender Vorteil dieses Vorgehens ist, dass er ganz ohne Mitwirkung des Benutzers erfolgt und die Methode somit auch immer besser werden kann, je länger die Kamera neben dem Zielobjekt verbleibt und Daten aufnimmt. „Auf diese Weise verwandelt unsere Methode normale Kameras in einen Blickkontakterkenner, ohne zuvor Grösse oder Position des Zielobjektes kennen oder vorgeben zu müssen“, erklärt Bulling.