8. Juni 2017
Wie das Gehirn erkennt, was das Auge sieht
Neue Arbeiten des Salk Institute, die den visuellen Prozess des Gehirns skizzieren, könnten selbstfahrende Autos verbessern und auf Therapien für sensorische Beeinträchtigungen hinweisen
8. Juni 2017
LA JOLLA- Wenn Sie denken, dass selbstfahrende Autos nicht früh genug hierher kommen können, sind Sie nicht allein. Die Programmierung von Computern zur Erkennung von Objekten ist jedoch technisch sehr anspruchsvoll, zumal Wissenschaftler nicht vollständig verstehen, wie unser eigenes Gehirn dies tut.
Nun haben Forscher des Salk Institute analysiert, wie Neuronen in einem kritischen Teil des Gehirns, dem sogenannten V2, auf natürliche Szenen reagieren, um die Verarbeitung des Sehvermögens besser zu verstehen. Die Arbeit wird in Nature Communications am 8. Juni 2017 beschrieben.
“ Zu verstehen, wie das Gehirn visuelle Objekte erkennt, ist nicht nur für das Sehen wichtig, sondern auch, weil es ein Fenster dafür bietet, wie das Gehirn im Allgemeinen funktioniert „, sagt Tatyana Sharpee, außerordentliche Professorin am Computational Neurobiology Laboratory von Salk und leitende Autorin des Papiers. „Ein Großteil unseres Gehirns besteht aus einer wiederholten Recheneinheit, die als kortikale Säule bezeichnet wird. Insbesondere beim Sehen können wir Eingaben in das Gehirn mit exquisiter Präzision steuern, wodurch es möglich ist, quantitativ zu analysieren, wie Signale im Gehirn umgewandelt werden.“
Obwohl wir die Fähigkeit zu sehen oft für selbstverständlich halten, leitet sich diese Fähigkeit von komplexen mathematischen Transformationen ab, die wir laut Sharpee noch nicht in einem Computer reproduzieren können. Tatsächlich widmet sich mehr als ein Drittel unseres Gehirns ausschließlich der Analyse visueller Szenen.
Unsere visuelle Wahrnehmung beginnt im Auge mit hellen und dunklen Pixeln. Diese Signale werden an die Rückseite des Gehirns zu einem Bereich namens V1 gesendet, wo sie transformiert werden, um Kanten in den visuellen Szenen zu entsprechen. Irgendwie können wir durch mehrere nachfolgende Transformationen dieser Informationen Gesichter, Autos und andere Objekte erkennen und ob sie sich bewegen. Wie genau diese Erkennung geschieht, ist immer noch ein Rätsel, zum Teil, weil Neuronen, die Objekte kodieren, auf komplizierte Weise reagieren.
Nun haben Sharpee und Ryan Rowekamp, ein Postdoktorand in Sharpees Gruppe, eine statistische Methode entwickelt, die diese komplexen Reaktionen aufnimmt und auf interpretierbare Weise beschreibt, um das Sehen für computersimuliertes Sehen zu dekodieren. Um ihr Modell zu entwickeln, verwendete das Team öffentlich verfügbare Daten, die Gehirnreaktionen von Primaten zeigen, die Filme von natürlichen Szenen (wie Waldlandschaften) aus der Datenbank Collaborative Research in Computational Neuroscience (CRCNS) ansehen.
„Wir haben unsere neue statistische Technik angewendet, um herauszufinden, welche Merkmale im Film dazu führten, dass V2-Neuronen ihre Reaktionen änderten“, sagt Rowekamp. „Interessanterweise fanden wir heraus, dass V2-Neuronen auf Kombinationen von Kanten reagierten.“
Das Team zeigte, dass V2-Neuronen visuelle Informationen nach drei Prinzipien verarbeiten: Erstens kombinieren sie Kanten mit ähnlichen Ausrichtungen und erhöhen die Robustheit der Wahrnehmung gegenüber kleinen Änderungen in der Position von Kurven, die Objektgrenzen bilden. Zweitens, wenn ein Neuron durch eine Kante einer bestimmten Orientierung und Position aktiviert wird, dann wird die Orientierung 90 Grad davon an derselben Stelle unterdrückt, eine Kombination, die als „Kreuzorientierungsunterdrückung“ bezeichnet wird.“ Diese kreuzorientierten Kantenkombinationen werden auf verschiedene Arten zusammengesetzt, um verschiedene visuelle Formen erkennen zu können. Das Team fand heraus, dass die Kreuzorientierung für eine genaue Formerkennung unerlässlich war. Das dritte Prinzip ist, dass sich relevante Muster im Raum auf eine Weise wiederholen, die helfen kann, strukturierte Oberflächen von Bäumen oder Wasser und Grenzen zwischen ihnen wahrzunehmen, wie in impressionistischen Gemälden.
Die Forscher bauten die drei Organisationsprinzipien in ein Modell ein, das sie das quadratische Faltungsmodell nannten, das auf andere experimentelle Datensätze angewendet werden kann. Die visuelle Verarbeitung ähnelt wahrscheinlich der Verarbeitung von Gerüchen, Berührungen oder Geräuschen im Gehirn, so die Forscher, so dass die Arbeit auch die Verarbeitung von Daten aus diesen Bereichen aufklären könnte.
„Modelle, an denen ich zuvor gearbeitet hatte, waren nicht vollständig oder nicht sauber kompatibel mit den Daten“, sagt Rowekamp. „Es war wirklich befriedigend, als sich die Idee, Kantenerkennung mit Texturempfindlichkeit zu kombinieren, als Werkzeug zur Analyse und zum Verständnis komplexer visueller Daten auszahlte.“
Die unmittelbarere Anwendung könnte jedoch darin bestehen, Objekterkennungsalgorithmen für selbstfahrende Autos oder andere Robotergeräte zu verbessern. „Es scheint, dass jedes Mal, wenn wir Computer-Vision-Algorithmen Elemente der Berechnung hinzufügen, die im Gehirn gefunden werden, ihre Leistung verbessert wird“, sagt Sharpee.
Die Arbeit wurde von der National Science Foundation und dem National Eye Institute finanziert.