Alex Kirsch
Independent Scientist
Blog

Faszination Intelligenz: Wahrnehmung

05.07.2024
Wahrnehmung ist gewissermaßen der Input für unser Gehirn und damit eng verknüpft mit Intelligenz allgemein. Möchte man also Intelligenz per Computer nachbilden, muss man sich auch mit diesem Thema auseinandersetzen. Und dabei stellt man fest, dass sogar die Definition der Aufgabe knifflig ist und nur im Zusammenhang mit weiteren kognitiven Prozessen verstanden werden kann.

Wahrnehmung und Intelligenz

Beim Thema Intelligenz ist Wahrnehmung wahrscheinlich nicht das erste Thema, an das man denkt. Jedes Lebewesen reagiert in irgendeiner Form auf seine Umgebung und das funktioniert nur, wenn es Parameter der Umgebung wahrnehmen kann. Intelligenz ist keine Voraussetzung für das Vorhandensein von Wahrnehmung, aber anders herum stellt Wahrnehmung das Material bereit, mit dem wir denken.

Einfache Lebewesen haben eine direkte Kopplung zwischen Umweltreiz und Reaktion. Eine Pflanze richtet ihre Blätter so aus, dass sie möglichst viel Licht einfangen. Oder wenn ein Tier vor etwas Essbarem steht, wird es zubeißen.

Solche direkten Rückkopplungsschleifen sind auch bei Menschen vorhanden in Form von Reflexen: wir hören einen Knall und zucken zusammen, jemand tippt die richtige Stelle am Knie an und unser Unterschenkel schlägt aus. In diesen Fällen führt eine Wahrnehmung ebenfalls direkt zu einer körperlichen Reaktion. Aber in den meisten Fällen werden Sinnesreize verarbeitet, interpretiert und mit früheren Wahrnehmungen (Erinnerungen) verknüpft bevor sie eventuell zu einer sichtbaren Reaktion führen. Wie wir noch sehen werden, dürfen wir diese Prozesse nicht als lineare Abfolge auffassen: Wahrnehmung als Input, Verarbeitung und dann die Reaktion. Erst durch komplexe Interaktionen von bestehendem Wissen, Wahrnehmungen von außen, Handlungsoptionen und vielen anderen kognitiven Prozessen, entsteht intelligentes Verhalten.

Trotzdem müssen wir irgendwo anfangen, wenn wir die Verarbeitung von Wahrnehmung verstehen und eventuell nachbauen wollen. Eine Herangehensweise ist, Wahrnehmung als Kategorisierung zu verstehen. Wenn wir einen Reiz empfangen – egal über welches Sinnesorgan oder vielleicht auch mehrere Reize von verschiedenen Quellen – versucht unser Gehirn diesen einzuordnen, zum Beispiel nach

  • sprachlichem Konzept:
    Wie bezeichnen wir Dinge, die wir sehen oder ertasten?
  • Analogie/Erinnerung:
    Gerade bei Gerüchen tun wir uns schwer mit Benennung. Wir verknüpfen die Wahrnehmung eher mit anderen Reizen (Die Milch riecht sauer., sauer ist ein Geschmack) oder Erinnerungen (Hier riecht es wie in Omas Wohnzimmer.).
  • Gebrauchsmöglichkeit:
    Was kann man mit einem Objekt tun? Kann ich etwas als Sitzgelegenheit, Werkzeug oder Nahrung nutzen? In der Psychology verwendet man den Begriff Affordance oder Angebotscharakter für diese Einordnung.
  • Vertrautheit:
    Unser Gehirn gleicht ständig schon Bekanntes (also Erinnerungen) mit der Wahrnehmung ab. Wenn wir Dinge erleben, die unbekannt sind oder dem Erwarteten widersprechen, erleben wir Stress oder Aufregung, während bekannte Dinge hingenommen oder auch direkt wieder vergessen werden.
Wir verarbeiten also die Sinneswahrnehmung zu abstrakteren Informationen, die wir leichter abspeichern und mit früheren Wahrnehmungen verknüpfen können. Eine große ungeklärte Frage ist jedoch, was genau diese abstrakten Informationen sind und wie sie aus der Wahrnehmung abgeleitet werden.

Verarbeitung von Wahrnehmungen

Insofern ist eine Nachahmung von Wahrnehmung durch Computer allein dadurch schwierig, dass wir die Aufgabe nicht klar beschreiben können. Aber immerhin kennen wir eine Seite: die Eingabe. Es gibt heutzutage eine Fülle von Sensoren, die nicht nur menschliche Wahrnehmung imitieren (Kameras, Mikrofone, Drucksensoren bis hin zu künstlicher Haut, chemische Sensoren für Gerüche und Geschmäcker), sondern auch für Umweltparameter, die uns Menschen verborgen sind (z.B. Infrarotkameras, Odometrie, Laser- und Sonarsensoren).

Aus den Sensoren bekommt ein Computer erstmal einen Haufen Zahlen, mathematisch repräsentiert als Vektor (z.B. bei Sonarsensoren, die in einer Ebene operieren) oder als Matrix (wie bei Bildern in zwei oder drei Dimensionen). Aber was machen wir jetzt damit?

Objektklassifikation

Wir müssen vom Computer ja nicht gleich verlangen alles zu tun was Menschen mit ihrer Wahrnehmung anstellen. Eine typische Aufgabe, die vom Computer im Bereich der Bilderkennung erledigt wird, ist das Benennen von Objekten, was zum Beispiel für die Suche nach Bildern im Internet oder den eigenen Fotos praktisch sein kann.

Doch auch bei dieser recht grundlegenden Aufgabe, dürfen wir nicht verwechseln was Menschen und Computer tun. Jenseits des dritten Lebensjahres laufen wir nicht durch die Gegend und benennen jedes Objekt, das wir sehen: Mama. Wauwau, Auto. Die Aufgabe, die Computer zu lösen versuchen ist Klassifikation, das Zuordnen von vordefinierten Bezeichnungen zu einer Eingabe (üblicherweise einem Bild, es können aber z.B. auch Laserdaten sein). Menschen dagegen kategorisieren. Dies beinhaltet auch eine Zuordnung zu Begriffen, aber immer im Kontext verwandter Begriffe und der Gesamtsituation[1].

Object representations in the human brain are also tied to other features such as conceptual knowledge about their function and relationship to other objects, which are yet to be emulated by DNNs in a way that produces the same flexibility as the human brain.[2]

Eine andere Klassifizierungsaufgabe ist die Transkription von gesprochener in geschriebener Sprache. Hier versucht man aus Tonsignalen zunächst einzelne Wörter zu erkennen. Zusätzlich wird dabei aber die Sequenz der Wörter einbezogen. Wenn ein einzelnes Wort rein phonetisch als Hut ebenso wie als gut erkannt werden könnte, kann durch den Kontext der vorher erkannten Wörter (das tut … vs. mein …) eine bessere Genauigkeit erzielt werden. Und auch hier funktioniert die Verarbeitung bei Menschen anders: Während der Computer per Statistik die wahrscheinlichste Wortreihenfolge errechnet, fangen Menschen direkt auch mit der Interpretation des gehörten an. Selbst wenn wir eine Fremdsprache hören, kann es vorkommen, dass wir zusammenhängende Satzteile heraushören, die wir in unserer eigenen Sprache interpretieren. Zum selbst ausprobieren: Bayern 3 Verhörhammer.

Bildbeschreibungen

Über das Erkennen einzelner Objekte hinaus wird auch versucht mit dem Computer eine Beschreibung einer Situation, insbesondere wieder von Bildern, zu generieren. Eines Tages hat mir Microsoft Sharepoint diese intelligente Funktion aufgezwungen und Bilder mit Beschreibungen versehen, zum Beispiel Strand mit Sonnenschirm. Schön wär's gewesen. Das Bild zeigte Bakterien in einer Mikroskopaufnahme. Diese Funktionalität ist vermutlich mittlerweile durch gigantische Sprach- und Bildmodelle etwas besser geworden. Trotzdem bleibt das grundsätzliche Phänomen aller datengetriebenen Ansätze bestehen: häufig auftretenden Fälle werden recht zuverlässig verarbeitet, während seltene Fälle weniger gut funktionieren.

Und genaugenommen kann diese Aufgabe nie perfekt gelöst werden, da die passende Beschreibung immer von der Gesamtsituation abhängt. Zum Beispiel könnte man das nebenstehende untenstehende Bild auf verschiedene Weise beschreiben:
  • Frosch
  • Plüschtier
  • das todoListo Maskottchen
  • ein Plüschtierfrosch, mit einem T-Shirt mit aufgedrucktem todoListo Logo, sitzend auf einem Laptop, der mit einem todoListo-Aufkleber versehen ist
Welche Beschreibung die richtige ist, hängt davon ab, was schon bekannt ist und zu welchem Zweck die Beschreibung generiert werden soll.

Robotik

Es kann auch sein, dass eine Maschine selbst seine Umgebung wahrnehmen soll um intelligentes Verhalten zu zeigen, also in dem Zusammenhang in den auch die Wahrnehmung bei Menschen eingebettet ist. Das ist der Fall bei autonomen Robotern. Ein Roboter hat nicht viel davon, wenn er aus einem Kamerabild den Satz Locher neben Bleistift auf Schreibtisch generieren kann. Je nachdem, was die Aufgabe des Roboters ist, kann diese Information völlig irrelevant oder auch zu ungenau sein (obendrein ist die sprachliche Beschreibung für die Maschine sowieso nur eine Sequenz von Buchstaben und müsste erstmal mit Mitteln der Sprachverarbeitung interpretiert werden). Soll der Roboter mir etwas zum Schreiben bringen, dann sollte er nicht nur den Bleistift als solchen erkennen. Er muss auch wissen, wozu der Bleistift zu gebrauchen ist und wenn er ihn greifen will, braucht er die genaue Position um zu berechnen wie er seinen Greifer zu bewegen hat.

Es gibt einzelne Vorführungen von Robotern, wo Szenarien gezeigt werden, in denen ein Roboter eine Cola bringen soll, im Kühlschrank keine findet und automatisch inferiert, dass ein anderes Getränk als Ersatz dienen könnte. Aber wir sind weit davon entfernt, dass diese Art von Wahrnehmung, Interpretation und Schlussfolgerung allgemein funktioniert. Dazu kommen noch weitere Schwierigkeiten bei der Aktionsausführung, zum Beispiel Objekte zuverlässig zu greifen.

Man mancht sich normalerweise keine Gedanken darüber, was das Gehirn in so einer einfach erscheinenden Situation leistet. Wenn ich zum Beispiel den Bleistift greifen möchte, dann muss ich mich selbst erst einmal in die Nähe des Schreibtischs bewegen. Aber was ist die richtige Position? Mit einem einfachen Abstandsmaß vom Schreibtisch ist es nicht getan. Ich könnte auf der falschen Seite des Tisches stehen und dann den Bleistift nicht erreichen. Und welche Hand nutze ich überhaupt? In all diesen Fragen spielen die Objektart, die geometrische Form, die Position des Objekts, meine eigenen Bewegungsmöglichkeiten und eine Menge Erfahrung und Hintergrundwissen zusammen. Und all das können wir noch nicht einmal gut charakterisieren.

In meiner Forschung habe ich mich meistens um die Wahrnehmung gedrückt und mehr auf die Aktionsselektion konzentriert. Deshalb habe ich auch gern mit Robotersimulatoren gearbeitet. In der Simulation hatte ich Zugang zu allen Daten der Objekte: ihre Position, ihre Bezeichnung, die Position des Roboters und all seiner Gelenke – eigentlich die perfekte Wahrnehmung. Nur leider hat mein Roboter trotzdem nie etwas gezeigt, was man als intelligentes Verhalten bezeichnen würde. Und ein Grund dafür ist, dass wir keine gute Repräsentation aller Gegebenheiten in der Welt haben. Eine Auflistung von Objekten und ihrer Positionen ist nicht genug um zu verstehen was um einen herum passiert.

Robustheit

Eine weitere Beobachtung hat mich dabei immer fasziniert: die Robustheit bei der Interpretation menschlicher Wahrnehmung. Wie bereits erwähnt gibt es Algorithmen, die aus Bild- oder Laserdaten einzelne Objekte erkennen und auch deren Position im Raum als Koordinaten berechnen können. Dabei werden die Sensordaten schrittweise in abstraktere Repräsentationen umgewandelt. Zum Beispiel könnte man bei einer Erkennung aus Laserdaten zunächst die Daten glätten, um fehlerhafte Werte zu korrigieren oder Lücken zu ergänzen. Dann würde man versuchen zusammenhängende Bereiche als einzelne Objekte zu identifizieren. Allein das ist schon eine faszinierende Leistung des Gehirns: woher wissen wir wo ein Objekt aufhört und das nächste anfängt? Ich habe meine Studierenden in der Vorlesung immer gefragt: Woher wissen Sie, dass ich ein zusammenhängendes Ding bin? Die Gestalt-Psychologie hat schon vor hundert Jahren qualitative Regeln identifiziert, zum Beispiel dass Objekte mit gleicher Farbe oder gleicher Bewegungsrichtung als zusammengehörig eingestuft werden. Leider sind diese Regeln nicht spezifisch genug um sie in eine Formel zu überführen wie man sie in einem Algorithmus nun mal braucht.

Aber weiter in der Verarbeitungssequenz: Wir haben aus den Laserdaten jetzt vielleicht geschlossene Strukturen ermitteln, die einzelne Objekte darstellen könnten. Jetzt könnte man diese Objekte mit Strukturen in einer Datenbank abgleichen oder per maschinellem Lernen Modelle trainieren, die zum Beispiel ein Objekt als Bleistift oder Locher klassifizieren. Die Position des Objekts kann man dann noch per Geometrie aus den Laserdaten herausrechnen.

Klingt soweit sinnvoll. Das interessante an diesen Verfahren ist nur, dass das finale Ergebnis selten gut ist. Und das liegt nicht an den einzelnen Verarbeitungsschritten. Jeder einzelne Schritt ist heuzutage so gut wie er nur sein kann. Zum Beispiel könnten bei der Segmentierung zwei Objekte als ein gemeinsames erkannt werden oder anders herum ein Objekt als mehrere. Dann kann die Klassifikation nur noch scheitern und man bekommt oft recht spaßige Resultate. Dabei kann man aus den reinen Daten oft keine bessere Segmentierung ableiten. Wenn sich Objekte in der Welt berühren, dann ist es auch nicht wirklich falsch, wenn diese als zusammengehörig angesehen werden (denn wo sollte der Segmentierungsalgorithmus die Grenze ziehen?). Es ist nur im Zusammenhang mit der folgenden Klassifikation nicht hilfreich.

Bei Menschen ist die Lage genau anders herum. Rein technisch sind unsere Sensoren der Maschine unterlegen. Unsere Augen sind keine HD-Kameras, unsere Ohren keine hochsensiblen Mikrofone. Aber Menschen gleichen die Messfehler in den Sinnesorganen bei der Verarbeitung aus und die abstrakte Interpretation ist extrem zuverlässig. Also obwohl wir mit schlechteren Eingabewerten arbeiten müssen, ist die Ausgabe (auch wenn wir nicht genau wissen, was sie ist, aber sagen wir mal die Benennung von Objekten) fast immer korrekt (d.h. sinnvoll in dem gegebenen Kontext). Wir verstehen auch bei schlechten Lichtverhältnissen, Verdeckungen und Hintergrundlärm immer noch sehr genau was um uns herum passiert.

Und zusätzlich stoßen wir wieder auf die grundsätzliche Frage, wie man überhaupt die Welt abstrakt beschreibt. Die Maschine hat es schon deshalb schwerer, weil sie kein konsistentes, längerfristig bestehendes Modell der Welt hat. Als Menschen haben wir so viel Wissen – das uns meist nicht bewusst ist – über die grundsätzliche Funktionsweise der Welt und unsere aktuelle Umgebung und dieses Wissen verwenden wir bei der Interpretation der Wahrnehmung:

A related observation is that the location of objects within scenes in the real world is not arbitrary, and objects occur within relatively predictable locations related to their function. [2]

Dieses Verlassen auf Hintergrundwissen hat Nebenwirkungen, die gern als menschliche Fehler interpretiert werden. Optische Illusionen sind ein Beispiel, wo die Interpretation mehrdeutig oder falsch sein kann. Solche Bilder sind so konstruiert, dass die Annahmen, die unser Gehirn bei der Interpretation von Wahrnehmungen macht, nicht funktioneren. Und selbst in natürlichen Situationen kommt es vor, dass wir Situationen falsch einschätzen, was zum Beispiel im Straßenverkehr fatal sein kann. Dann wird gern nach mehr Technik gerufen und eigentlich könnten die Autos doch gleich selbst fahren.

Was dabei übersehen wird, ist dass nicht unsere Wahrnehmung das Problem ist, sondern die Welt in der wir leben. Eine Situation kann aus einer visuellen Momentaufnahme überhaupt nicht vollständig interpretiert werden. Objekte können hinter anderen verdeckt sein und ihre Funktion kann nicht allein aus der bildlichen Darstellung inferiert werden. Ohne Hintergrundwissen ist es absolut unmöglich die Umgebung so zu interpretieren wie es für menschliches Handeln notwendig ist. Wir brauchen also genau die Annahmen und Heuristiken, um überhaupt wahrnehmen zu können. Diese Annahmen können in manchen Fällen falsch sein (und oft können wir auch dann die Situation korrekt (neu)interpretieren), aber das lässt sich nicht grundsätzlich vermeiden.

Daraus ergibt sich auch eine interessante philosophische Schlussfolgerung: Wenn wir es je schaffen sollten Computer so zu programmieren, dass sie intelligentes Verhalten zeigen, dann sind diese Computer vielleicht auch nicht mehr zuverlässig in dem Sinne wie wir es gewohnt sind. Wir wissen zum Beispiel, dass ein Computer korrekt rechnet, das ist immerhin seine ureigenste Aufgabe als elektronische Rechenmaschine. Ein darauf laufendes intelligentes Programm würde aber die Denkmechanismen von Menschen nachbilden (und das würde bedeuten es müsste tolerant gegenüber Wahrnehmungsfehlern usw. sein) und wenn man ihm eine Rechenaufgabe geben würde, würde es eventuell auch mal eine falsche Zahl zurückliefern. [3]

Wo stehen wir?

Gerade in der Bild- und Sprachverarbeitung wurden in den letzten Jahren große Fortschritte erzielt durch Deep Learning. Das liegt nicht daran, dass wir den Wahrnehmungsprozess besser verstanden hätten, sondern dass es durch große Datenmengen möglich geworden ist, auch ohne tieferes Verständnis einige Aspekte von Wahrnehmung in Standardsituationen gut lösen zu können. Damit können durchaus praktische Anwendungen umgesetzt werden wie Bildersuche oder Qualitätskontrolle in Produktionsprozessen.

Das grundsätzliche Problem bleibt jedoch nach wie vor bestehen: wir können nicht einmal definieren, was Wahrnehmung ist. Und diese Definition wird immer von der jeweiligen Anwendung und Situation abhängen. In einem Gesamtsystem, sagen wir einem Haushaltsroboter, ergibt sich der Wert der Wahrnehmung aus dem Verhalten, das das System schlussendlich zeigt und dafür sind noch viele weitere kognitive, aber auch physische Prozesse (Greifen, Fortbewegung) notwendig, die ebenfalls noch nicht gelöst sind und vermutlich auch nur in ihrem komplizierten Gesamtkontext verstanden werden können.

Das mag aus Ingenieurssicht frustrierend sein, macht aber auch genau die Faszination an dem Thema aus. Ich kann nur dazu ermutigen sich selbst im Alltag zu beobachten. Zum Beispiel wenn man im Supermarkt an der Kasse wartet, kann man die Zeit nutzen und überlegen welche der Dinge um einen herum gerade für das Gehirn wichtig sind. Welche Information hat man tatsächlich wahrgenommen und welche einfach mal angenommen? Und welche dieser Informationen speichert man kurz- oder längerfristig ab? Zum Beispiel gibt es eine interessante Studie zur sogenannten Veränderungsblindheit (change blindness), wo an einer Rezeption die Person hinter der Theke direkt vor den Augen der Versuchsperson durch eine andere ersetzt wurde und in vielen Fällen wurde die Änderung nicht bemerkt (Youtube-Video zum Experiment).

Wie wir gesehen haben, ist das was Menschen oft als Irrationalität und Unzulänglichkeit angekreidet wird, kein Fehler im Gehirnprogramm, sondern eine unvermeidbare Nebenwirkung der Welt in der wir leben. Und deshalb ist es auch nicht zielführend, Wahrnehmungsprozesse von Menschen und Maschinen zu vergleichen. Beispielsweise findet man eine Menge Studien, in denen angeblich ein Programm Krankheiten in Röntgenbildern besser diagnostizieren kann als Ärzte. Diese Ergebnisse erhält man nur deshalb, weil die Aufgabe so definiert ist, dass ein Computer sie lösen kann. Die eigentliche Aufgabe ist eine Diagnose, die sich aus vielen kleinen Aspekten zusammensetzt. Ärzte sehen ihre Patienten, sie können sie zu Schmerzen, Gewohnheiten und Vorerkrankungen befragen, sie können weitere Befunde einholen und diese interpretieren. [4] Kein Arzt dieser Welt würde nur aufgrund eines einzelnen Röntenbildes eine Diagnose abgeben und ebensowenig sollten wir versuchen uns auf Diagnosen (d.h. Klassifikationen) zu verlassen, die eine Maschine allein aufgrund eines einzelnen Bildes abgibt.

Die Wahrnehmung ist vielleicht unsere klarste Schnittstelle zu unserer Außenwelt. Obwohl alle Lebewesen den gleichen Planeten bewohnen, haben sie alle ihre individuellen Mechanismen zur Interaktion mit dieser Umgebung entwickelt. Menschen stechen dabei heraus als die Spezies, die nicht nur auf Reize reagiert, sondern sie abstrahiert, längerfristig speichert, Muster erkennt, Verknüpfungen zieht und von ihrer eigenen Wahrnehmung fasziniert sein kann.

← Zurück zur Blog-Übersicht