Prof. Rodney A. Brooks

Künstliche Intelligenz und Roboter-Entwicklung

Künstliche Intelligenz (KI) als formeller Wissenschaftszweig existiert seit 1956, also seit 45 Jahren. Von Anfang an setzte sie Digitalrechner als Ausdrucksmittel ein. Eine andere Disziplin, Kybernetik, wurde eher von biologischen Systemen inspiriert * sie benutzte normalerweise analoge Regelsysteme als Ausdrucksmittel. Beide Ansätze entwickelten sich im Lauf der Jahre auseinander. Dann begann vor etwa 15 Jahren ein neuer Ansatz der Robotik, von beiden Disziplinen einige Aspekte zu übernehmen. Zuerst gab es insektenähnliche Roboter, jetzt gibt es Roboter in Menschengestalt, die mit Menschen interagieren. Während die traditionelle KI-Forschung weiterhin hoch in Blüte steht, hat der neue Bottom-up-Ansatz mit Körperlichkeit und Situiertheit der Roboter zu einer Vielzahl von Einsichten in die menschliche Psychologie und zu intelligenten Robotern geführt, die im Alltagsleben verfügbar sein könnten.

Ansätze

Die traditionelle KI-Forschung hat das Problem der Entwicklung künstlich intelligenter Systeme von oben herab zu lösen versucht. Sie näherte sich Intelligenz über die Ideen von "Denken" und "Vernunft". Von diesen wissen wir nur durch Selbstbeobachtung, und sie schienen den ersten Forschern am schwierigsten zu sein: Tätigkeiten wie Gehen und Sehen sind einfach * Kinder und Tiere sind dazu fähig. Schach spielen, Theoreme beweisen und Logistik planen sind jedoch sehr intelligente Aktivitäten * nur äußerst gut ausgebildete Erwachsene können sie durchführen.

Das Fachgebiet Künstliche Intelligenz hat mit der Zeit einen bestimmten Modus Operandi übernommen, der gewisse Konventionen darüber, wie die Inputs und Outputs von Denken und Schlussfolgern behandelt werden sollen (zum Beispiel das Untergebiet Wissensrepräsentation), und die Arten dessen einschließt, was Denken und Folgern bewirken (zum Beispiel Planen, Probleme lösen). Diese Konventionen sind am besten für "virtuelle Systeme" geeignet wie jene, die mit den Informationen im World Wide Web und mit wirtschaftlichen Anwendungen wie Kreditrisiko-Bewertung und Planungssystemen sowie Mathematik-Assistenz für Ingenieure und Wissenschaftler zu tun haben. Sie können jedoch zahlreiche Aspekte der menschlichen Intelligenz nicht erklären, zum Beispiel das Gehen, Sehen und die sozialen Interaktionen, an denen wir alle teil haben.

Evolutionsmäßig betrachtet war die menschliche Intelligenz nicht plötzlich da. Während der gesamten Entwicklung zum Menschen gab es Vorstufen und Grundlegungen. Dieses Substrat existiert heute zum großen Teil in anderen Lebewesen. Sein Studium könnte Begrenzungen der Art und Weise zutage fördern, wie höherstufiges Denken beim Menschen organisiert werden könnte.

Seit kurzem gibt es das Bestreben, Intelligenz "von unten her" zu untersuchen, indem man sich auf physische Systeme konzentriert (zum Beispiel auf mobile und menschenähnliche Roboter), die in der Welt situiert sind und autonom Aufgaben verschiedener Art ausführen. Ein Teil dieser wissenschaftlichen Arbeit beruht auf Entwicklungen die aus den Grundlagen dieser Arbeit stammen, andere Teile stützen sich auf Anregungen aus der Biologie. Die Art dieser Arbeit ist von jener der traditionellen KI-Forschung sehr verschieden. In der Tat legt sie nahe, dass trotz unserer besten Selbstbeobachtung die traditionelle KI-Forschung Lösungen für Intelligenz anbietet, die fast keine Ähnlichkeit mit der Arbeitsweise biologischer Systeme haben. Das heißt nicht, dass die traditionelle Erforschung Künstlicher Intelligenz kein nützliches Unterfangen ist * nur, dass sie wenig zum Verständnis der Funktionsweise natürlicher Systeme beiträgt.

Die zentralen Ideen der neuen Ansätze der Robotik sind Körperlichkeit und Situiertheit.

Situiertheit. Die Roboter befinden sich in der Welt * sie haben nicht mit abstrakten Beschreibungen zu tun, sondern mit dem Hier und Jetzt der Welt, wobei die das Verhalten des Systems direkt beeinflussen.

Körperlichkeit. Die Roboter besitzen Körper [im Orginal Bodys a.d. Übers.] und erfahren die Welt direkt * ihre Aktionen sind Teil einer dynamischen Kommunikation mit der Welt, und die Roboter reagieren sofort auf ihre Wahrnehmungen.

Es birgt natürlich Gefahren in sich, wenn man biologische Systeme zu genau untersucht. Ihr Design war vom Gesichtspunkt globaler Systeme aus nicht optimiert. Sie waren eher zusammengestückelt und von kurz vorher funktionierenden Systemen übernommen worden, und zwar auf eine Weise, die äußerst rasch den jüngsten Umweltzwängen gerecht wurde. Möglicherweise sind die Lösungen, die für einen großen Teil der Intelligenz gefunden wurden, sehr weit vom Optimalen entfernt. Jedenfalls gibt es viele rudimentäre Strukturen, die im Verdauungs-, Skelett- und Muskelsystem der Menschen und anderer Lebewesen überlebt haben. Man sollte daher annehmen, dass es zahlreiche rudimentäre Neuralstrukturen, Interaktionen und Nebeneffekte gibt. Ihre Nachahmung könnte eine Ablenkung sein.

Künstliche Intelligenz und Roboter-Entwicklung

Bereits Anfang der 1940er Jahre, als die ersten Elektronenrechner für die Entzifferung von Geheimschriften und ballistische Berechnungen gebaut wurden, existiert die Idee, Computer zu benutzen, um intelligente Tätigkeiten durchzuführen.

Alan Turing, der bereits für seine Arbeit über Berechenbarkeit (Turing 1937) berühmt war, diskutierte schon 1943 mit Donald Michie und noch früher, 1941, mit anderen, der heutigen KI-Welt weniger bekannten Personen über die Benutzung von Computern für das Schachspielen. Er entwickelte mit anderen die Idee, mit Hilfe des Minimax-Verfahrens einen Bewegungsbaum aufzustellen, die der statischen Bewertung, und er führte ausgeklügelte Handsimulationen gegen menschliche Gegner aus. Später (zumindest in den Jahren 1945- 1950) hatte er, Norbert Wiener und Claude Shannon einen Gedankenaustausch über diese Ideen. Obwohl die Spieltheorie bereits ein etabliertes Gebiet der Mathematik war, für das John von Neumann Pionierarbeit geleistet hatte, gab es beim Schach eine so große Anzahl möglicher Positionen, dass, auch wenn alles in ihm deterministisch ist, die Theorien kaum anwendbar waren. Nur heuristische Suchprogramme schienen ein plausibles Lösungsmittel zu sein.

In einem Aufsatz mit dem Titel "Intelligent Machinery", der 1948 geschrieben, aber erst lange nach seinem Tod veröffentlicht wurde (Turing 1970), skizzierte Turing eine allgemeinere Sicht der Methode, Computer intelligent zu machen. In dieser recht kurzen Arbeit voller Einsichten sah er viele moderne Entwicklungen und Techniken voraus. Er behauptete (zum Verdruss seiner Arbeitgeber etwas scherzhaft), dass zumindest für einige Gebiete der Intelligenz * und sein besonderes Beispiel war das Erlernen von Sprachen * die Maschine einen Körper haben müsse, und er meinte, der Erfolg "scheint allerdings eher zu sehr von Sinnesorganen und Fortbewegung abzuhängen, um durchführbar zu sein".

Turing vertrat den Standpunkt, es müsse möglich sein, eine denkende Maschine zu bauen, da es möglich war, Nachahmungen von "jedem kleinen Teil eines Menschen" herzustellen. Er unterschied zwischen der Herstellung genauer elektrischer Modelle von Nerven und ihrer computermäßigen Ersetzung durch die nach damaliger Technik verfügbaren Vakuumröhrenschaltungen (dies folgt direkt aus seiner früheren Arbeit Turing 1937) und nahm an, das Nervensystem könne als Computersystem abgebildet werden. Für andere Körperteile schlug er vor, "Fernsehkameras, Mikrofone, Lautsprecher" und so weiter zu benutzen, um das übrige System darzustellen. "Das wäre natürlich ein gewaltiges Unterfangen." Selbst dann, stellte Turing fest, hätte die so konstruierte Maschine "keinen Kontakt zu Nahrung, Sex, Sport und vielen anderen für den Menschen interessanten Dingen". Turing kam zu dem Schluss, dass die besten Bereiche, in denen man die Mechanisierung des Denkens erforschen solle, verschiedene Spiele und die Entzifferung von Geheimschriften seien, "weil sie geringen Kontakt zur Außenwelt erfordern".

Turing überlegte daher sorgfältig die Frage der Körperlichkeit und entschied sich aus technischen Gründen, Aspekte der Intelligenz zu verfolgen, die, zumindest seiner Meinung nach, als rein symbolisch angesehen werden konnten.

Minimax-Suche, ergänzt durch die Idee des Verfolgens von Schlagzügen bis zur "Ruhe", und raffinierte statische Bewertungsfunktionen wurden bald zum dominanten Ansatz zur Lösung des Spielproblems. Bereits 1958 folgten ihm alle Spielprogramme. Bis heute hat sich das grundlegende Verfahren, bestehend aus Minimax und einer guten statischen Bewertungsfunktion, nicht geändert. Schachweltmeister Garri Kasparow wurde im Februar 1996 und Mai 1997 von einem solchen Programm, Deep Blue, besiegt.

Obwohl Turing sich vorgestellt hatte, Schach als Mittel zum Studium der menschlichen Denkprozesse zu benutzen, ging diese Idee mit der Zeit größtenteils verloren. Stattdessen ist Leistung immer die treibende Kraft gewesen, und das erfolgreichste Programm des Tages stützte sich gewöhnlich auf den technischen Fortschritt. Kraftakt-Baumsuche war die herrschende Methode, die ihrerseits vom Umfang der "Kraft" beherrscht wurde. Dies wiederum war das Ergebnis einer klugen Nutzbarmachung der jüngsten Technologie. Im Laufe der Jahre hat das jetzige "Champion"-Programm von der verfügbaren Hardware profitiert. Es ist klar, dass Erfolg und Fortschritt bei Schachprogrammen von der Technologie beeinflusst werden, die eine umfangreiche Baumsuche ermöglicht. Nur wenige Leute würden behaupten, die heutigen Schachprogramme oder Hardwaresysteme seien sehr gute Modelle für allgemeine menschliche Denkprozesse.

Turing leistete einen weiteren sehr bedeutenden Beitrag auf dem Gebiet, dem er in gewissem Sinn vorausging. 1950 stellte er die Frage "Können Maschinen denken?" (Turing 1950). Um dieser Frage eine akzeptable Bedeutung zu verleihen, präsentierte er das, was später Turing-Test genannt wurde, in dem eine Person per Fernschreiber in Englisch mit einer anderen Person und einem Computer kommunizierte. Das Ziel bestand darin, herauszufinden, ob sich am anderen Ende die Person oder der Computer befand. Mit der Zeit wurde dieser Test zu einem informellen Ziel der Künstlichen Intelligenz. (Turing war überzeugt, dass es im Jahr 2000 einem Gerät mit einer Speicherkapazität von einer Milliarde Bits (das heißt, von 128 Megabytes) möglich sein würde, eine fünfminütige Version dieses Tests mit 70-prozentiger Wahrscheinlichkeit zu bestehen). Man beachte, dass dies eine völlig körperlose Sicht der Intelligenz war, obschon sie insofern in der Welt situiert war, als der Computer seinem Fragesteller rechtzeitig antworten musste. Turing schlug vor, das Gerät solle versuchen, einen Menschen zu simulieren, indem es sich Zeit ließ und bei Rechenproblemen Fehler machte. Diese Version des Turing-Tests ist heute immer noch verbreitet.

Turing brachte mehrere Scheinargumente vor gegen die Möglichkeit, dass ein Digitalrechner eines Tages diesen Test bestehen könnte, aber er dachte nicht an die Notwendigkeit, dem Gerät volle körperliche Gestalt zu geben. Grundsätzlich hatte er natürlich Recht. Aber wie eine Maschine dann programmiert werden sollte, war die Frage. Turing meinte, es sei unpraktisch, sie von Hand zu programmieren, weshalb er vorschlug, sie lernen zu lassen. An diesem Punkt erwähnte er die Notwendigkeit, dem Gerät auf irgendeine Weise einen Körper zu geben. Er lehnte es ab, es mit Gliedmaßen auszustatten, aber er vermutete, dass Augen gut wären, wenn auch nicht gänzlich notwendig. Am Schluss des Aufsatzes schlug er zwei mögliche Wege in Richtung auf sein Ziel einer "denkenden" Maschine vor: Der körperlose Weg bestand darin, sich auf das Programmieren intellektueller Tätigkeiten wie Schachspielen zu konzentrieren, während der Ansatz mit Körper darin bestand, einen Digitalrechner "mit den besten Sinnesorganen auszustatten, die man für Geld bekommen konnte, und ihm dann beizubringen, Englisch zu verstehen und zu sprechen". Die KI-Forschung folgte dem ersten Weg und ignorierte fast den zweiten Ansatz.

Etablierung

Die Etablierung der KI als Disziplin, die eindeutig die Gründung der heutigen Disziplin dieser Bezeichnung ist, erfolgte in der Zeit nach der berühmten Dartmouth-Konferenz von 1956 durch die Veröffentlichung des Buches Computers and Thought (Feigenbaum und Feldman 1963).

Der sechswöchige von John McCarthy organisierte Workshop "Das Dartmouth-Sommer-Forschungsprojekt über Künstliche Intelligenz" brachte jene Personen zusammen, die in den nächsten 20 Jahren die bedeutenderen KI-Forschungszentren in den USA gründeten und leiteten. McCarthy errichtete zusammen mit Marvin Minsky das MIT Artificial Intelligence Laboratory und gründete dann das Stanford Artificial Intelligence Laboratory. Allen Newell und Herbert Simon bildeten und leiteten die Gruppe, aus der die Abteilung für Computer-Wissenschaft an der Carnegie-Mellon-Universität entstand. Die Ideen, die auf der Dartmouth-Konferenz formuliert worden waren, hatten somit einen enormen Einfluss auf das Gebiet, das dort seinen Namen erhalten hatte.

Wie man aus Interviews mit den Teilnehmern erkennen kann, die bei McCorduck (1979) publiziert wurden, besteht noch immer Uneinigkeit über das geistige Eigentum, das in die Konferenz eingebracht wurde, sowie seine relative Bedeutung. Das Hauptergebnis war die Akzeptanz und der Aufstieg der Suche als herausragendes KI-Werkzeug. Der Einsatz der Suche zur Problemlösung wurde allgemein anerkannt, und damit verließ man im Wesentlichen jede Vorstellung der Situiertheit.

Minskys frühere Arbeit hatte sich mit neuronalen Modellen beschäftigt. Seine Dissertation in Princeton behandelte ein Modell für das Gehirn. Später, als er in Harvard war, wurde er stark von McCulloch und Pitts beeinflusst, aber zur Zeit der Dartmouth-Konferenz hatte er mehr mit symbolischen, auf der Suche basierten Systemen zu tun. In seiner Sammlung von Versionen der Dissertationen seiner Studenten (Minsky 1968) befassen sich alle in gewissem Umfang mit der Definition und Beherrschung eines geeigneten Suchraums.

Simon und Newell präsentierten Ende der 1950er Jahre ihre Arbeit über "Logic Theorist", ein Programm, dass logische Theoreme bewies, indem es einen Baum aus Unterzielen suchte (Newell, Shaw und Simon 1957). Es machte ausgedehnten Gebrauch von heuristischen Regeln, um seinen Suchraum zu verkleinern. Mit diesem Erfolg wurde innerhalb der noch kleinen KI-Community die Idee der heuristischen Suche bald beherrschend.

McCarthy wurde von der Konferenz, die er organisiert hatte, nicht so stark beeinflusst und konzentriert sich bis heute weiterhin auf erkenntnistheoretische Fragen anstatt auf Leistungsprogramme. Er sollte jedoch bald die Programmiersprache LISP erfinden (McCarthy 1960), die zum Standard-Rechenmodell für Künstliche Intelligenz wurde. Sie hatte großen Einfluss auf die verbreiteten Denkmodelle, da sie die Programmierung bestimmter Dinge wie der Suche und Repräsentationen auf der Basis von Individuen beträchtlich erleichterte. Sie vereinfachte die Programmierung der Informationslisten-Verarbeitung und der rekursiven Baumsuche * oft konnte ein Dutzend Codezeilen Hunderte von Assembler-Codezeilen ersetzen. Suchverfahren konnten jetzt noch einfacher und bequemer in KI-Programme eingefügt werden. LISP hatte auch insofern Einfluss auf die Arten der benutzten Repräsentationssysteme, als bestimmte Formen der Wissensrepräsentation natürlicher wurden als andere.

In einem Aufsatz (Minsky 1961) wurde Künstliche Intelligenz in fünf Hauptthemen aufgeteilt: Suche, Mustererkennung, Lernen, Planen und Induktion. Die Punkte zwei bis fünf wurden als Möglichkeiten der Steuerung der Suche dargestellt (durch bessere Auswahl der Baumerweiterungsoperatoren, durch die Lenkung der Suche aufgrund früherer Erfahrung und durch das Ersetzen einer gegebenen Suche durch eine kleinere und angemessenere Erkundung). Laut dieser Aufteilung entfiel der größte Teil der ernsthaften KI-Arbeit immer noch auf ein Hauptthemenpunkt: die Suche.

Am Ende der Etablierungsära, 1963, veröffentlichte Minsky eine umfassende Bibliografie (Minsky 1963) der Literatur, die "direkt mit der Entwicklung von Systemen künstlicher Problemlösung befasst" war. Sie enthält 925 Aufzählungen, von denen sich 890 auf wissenschaftliche Aufsätze und Bücher und 35 auf Sammlungen solcher Aufsätze beziehen. Zwei Punkte sind hier interessant: Erstens erwähnt Minsky, obwohl sich der Titel der Bibliografie "A Selected Descriptor-Indexed Bibliography to the Literature on Artificial Intelligence" auf Künstliche Intelligenz bezieht, in seiner Einführung als Gegenstand des Interesses "Systeme künstlicher Problemlösung". Zweitens und paradoxerweise ist der Rahmen der Bibliografie viel breiter, als man heute von einer Bibliografie über KI erwarten würde. Sie enthält zahlreiche Quellen über Kybernetik, Neurologie, Bionik, Informations- und Kommunikationstherie sowie Konnektionismus der ersten Generation.

Diese beiden kontrastierenden Aspekte der Bibliografie heben einen Trend in der KI hervor, der in den nächsten 25 Jahren weiter bestand. Aus einem Meer von Ideen über die Frage, wie man intelligente Maschinen bauen könne, tauchte der körperlose und nichtsituierte Ansatz der problemlösenden Suchsysteme als dominant auf, zumindest innerhalb der Community, die ihr Arbeitsgebiet mit "Künstliche Intelligenz" bezeichnete.

Im Nachhinein können wir uns ansehen, was geschah. Ursprünglich war die Suche als Mechanismus für die Lösung von Problemen eingeführt worden, weil auch die Menschen bei der Problemlösung die Suche einsetzen. Schach und der Beweis logischer Theoreme sind Beispiele, die bereits erwähnt wurden. In diesen Bereichen erwartet man von Menschen, die die gleichen Aufgaben durchführen, keine sofortigen Antworten. Es sind keine Aufgaben, die in der Welt situiert sind.

Man kann darüber diskutieren, ob es klug ist, sich bei diesen Aufgaben so stark auf die Suche zu stützen, da größere Probleme die Suchzeit exponentiell verlängern * aber für frühe KI-Forscher wies dies auf die Notwendigkeit besserer heuristischer Regeln hin, um den Suchraum einzuschränken. Die Verbesserung der Computer-Leistung konnte den Forschern ständig einen größeren Suchraum zur Verfügung stellen, so dass sie meinten, sie machten im Laufe der Zeit Fortschritte. Bei jedem Technologieniveau würde ein langfristiger Stillstand bald zeigen, dass Programme, die sich auf Suche stützen, ernsthafte Probleme hätten, insbesondere wenn man sie in eine dynamische Welt hineinstellen wollte.

In der Anfangszeit der formalen Disziplin "Künstliche Intelligenz" wurde Suche als grundlegende Methode übernommen. Sie konnte auf Digitalrechnern einfach programmiert werden. Sie führte zu Denksystemen, die nicht leicht in situierte Agenten hineingezwängt werden können.

Kybernetik

Es gab, vor allem in den 1940er und 1950er Jahren, eine andere Disziplin, von der man sagen konnte, sie habe die gleichen Ziele wie die, die wir für KI identifiziert haben * den Aufbau nützlicher intelligenter Systeme und das Verstehen der menschlichen Intelligenz. Dieser als Kybernetik bekannte Arbeitsbereich war grundlegend anders als die heutige traditionelle KI-Forschung.

Kybernetik entwickelte sich zusammen mit der Regelungstheorie und der statistischen Informationstheorie * vergleiche zum Beispiel Wiener (1948, 1961). Es ist das Studium der Mathematik von Maschinen, nicht im Sinne der funktionalen Komponenten einer Maschine und wie sie miteinander verbunden sind, auch nicht in Bezug auf das, was eine einzelne Maschine hier und jetzt tun kann, sondern vielmehr hinsichtlich aller möglichen Verhaltensweisen, die eine einzelne Maschine hervorbringen kann. Bei der Beschreibung einer Maschine betonte man ihren Input und Output und behandelte sie insofern als Black Box, als ihre innere Funktionsweise nicht sichtbar war. Die Analyseinstrumente waren oft Differential- oder Integralgleichungen, und diese Instrumente begrenzten die Kybernetik ihrem Wesen nach auf Situationen, in denen sich die Randbedingungen nicht rasch änderten. Sie tun dies jedoch häufig in einem System, das sich in einer dynamisch veränderlichen Welt befindet * diese Komplexität muss irgendwohin führen, entweder zu diskontinuierlichen Modellen oder geänderten Randbedingungen.

Kybernetik entstand im Kontext der Regulierung von Maschinen und elektronischen Schaltkreisen * sie wird häufig mit dem Untertitel von Wieners Buch als das Studium "der Regelung und Nachrichtenübertragung im Lebewesen und in der Maschine" beschrieben. Das Rechenmodell zur Zeit ihrer ursprünglichen Entwicklung war analog. Die Inputs und Outputs der Maschine, die analysiert werden sollten, wurden normalerweise als überall kontinuierliche Funktionen mit plausiblen Ableitungen angesehen, und die Mechanismen für die automatisierte Analyse und Modellbildung waren gewöhnlich Dinge, die heute als analoge Komponenten beschrieben würden. Es gab keine Idee einer symbolischen Suche als solcher * jede Suche war im Sinne der Minimierung einer Funktion formuliert. Man dachte auch viel weniger von Repräsentation als einem abstrakten manipulierbaren Gebilde, als man in den KI-Ansätzen fand.

Ein großer Teil der Arbeit der Kybernetik zielte darauf, Lebewesen und Intelligenz zu verstehen. Lebewesen wurden als Maschinen modelliert, und von diesen Modellen hoffte man zu erfahren, wie Lebewesen durch Lernen ihr Verhalten ändern und wie das für den gesamten Organismus zu besserer Anpassung an die Umgebung führt. Man erkannte sehr früh (eine explizite Aussage gibt es zum Beispiel in Ashby 1952), dass ein Organismus und seine Umwelt zusammen modelliert werden müssen, um das Verhalten des Organismus zu verstehen * das ist eindeutig ein Ausdruck der Situiertheit. Werkzeuge der Rückkopplungs-Analyse wurden eingesetzt (Ashby 1956), um sich auf solche Fragen wie die Stabilität des Systems zu konzentrieren, wenn die Umwelt gestört ist, und insbesondere auf die "Homöostase" eines Systems, das heißt die Fähigkeit, bestimmte Parameter innerhalb vorgegebener Grenzen zu halten, ohne Rücksicht auf die unkontrollierten Abweichungen innerhalb der Umwelt.

Hinsichtlich Körperlichkeit gab es einige Experimente. Viele kybernetische Modelle von Organismen waren eher abstrakte Demonstrationen der Homöostase, aber manche befassten sich mit physischen Robotern. Walter (1950, 1951, 1953) beschreibt Roboter, die nach kybernetischen Prinzipien gebaut waren und zielstrebiges Verhalten, Homöostase und Lernfähigkeit bewiesen. Die Komplexität und die Fähigkeiten von Walters körperhaften Maschinen haben den gleichen Rang wie die rein imaginären in den ersten sechs Kapiteln von Braitenberg (1984) drei Jahrzehnte später.

Die limitierenden Faktoren bei diesen Experimenten waren zweifach: (1) die Technologie des Baus kleiner unabhängiger Roboter, wenn die Rechnerelemente Miniatur- (ein relativer Begriff) Vakuumröhren waren, und (2) das Fehlen von Mechanismen für das abstrakte Beschreiben von Verhalten auf einer Ebene unterhalb des vollständigen Verhaltens, so dass eine Implementation jene einfacheren Komponenten reflektieren konnte. Im ersten Beispiel wurden die Denkmodelle durch technische Hindernisse für die Einführung dieser Modelle begrenzt und im zweiten beschränkte das Fehlen bestimmter wichtiger Komponenten eines Modells (die Organisation in Submodule) die Fähigkeit, bessere technische Realisierungen herzustellen.

Abstraktion

Die Jahre unmittelbar im Anschluss an die Dartmouth-Konferenz formten das Gebiet der Künstlichen Intelligenz auf eine Weise, die sich nicht wesentlich geändert hat. Die nächsten Jahre vergrößerten die Abstraktion weg von der Situiertheit beziehungsweise der Verbundenheit mit der Welt. Es gab eine Reihe von Demonstrationen, die diese Abstraktion zu legitimieren schienen.

Am MIT führte Roberts ein Sehprogramm vor, das gespeicherte Modelle mit Bildern von Klötzen und Keilen vergleichen konnte (Roberts 1963). Dieses Programm war der Vorläufer aller modernen Sehprogramme, und erst viele Jahre später konnte seine Leistung von anderen erreicht werden. Es nahm ein graustufiges Bild der Welt auf und extrahierte aus ihm eine karikaturähnliche Zeichnung. Diese Zeichnung wurde dann mittels einer inversen Perspektivtransformation auf die gespeicherten Modelle übertragen. Jenen, die die Ergebnisse des Programms sahen, kam dies wie eine direkte und natürliche Möglichkeit vor, Bilder zu verarbeiten und (auf der Basis der gespeicherten Bibliothek) Modelle der objektiven Realität vor der Kamera herzustellen.

Leider trifft es jedoch zu, dass es außerordentlich schwierig ist, zuverlässige Zeichnungen bei irgendeiner Art realistischer Bilder zu extrahieren. In Roberts' Fall wurde die Beleuchtung sorgsam geregelt, die Klötze waren sauber lackiert, und der Hintergrund war sorgfältig ausgewählt. Die Bilder seiner Klötze brachten ziemlich vollständige Zeichnungen mit sehr wenig Störflecken hervor, wo es nach den Standards des menschlichen Beobachters keine Linienelemente geben sollte. Heute, nach fast 40 Jahren Forschung über Von-unten-, Von-oben- und Aus-der-Mitte-Liniensucher gibt es noch immer keinen Liniensucher, der bei einem einzelnen natürlichen Bild solche sauberen Ergebnisse erzielt. Bilder der realen Welt sind keinesfalls die sauberen Dinge, wie es uns unsere persönliche Selbstbeobachtung nahe legt.

Das Nebenprodukt von Roberts' Programm, das an einer sehr kontrollierten Reihe von Bildern arbeitete, war, dass man annahm, das Linienfindungsproblem sei beherrschbar und gelöst. Evans (1968) zitiert zum Beispiel Roberts in seiner Diskussion, wie man Input für sein Analogieprogramm erhalten könne, das Zeichnungen 2-D-geometrischer Figuren miteinander verglich.

Ende der 1960er und Anfang der 1970er Jahre bestätigte das Shakey-Projekt am Stanford Research Institute (SRI) die Prämissen der abstrakten Künstlichen Intelligenz. Shakey war ein mobiler Roboter, der besonders präparierte Räume "bewohnte". Er bewegte sich von Zimmer zu Zimmer und versuchte, ein Ziel zu erreichen, das ihm per Fernschreiber übermittelt worden war. Abhängig vom Ziel und den Umständen navigierte er um Hindernisse herum, die aus großen farbigen Klötzen und Keilen bestanden, oder schob sie aus dem Weg oder an einen gewünschten Ort.

Shakey hatte als Hauptsensor eine Schwarz-Weiß-Fernsehkamera. Ein externer Computer analysierte die Bilder und übertrug die Beschreibungen dessen, was zu sehen war, in ein vorhandenes Weltmodell in der Prädikatenlogik erster Stufe.

Ein Planungsprogramm, STRIPS, bearbeitete diese symbolischen Beschreibungen der Welt, um eine Aktionsfolge für Shakey aufzustellen. Diese Pläne wurden durch mehrere Verfeinerungen in ziemlich engen Rückkopplungsschleifen mit elementaren Wahrnehmungsoperationen in Aufrufe zu elementaren Aktionen umgesetzt, wobei Shakeys andere Sensoren, ein Stoßdetektor und ein Entfernungsmesser, benutzt wurden.

Shakey wurde damals als großer Erfolg angesehen, da er ein integriertes System vorführte, das Mobilität, Wahrnehmung, Darstellung, Planung, Durchführung und Fehlerkorrektur umfasste.

Shakeys Erfolg bestätigte somit die Idee, sich vollständig auf interne Modelle einer externen objektiven Realität zu stützen. Das ist genau die Methode, der er folgte, und sie erschien erfolgreich. Sie funktionierte jedoch nur aufgrund der sorgfältigen Gestaltung der Umgebung. 30 Jahre später ist kein mobiler Roboter vorgeführt worden, der alle Aspekte von Shakeys Leistung in einer allgemeineren Umgebung, zum Beispiel in einem Büro, erreicht hat.

Die Räume, in denen Shakey operierte, waren bis auf die großen farbigen Klötze und Keile leer. Dadurch war die Art der Objekte, die dargestellt werden mussten, sehr einfach. Die Wände hatten eine einheitliche Farbe und waren gut beleuchtet; dunkle Fußleisten aus Gummi bildeten eindeutige Grenzen zum helleren Fußboden. Das bedeutete, dass man durch sehr einfaches und stabiles Sehen der Zimmerecken, wo zwei Wände und der Boden zusammenkommen, die Bewegungen des Roboters bei Abweichungen in den Entfernungsmessungen korrigieren konnte. Die Seitenflächen der Klötze und Keile waren mit verschiedenen Farben lackiert. Dadurch war es relativ leicht, besonders bei der guten Beleuchtung, in den Bildern die Kanten zu finden, die die Oberflächen trennten, und die Form der Polyeder festzustellen. Es gab relativ wenige Blöcke und Klötze, was Probleme aufgrund teilweiser Verdeckung der Sicht beseitigte. Die objektive Realität der Umwelt war folglich sehr einfach, und die Abbildung auf ein internes Modell dieser Realität war ebenfalls ziemlich plausibel.

Zu etwa der gleichen Zeit wurde am MIT ein Roboter vorgeführt, der eine Szene aus aufeinander gestapelten Klötzen sehen und mit Hilfe eines Roboterarms eine Nachbildung dieser Szene herstellen konnte (vergleiche Winston 1972). Die Programme waren speziell für die Klötze entwickelt und hätten bei einfachen gebogenen Gegenständen, rauer Textur der Klötze oder ohne die sorgfältige Beleuchtung nicht funktioniert. Trotzdem bestätigte die Demonstration die Idee, dass eine vollständige dreidimensionale Beschreibung der Welt von einem Bild extrahiert werden kann. Sie legitimierte die Arbeit von anderen wie die von Winograd (1972), dessen Programme in einer imaginären Welt mit Klötzen arbeiteten * wenn man ein Programm entwickeln konnte, das eine solche Welt völlig verstand und auch diese Welt manipulieren konnte, dann wurde angenommen, dass Programme, die diese Abstraktion übernahmen, ohne große Schwierigkeit mit der realen Welt verbunden werden konnten. Es blieb das Problem der Langsamkeit aufgrund der großen Suchräume, aber wie schon zuvor waren schnellere Computer bereits in Sichtweite.

Das Hauptproblem bei all dieser Arbeit bestand darin, dass sie sich auf die Annahme stützte, ein vollständiges Weltmodell könne intern entwickelt und dann manipuliert werden. Die Beispiele von Roberts, Shakey und dem oben erwähnten MIT-Roboter stützten sich alle auf sehr einfache Welten und kontrollierte Situationen. Die Programme konnten unangenehme Probleme wie Sensorunsicherheit weitgehend ignorieren und wurden wegen der sorgfältig kontrollierten Wahrnehmungsbedingungen nie wirklich belastet. Kein Computer-Sehsystem kann Weltmodelle dieser Genauigkeit herstellen für etwas, das sich der Komplexität realistischer Weltszenen nähert * selbst Objekterkennung ist ein aktiver und schwieriger Forschungsbereich. Es gibt zwei Antworten darauf: (1) Maschinelle Bilderkennung wird schließlich aufholen und derartige Weltmodelle liefern * das ist seit 40 Jahren der Refrain, oder (2) komplette objektive Modelle der Realität sind unrealistisch * und damit sind auch die Methoden der KI, die sich auf solche Modelle stützen, unrealistisch.

Es ist interessant festzustellen, dass es bei zunehmender Abstraktion für die meisten KI-Forscher immer noch technisch schwierig war, mit der realen Welt in Verbindung zu treten. Ende der 1960er und Anfang der 1970er Jahre gab es eine dramatische Erhöhung der Verarbeitungsleistung der Computer, die den Forschern in angemessen ausgestatteten Labors zur Verfügung stand. Nicht nur erhöhte sich die Verarbeitungsgeschwindigkeit und die Speicherkapazität, sondern es etablierten sich auch Timesharing-Systeme. Ein Forscher war nun in der Lage, kontinuierlich und bequem an einem körperlosen Programm zu arbeiten, das dazu entworfen war, Intelligenz zu demonstrieren. Verbindungen zur realen Welt waren jedoch nicht nur schwierig und äußerst teuer, sondern die physischen Beschränkungen in ihrer Nutzung verlangsamten die Entwicklung der "intelligenten" Teile des Systems im Vergleich zu der neu gefundenen Macht des Timesharing um mindestens eine, wahrscheinlich zwei Größenordnungen.

Renaissance der Roboter

Etwa 1984 begannen mehrere Personen, sich mit dem allgemeineren Problem, Intelligenz zu organisieren, zu beschäftigen. Es gab die Forderungen, dass Intelligenz auf dynamische Aspekte der Umwelt reagieren, ein mobiler Roboter in einem Zeitrahmen, ähnlich dem von Tieren und Menschen, operieren und Intelligenz in der Lage sein müsse, angesichts unsicherer Sensoren, einer unvorhergesehenen Umgebung und einer sich ändernden Welt stabiles Verhalten zu erzeugen. Einige Haupterkenntnisse über die Organisation von Intelligenz waren folgende:

1. Der größte Teil dessen, was Menschen in ihrem Alltagsleben tun, ist keine Problemlösung oder Planung, sondern besteht aus Routineaktivitäten in einer relativ wohl gesonnenen, aber sicherlich dynamischen Welt. Ferner müssen sich die Darstellungen von Objekten, die ein Agent in der Welt benutzt, nicht auf eine semantische Korrespondenz mit Symbolen stützen, die der Agent besitzt, sondern können eher durch Interaktionen des Agenten mit der Welt definiert werden.

2. Ein Beobachter kann rechtmäßigerweise über die Überzeugungen und Ziele eines Agenten sprechen, selbst wenn der Agent zur Laufzeit keine symbolischen Datenstrukturen manipulieren muss. Eine formelle Gründung auf Semantik, die für das Design des Agenten benutzt wird, kann weginterpretiert werden.

3. Um Vorstellungen von Intelligenz wirklich zu testen, ist es wichtig, vollständige Agenten zu bauen, die in dynamischen Umgebungen operieren und reale Sensoren benutzen. Interne Weltmodelle, die vollständige Repräsentationen der externen Umwelt darstellen, sind * davon abgesehen, dass sie unmöglich erreicht werden können * keineswegs dafür notwendig, dass Agenten auf kompetente Art und Weise agieren. Viele der Aktionen eines Agenten sind gut trennbar * kohärente Intelligenz kann aus Subkomponenten entstehen, die in der Welt interagieren.

Maes (1990) liefert eine umfassende Sammlung der frühen Arbeiten, die auf diesen Ideen beruhen. Es war ein ziemlicher Sprung von den konventionellen Ansätzen zur KI. Die Systeme hatten keine expliziten Repräsentationen oder Symbole. Es gab keine Suche. Stattdessen machten alle Systeme ständige Zeitberechnungen * diese waren von dem Erfordernis diktiert, dass die Roboter in dynamischen Umgebungen operieren, und daher mussten alle Berechnungen in begrenzter Echtzeit durchgeführt werden.

Meine eigene Arbeit beruht seit 1984 auf diesen Ideen. Wir haben eine große Anzahl von Robotern entwickelt, bei denen die Intelligenz auf diesen drei Prinzipien beruht. Der erste Roboter, Allen, konnte sich in voll gestellten Räumen bewegen und dabei Personen umgehen, während er weiterhin sein Ziel verfolgte, an bestimmte Orte zu gelangen (Brooks 1986). Sein Leistungsniveau war um einige Größenordnungen höher als das anderer Roboter jener Zeit, die sich auf die Entwicklung kompletter interner Weltmodelle stützten. Die nächsten Roboter, die wir bauten, konnten sich in einer komplexen Umgebung bewegen und komplexe Aufgaben ausführen wie leere Sodadosen einsammeln. Brooks (1990) gibt einen Überblick über diese Roboter. Wir bauten einen sechsbeinigen Roboter, Genghis, der über sehr unebenes Gelände gehen konnte, wobei er sehr wenige Berechnungen benutzte, um das, was er mit seinen Sensoren wahrnahm, einzuordnen und einen geeigneten Weg zu planen (Brooks 1989). Später konstruierten wir Roboter, die in der Lage waren, Gäste durch das AI-Labor des MIT zu führen.

Mitte der 1990er Jahre erweiterten wir diesen Ansatz auf den Bau menschenähnlicher Roboter. In Brooks und Stein (1994) wird der Ansatz skizziert, und Brooks et al. (1999) berichten über unsere ersten Humanoiden. Bei all diesen Robotern haben wir ein völlig menschenähnliches Sehsystem für zwei Augen mit fovealem und peripherem Gesichtsfeld konstruiert. Das System ist fähig, Sakkaden durchzuführen und sich bewegenden Gegenständen zu folgen, und ermöglicht mit Hilfe eines Gyroskops im inneren Ohr einen Vestibular-okular-Reflex, der Augenbewegungen hervorbringt, um Kopfbewegungen zu ersetzen.

Der Roboter Cog ist ein Torso-Humanoid mit zwei Armen. Er kann in großer Nähe zu Menschen operieren, weil seine Arme einer federungsähnlichen Steuerung gehorchen und auf menschliche Interaktionen reagieren können. In Scassellati (2001) wird berichtet, wie die Grundlage für den Austausch zwischen Cog und Menschen hergestellt wird. Cog ist in der Lage, die Blickrichtung von Personen abzulesen und dorthin zu schauen, wohin sie blicken, sowie nach dem zu greifen, wonach sie greifen. Er kann auch Bewegungen, die er sieht, als lebhaft oder lahm einstufen und ist demzufolge fähig zu bestimmen, mit wem er wahrscheinlich Interaktionen haben kann.

Der Roboter Kismet ist ein Kopfroboter mit Gesichtsmerkmalen wie Augenbrauen, Lippen, einem Kinn und beweglichen Ohren. In Breazeal (2001) wird über seine Fähigkeit berichtet, nichtlinguistische Unterhaltungen mit sich natürlich gebenden Menschen zu führen. Kismet kann die unterschiedlichen Stimmen von Personen erkennen, ihre Gesichter und Augen finden und sich an Wortwechseln beteiligen. Der Roboter hat ein internes Emotionsmodell und zeigt seine Gefühle durch verbale Äußerungen und seinen Gesichtsausdruck.

Mit diesen Robotern haben wir gezeigt, wie die Grundlage einer zwischenmenschlichen Interaktion ohne detaillierte Weltmodelle und ohne die Notwendigkeit komplexer Denksysteme in einen Roboter eingebaut werden kann. Wir sind der Überzeugung, dass Menschen für ihre grundlegenden Interaktionen solche Fähigkeiten nicht benötigen oder benutzen.

Die Zukunft

Das technische Niveau der Konstruktion von Robotern ist jetzt so hoch, dass KI-Forscher einen Roboter ohne eine riesige Zeit- und Infrastrukturinvestition nutzen können. Das bedeutet, dass immer mehr traditionelle KI-Forscher anfangen, echte Roboter als Testfeld für ihre Ideen zu benutzen. Die Wiederverbindung der beiden Ansätze kann für das Gebiet der KI und die Zukunft der Roboter nur vorteilhaft sein. KI-Forscher müssen jedoch aufpassen, dass sie nicht der Versuchung unterliegen, die durch die heutige fast grenzenlose Computerleistung leicht entsteht. Einfach noch komplexere Algorithmen zu erzeugen muss nicht notwendigerweise heißen, dass man Einsichten in die Grundlagen der Probleme der menschlichen Existenz gewonnen hat.

Anmerkung

Die Teile dieses Aufsatzes, die die Vorgeschichte behandeln, stützen sich zum großen Teil auf einen früheren Aufsatz von mir (Brooks 1991).