Über Jahrzehnte war die KI Forschung von Misserfolgen geprägt die Resultat waren einer selbstgewählten Perspektive auf Künstliche Intelligenz. Die Zielstellung der Forscher bestand darin, eine Technologie zu entwickeln welche denken kann. Also eine Maschine, oder noch besser einen Computer, der geistige Leistungen ausführen kann. Dieser Bias ist naheliegend weil es zugleich auch die Vorstellung von Robotern ist welche in Romanen von isaac Asimov transportiert wird.
Was die KI Forscher vor dem Jahr 2010 jedoch nicht wussten bzw. verdrängt haben, war die bittere Erkenntnis dass das selbstgewählte Ziel nicht erreichbar ist. KI ist zwar grundsätzlich möglich, aber nicht als geschlossenes technologische Artefakt. Um die Leistungsgrenzen geschlossener Systeme zu veranschaulichen zunächst ein kleiner Exkurs wann dieses Konzept funktioniert.
Die meisten Erfindungen der Menschheit funktionieren als geschlossenes System: dazu zählt die mechanische uhr, die Dampfmaschine, die Schnellpresse von König&BAuer, das Automobil der Mikroprozessor, und Software wie z.b. das Windows Betriebssystem. Ein geschlossenes System ist demnach historisch gesehen die beste Methode wie man eine Technologie entwickelt. Man definiert zuerst einmal was die Maschinen können soll, z.b. soll ein Auto auf einer Straße fahren, und überlegt sich dann welche Bauteile man in die Maschine einbauen muss damit die Aufgabe erfüllt wird.
Der Vorteil von geschlossener Systeme ist, dass damit die Komplexität gesenkt wird, z.b. besitzt ein Elektromotor eine Breite und eine Höhe in Centimetern und was sich innerhalb dieser Abmessungen befindet gehört zur Maschine. Auf dieses physische Artefakt fokussiert man dann die Entwicklung und überlegt welche Materialien oder physikalischen Prinzipien wirken.
Auch bei der Softwareentwicklung wird das Prinip eines geschlossenen Systems verwendet. Eine Software besteht aus einem Source code der wiederum in Dateien unterteilt wird. In diesem Sourcecode ist die Funktionsweise der Software definiert. Alles was nicht im Sourcecode steht wird ignoriert. Es liegt außerhalb des System und ist für die Funktionsweise ohne Bedeutung. Stattdessen geht es darum, besagten Sourcecode zu optimieren, also effizientere Algorithmen zu verwe4nden, weniger Codezeilen zu verbrauchen udn vorhandene Fehler zu beseitigen.
Die unreflektierte Annahme der KI Forschung vor dem Jahr 2010 lautete, dass Robotik und KI nach demselben Prinzip funktioniert. Die Idee war, dass KI eine Art von Algorithmus sei, der innerhalb des Sourcecode definiert wird. Folgerichtig wurde versucht einen Roboter in einer Programmiersprache wie C/C++ zu programmieren. Relativ spät erkannten die Forscher dass genau dieser Ansatz problematisch ist. Damit ein Roboter intelligent in einer Umgebung agieren kann, muss der Roboter mindestens so komplex sein wie diese Umgebung. Eine KI zu programmieren die den kürzesten Weg in einem Labyrinth findet ist überschaubar, aber eine KI welche einen Roboter in der physischen Realität steuert ist eine unüberwindliche Aufgabe. Das benötigte Software programm für so einen Roboter würde sehr viele Codezeilen benötigen und selbst diese könnten nicht die komplexe Realität abbilden.
Eine Zeitlang gab es innerhalb der Robotik-Forschung eine wirkmächtige Antwort auf das Phänomen, genannt Model predictive control. Die Idee war, die Realität als vereinfachte Physiksimulation in Software nachzubauen, in dieser Simulation Prognosen auszuführen und dadurch dann die beste Entsheidung zu treffen. In den 2000er Jahren gab es mehrere Projekte wo mittels Model predictive control, Dronen gesteuert wurden und sogar grasp planning realisiert wurde. Leider ist model predictive control sehr rechenaufwendig. Eine halbwegs präzise physik Simulation benötigt sehr viele CPU Taktzyklen, gleichzeitig braucht aber der KI eine Prognose mehrmals pro Sekunde um auf Veräderungen zu reagieren. Model predictive control funktioniert nur auf dem Papier, aber nicht auf echter Hardware, speziell die Vorhersage längerer Zeiträume bis Minuten in die Zukunft sind technisch nicht umsetzbar.
Abstrakt gesagt entstehen durch geschlossene Systeme in der KI Forschung zwei grundsätzliche Probleme: a) hohe Komplexität des Source codebode b) hoher Rechenaufwand bei der Ausführung von Algorithmen und der Model predictive Control Vorhersagen.
Anfangs dachten die Forscher, beide Problemen wären lösbar. Das war Wunschdenken. Es ist nicht durchführbar einen Roboter zu programmieren der hundertausende Codezeilen benötigt, und hohe Anforderungen an die CPU gleichzeitig hat. Ein solches Projekt wird in der REalität scheitern.
Betrachten wir geschlossene Systeme etwas genauer. Im wesentlichen Funktionieren diese Systeme nach Naturwissenschaftlichen Prinzipien. Ein Elektromotor verwendet einen Magneten um eine Drehbewegung zu erzeugen, während ein Mikroprozessor über elektrischen Strom kleine Transistoren schaltet. Es gibt also jeweils ein physikalisches Prinzip was in einer Maschine praktisch angewendet wird. Dadurch dreht sich ein Motor, der Computer beginnt zu rechnen oder ein Flugzeug fliegt durch die Luft. Man glaubte anfangs, dass Künstliche Intelligenz auf ähnliche Weise realisiert werden könnte, das es also ein wissenschaftlich-technisches Prinzip gibt was man in einem Softwareprogramm anwenden kann um darüber Roboter zu steuern. Was die Forscher vor dem Jahr 2010 nicht wussten war dass es ein solches Naturprinzip nicht gibt, das es also nicht möglich ist, auf diese Wweise Künstliche Intelligenz zu erzeugen.
Eine mögliche Erklärung warum die KI Forschung bis ca. 2010 sich auf geschlossene Systeme fokussierte ist, dass die Informatik insgesamt nach diesem Muster funktioniert. Definitionsgemäß untersucht Informatik die Funktionsweise von Computern, also speziell die Hardware und die Software. Damit ist zugleich definiert wofür die Informatik nicht zuständig ist. Alles was keine Computerhardware ist und nicht smit Software zu tun hat, liegt außerhalb der Informatik und entzieht sich einer wissenschaftlichen Analyse.
Diese Einschränkung ist für die klassische Informatik kein Problem und sogar erwünscht weil es dabei hilft echte Probleme zu lösen, also z.b. neue CPU zu entwickeln, bessere Programmiersprachen zu erfinden oder Betriebssysteme zu entwickeln. All diese Thmene sind entweder im Bereich Hardware oder im Bereich Software angesiedelt.
June 18, 2026
Nochmal: Geschlossene Systeme -- KI Forschung bis zum Jahr 2010
Typst als Ersatz für LaTeX
LaTeX gilt seit den 1980er als defakto Standard unter Unix um wissenschaftliche Dokumente zu formatieren. Bersonders bei sehr umfangreichen Dokumenten die ein einheitliches Layout erhalten sollen, hat LaTeX seine Stärke. Trotz der gewöhnungsbedürftigen Syntax gilt es als leicht zu erlernen und lange Zeit gab es keine wirkliche Alternative zu dieser Software.
Seit einiger Zeit hat sich die unscheinbare Typst Software zu einem ernstzunehmenden Ersatz für LaTeX etabliert. Die Syntax von Typst ist ähnlich wie markdown aufgebaut und beinhaltet Kommandos um float-Abbildungen einzufügen, Tabellen zu erstellen, preformatted Text auszugeben sowie eine automatische Gliederung zu erstellen. Die wesentlichen Verbesserungen von typst gegenüber LaTeX sind:
- es benötigt nur 50 MB auf der Festplatte anstatt 5 GB
- die Syntax ist einfacher und logischer
- das Übersetzen einer Typst datei in eine PDF Datei dauert weniger als 1 Sekunde
Der einzige Grund warum Typst bisher LaTeX noch nicht verdrängt hat ist die Gewohnheit der Nutzer. Die LaTeX Community gilt als konservativ und viele nutzen die Software seit den 1980er Jahren also seit über 40 Jahren. Das macht den Wechsel auf eine andere Plattform aufwendig.
Es gibt jedoch einen simplen Trick wie der Umstieg auf typst gelingt. Und zwar mit der selben Methode wie man auf neue Technologie generell wechselt: man löscht die veraltete Software von der Software und gewinnt so Freiraum sich auf etwas neues einzulassen. In Linux lautet der Befehl:
apt remove texlive*
Der Vorteil von typst ist dass das Projekt sehr viel aufgeräumter wirkt. Es fehlen unzählige veraltete Pakete die historisch bedingt sind, stattdessen wurden die meisten features fest in die Software einprogrammiert. Ähnlich wie bei LateX auch haben Neueinsteiger mit einer gewissen Lernkurve zu kämpfen. Man muss sich erstmalig durch die Dokumentation kämpfen um so eine Minimal Datei zu erstellen, welche die gewünschten Layout einstellungen beinhaltet. Man definiert z.b. die Seitengröße A4, legt den gewünschten Systemfont fest, definiert einige Tabellenparameter wie z.b. liniendicke und definiert die Häufigkeit der Silbentrennung. Sind diese vorarbeiten einmal erledigt, kann man die selbe Rumpfdatei nutzen um damit beliebig viele PDF Dokumente zu erstellen. Ähnlich wie bei LaTeX müssen Autoren nur den Text eingeben und die Software rendert die Darstellung auf dem Bildschirm.
Und das macht typst ausgesprochen gut, im Regelfall sind die Abbildungen sinnvoll platziert und auch der Blocksatz sieht halbwegs professionell aus. Die Qualität ist nicht ganz so optimiert wie bei pdflatex, es gibt also durchaus noch Verbesserungsmöglichkeiten. Aktuell ist derzeit die typst version 0.15 vom Juni 2026.
June 15, 2026
Geschlossene KI Systeme vor dem Jahr 2010
Auch vor dem Jahr 2010 wurde bereits an Robotik geforscht. Eine typische Robotik-Software aus dieser Epoche beinhaltete fplgenden Befehl:
if (distance_to_wall < 10) { slowdown(); }
Mit dieser und weiterer Regeln wurde die Onboard Intelligenz eines Roboters fest im Programmcode definiert. Leider waren die Roboter nicht im Imstande sinnvoll zu agieren. Deshalb wurde versucht die Anzahl der Codezeilen immer weiter zu erhöhen um für jede Eventualität ein Untermodul vorzuhalten.
Das Grundproblem wurde vor dem Jahr 2010 nicht erkannt. Es besteht darin, dass die interne Komplexität eines Roboters ansteigt wenn die äußere Komplexität erhöht wird. Industrieroboter die in einer berechenbaren Umgebung eingesetzt werden, können über obige C/C++ Programmlogik noch halbwegs sinnvoll realisiert werden, aber mobile Roboter in einem Labyrinth oder gar selbstfahrende Autos sind mit dieser Technik nicht möglich. Die Umgebung ist viel zu kompleziert, um dafür eine zuverlässige Steuersoftware zu programmieren.
Ab dem Jahr 2010 wurde deshalb eine neue Richtung in der Robotik eingeschlagen die kurz erläutert werden soll. Die Grundidee besteht darin, Intelligenz auszulagern, also weg vom Roboter hin zur Umgebung des Roboters. Damit kann die Steuersoftware des Roboter minimalistisch gestaltet werden. Die Hauptaufgabe des Roboters besteht nur noch darin, Befehle die von einem operator oder von sensoren kommen zu parsen. Der Roboter muss nicht länger Entscheidungen treffen oder gar die Umgebung intern simulieren, wie das bei Model predictive control der Fall ist. Abstrakt gesprochen verwandelt sich ein geschlossenes KI System in ein offenes KI system.
Der Ansatz die interne Logik des Roboters auszulagern war ein längerer Innovationsprozess in der KI Community. Angestoßen wurde er von Rodney Brooks mit seiner subsumption architektur. Im wesentlichen geht es darum, die komplexität eines Roboters zu senken. Die neuartige minimalistische Softwarearchitektur kann nur mittels Fernsteuerung funktionieren, das es also außerhalb des Roboters eine höhere Instanz gibt die stellvertretend für den Roboter Kamerabilder auswertet, Entscheidungen trifft und Pläne durchprobiert.
Technisch gesehen ist der Paradigmenwechsel sehr einfach: anstatt einen denkenden Roboter zu realisieren, funktioniert der Roboter als Parser der Befehle von außen ausführt. Es ist also kein Roboter im engeren Sinne sondern ein ferngesteuertes Auto das auf Kommandos reagiert. Philosophisch gesehen ist so ein Ansatz jedoch weitaus schwieriger zu realisieren, weil er mit der gängigen Vorstellung von Intelligenz bricht. Über Jahrezehnte wurde Intelligenz als die Fähigkeit verstanden eigenständig Probleme zu lösen. Das trifft auf ferngesteuerte Roboter jedoch nicht zu. Ein Ferngesteuertes Auto wo ein Mensch über Tasten oder Sprache Befehle eintippt ist definitionsgemäß nicht intelligent, fällt also nicht in den Bereich der KI Forschung.
Dennoch ist genau jenes Interaktionsmuster zur Leitdisziplin der Robotik ab dem Jahr 2010 aufgestiegen. Eigenltich jedes moderne Robotik Projekt basiert auf Vision language action modellen, instruction following und VQA Benchmarks. Es gibt keine Versuche mehr, Roboter als autonome Systeme zu konstruieren, sondern 100% aller Robotik-Projekte funktioniert über Intelligence offloading mittels natürlicher Sprache. DAs also außerhalb des Roboters eine Software oder ein Mensch Befehle eingibt die vom Roboter lediglich in Handlungen übersetzt werden.
Obwohl der Ansatz zunächst umstritten war hat er einen Entscheidenen Vorteil: er ist minimalistisch. Ein ferngesteuertes System zu realisieren ist weitaus leichter als ein autonomes System zu bauen. Besonders bei komplexen Aufgaben und unstrukturierten Umgebungen kommt dieser Vorteil zum Tragen. Das einzige Detailproblem bei semi-autonomen Systemen besteht darin die Aufgabenverteilung zwischen Roboter und menschlichen Operator auszubalanzieren, also dafür zu sorgen dass die interaktion über high level kommandos erfolgt und so die workload für den Menschen möglichst gering ist. Hier eine Rangfolge:
- hoher Workload: Fernbedienung mit Tasten ohne Befehle
- mittlerer Workload: es werden Waypoints in einer Karte vorgegeben die der Roboter abfährt
- geringer Workload: es wird ein Text prompt an den Roboter gesendet wie "fahre im Kreis".
KI von 2010 bis 2020
Bis ungefähr zum Jahr 2010 verlief die KI Entwicklung enttäuschend. Es war nicht gerade ein dezidierter AI Winter, aber insgesamt galt KI als unlösbare Aufgabe und es gab keine Technologie auf die man aufbauen konnte. Das änderte sich ab ca. 2010 schlagartig. In diesem Jahrzehnt gab es eine Vielzahl von Meilensteine, die auch heute noch relevanz haben:
2011 IBM Watson
2012 Alexnet bilderkennung
2016 Alphago
2017 GAN network
2018 BERT Sprachmodell
2019 GPT-2 text generator
Es ist nicht übertrieben die Zeit nach 2010 als den Beginn der modernen state of the Art KI Entwicklung zu beschreiben. Die neuronalen Netze, Datasets und Roboter ab diesem Zeitraum haben die Grundlagen gelegt für heutige leistungsfähigere Systeme. Zwar war in den 2010er KI noch nicht im Mainstream angekommen, aber es begann sich für Experten auf dem Gebiet abzuzeichnen dass KI grundsätzlich realisierbar ist.
June 14, 2026
Wie man Künstliche Intelligenz erneut erfindet
Die Erforschung der KI war von 1900 bis 2010 von vielen Rückschlägen und gescheiterten Projekten geprägt. Mit der gewonnenen Erfahrung lässt sich im Nachhinein ermitteln wie man das Gebiet der denkenden Maschinen hätte effizienter und früher entwickeln können. Im Zentrum steht die Beobachtung dass künstliche Intleligenz weniger in einem Algorithmus besteht sondern in der Messung der Leistungsfähigkeit besteht. Z.B. gab es in den 1990er Jahren dezidierte Datasets um Handschriften per OCR zu erkennen und seit den 2020 gibt es weitere Datasets für das Visual question answering Problem.
Ein KI Benchmark besteht üblicherweise aus einer längeren tabelle mit Frage/Antwort paaren welche von KI beantwortet werden müssen und zu einem Punktestand führen. ziel ist es, eine Software oder ein neuronales Netz zu entwickeln was den Punktestand maximiert. Es ist dabei fast egal wie genau ein neuronales Netz intern arbeitet, sondern worum es geht ist dass man den Punktestand objektiv ermittelt. Dadurch wird Künstliche Intelligenz zu einer Wissenschaft, die mit statisischer Verfahren untersucht werden kann.
Selgst ein neuraonles Netz was in einem Test scheitert, also nicht im Stande ist für ein gezeigtes Bild das passende Wort auszugeben, ist wissenschaftlich gesehen ein wertvoller Fakt weil es dabei hilft künftige Neruonale Netze zu entwickeln, die diese Aufgabe zu lösen im Stande sind.
Bis in die 2000er Jahre war weitestgehend unklar was Künstliche Intelligenz ist oder wie man es praktisch realisiert. Es gab zwar viele Bücher und mehrere Robotik-Projekte die sich der Erforschung denkender Maschinen verschrieben haben, doch es fehlt an einer zentralen Idee, einem Algorithmus oder an einer bestimmten Hardware um konkrete Fortschritte zu realisieren.
Dies änderte sich ungefähr ab dem Jahr 2010. Die Arbeitsthese lautet, dass sich die Vielzahl der Bemühungen KI zu realisieren auf einen Punkt fokussieren lassen und zwar die Entwicklung eines Benchmarks zur Ermittlung ob eine Maschine grounded language versteht. Die zentrale Idee zur Realisierung künstlicher Intelligenz ist also eine besondere Form des Turing Tests der die sprachlichen Fähigkeiten eines Computers überprüft.
Dieser Test bzw. Benchmark war vor dem Jahr 2010 nicht verfügbar. Der Test ist kein Algorithmus, kein Source code wie das Linux Betriebssystem und auch kein Computerchip wie z.B. eine Pentium CPU sondern es handelt sich um eine Idee die man schriftlich notieren kann und wozu man einen konkreten Wettbewerb entwickeln kann. Ein einfaches Beispiel ist:
"In einem Labyrinth soll ein Roboter über Sprachliche Kommandos gesteuert werden: is_obstacle, check_battery, move forward, rotate left/right. Programmiere diesen Roboter in einer beliebigen Programmiersprache".
Es handelt sich um eine überschaubare Programmieraufgabe, die Ähnlichkeit hat mit dem Karel the robot Projekt aus den 1980er Jahren. Es handelt sich aus wissenschaftlicher Sicht um einen instruction following benchmark. Das heißt der Roboter reagiert auf eine vorgegebene Anzahl von Kommandos die von einem menschlichen Operator gesendet werden. Die KI ist demnach ein Parser-Modul was die Kommandos auswertet und in Handlungen umsetzt. Wenn der Roboter alle Befehle verarbeiten kann wurde der Benchmark erfolgreich bearbeitet.
Der Clou dabei ist, dass sich der Benchmark hochskalieren lässt. Was in einem 2d Labyrinth funktioniert, funktioniert ebenso bei einem biped roboter, einem humanoiden Roboter, oder einer UAV Drone. In jedem Fall wird eine Liste von Textkommandos vorgegeben die vom Roboter ausgeführt werden. Die Kommandos haben etwas mit der Abfrage der Sensoren zu tun, genauso wie man Planung und der Motorsteuerung. So ein Benchmark ist nach der obigen These, das zentrale Element moderner KI wie sie ab dem Jahr 2010 verfügbar ist.
Der einzige Diskurs innnerhalb der KI Community erfolgt darüber wie im Detail so ein Benchmark ausgestaltet ist, also welche Robotik-Domän verwendet wird, wieviele Befehle der Roboter verstehen soll, ob die Umsetzung über ein C/C++ Programm oder ein neuronales Netz erfolgt usw. Es geht in jedem Fall darum den Benchmark zu erfüllen. Darüber demonstratiert der Roboter Intelligenz.
Diese strikte Definition des Benchmarks ist etwas neuartiges. Hätte man vor dem Jahr 2010 die These formuliert, dass Intelligenz darin besteht textuelle Komamandos auszuführen wie in dem "Karel the robot" Projekt, hätte der Autor des Papers wohl Ablehnung durch seine fachkollegen erfahren. Vor dem Jahr 2010 wurde Künstliche Intelligenz anders defninert und zwar als dessen Gegenteil, also a) Abwesenheit von natürlicher Sprache und b) Abwesenheit von Teleoperation.
June 13, 2026
Der letzte KI Winter von 2000-2010
Die Zeitepoche von 2000 bis 2010 eignet sich ausgezeichnet um das scheitern früherer Versuche zu beschreiben, Künstliche Intelligenz zu erforschen. Ähnlich wie die Jahrzehnte davor gab es mehrere KI Projekte sowohl in der Industrie als auch akademischer Natur, die ähnlich wie die Projekte in den 90er und 80er ohne Erfolg verliefen:
- semantic web von Tim Berners Lee
- Cyc von Douglas Lenat
- WordNet für maschinelle Übersetzung
- DARPA Grand Challenge
- kognitive Architektur wie SOAR
- Roboter ASIMO von Honda
Zwar wurden im Rahmen dieser Projekte lauffähige Software entwickelt und Datenbanken erstellt. Es gibt zu Cyc und zum Semantic Web viele praktische Beispiele. Auch das selbstfahrende Auto Stanley von Sebastian Thrun ist tatsächlich autonom gefahren und wurde über Software gesteuert. Nur waren die verwendeten Technologien nicht skalierbar und ohne praktische Bedeutung. Die normale Internettechnologie bestehend aus HTML funktioniert stabil genug ohne dass man eine Erweituerng namens Semantic web benötigte, und die Wordnet Datenbank hatte eine zu geringe Qualität um damit Texte zu übersetzen.
Man kann sagen, dass die Zeitspanne von 2000 bis 2010 eine verlorene Dekade für die KI Forschung war. Es wurde viel ausprobiert, es gab namenhafte Forscher die sich näher mit der Thamatik beschäftigten, aber es gab keine Durchbrüche oder anwendungsbereite Demonstrationen im eigentlichen Sinne.
Auf den ersten Blick klangen die o.g. KI Projekte vielversprechend. Der Ansatz ein selbstfahrendes Auto zu bauen was gegen andere Autos in einem Wettrennen antritt hört sich nach einer spannenden Herausforderung für die Robotik an. Und die Idee common sense knowledge in einer Cyc Datenbank zu bündeln erscheint wie der durchdachte Versuch eine denkende Datenbank zu erschaffen. Dennoch stellte sich heraus, dass die Konzepte fehlerhaft waren. Sie verkörperten Sackgassen, die einmalig beschritten wurden und dann nicht weiter verfolgt wurden.
DIe Geschichte der Künstlichen Intelligenz verkörpert wie keine andere Wissenschaft eine Abfolge von gescheiterten Bemühungen. So ähnlich als wenn wenn mehrere Bergsteiger einen Berg auf sehr unterschiedliche Weise besteigen wollen, aber keinem gelingt auch nur die erste Etappe zu meistern.
Man kann das Scheitern anhand mehrerer Parameter erklären. Entweder ist die benötigte CPU Rechenleistung um einen Algorithmus auszuführen zu groß. Dies ist bei den meisten Pfadplannungsalgorithmen in der Robotik inkl. model predictive control der Fall. In der Theorie könnte man den game tree über einen Algorithmus durchprobieren so wie man Computerschach spielt, doch in der Realität sind physische Computer des Jahres 2010 dafür zu langsam. Also ist der Ansatz nicht praktikabel. Ein weiteres objektives Kennzeichen für ein scheitern ist der hohe manuelle Aufwand der beim Erstellen von Datenbanken wie wordnet oder Cyc anfällt. Es ist schlichtweg zu teuer über Jahre hinweg manuell eine Datenbank zu erstellen die dann keinerlei Nutzen erbringt. Ein weiteres Kennzeichen für gescheiterte KI projekte ist der hohe Programmieraufwand gemessen in lines of code. So wurden für die DARPA Grand Challenge mehrere 100k lines of code erstellt und zwar von jedem teilnehmenden Team einzeln. All diesen Code in C/C++ zu erstellen und zu warten ist ein hoher Aufwand insbesondere wenn man den code nicht erneut verwenden kann sondern er stark auf ein konkretes Auto und ein konkretes Team zugeschnitten wurde.
Die genannten Probleme des hohen Rechenbedarf, des manuellen Aufwandes beim Datenbank-Erstellen und das manuelle Erstellen des Source code waren wohl von 2000 bis 2010 bekannt, aber es war unklar wie man den Aufwand senken kann.
Als kleiner Ausblick auf die Zeitpsanne ab 2010 soll kurz erläutert werden, welche Ansätze nicht verfügbar waren.
- Ferngesteuerte Roboter
- Datasets um neuronale netze zu trainieren
Beide Themen wurden als unwichtig definiert. So wurden ferngesteuerte Robotik nicht als erstrebenswert angesehen, weil laut selbstgewähltem Ziel es darum ging autonome algorithmengesteurte Roboter zu entwickeln aber keine RC cars zu bauen. Auch dem Thema Datasets und preprocessing wurde keine Aufmerksamkeit gewidmet. Es wurde angenommen dass künstliche Intelligen im neuronalen netz verortet sei und die Datenqualität unwichtig wäre mit der das NEtz trainiert wird.
Es finden sich in der Literatur vor 2010 durchaus Beispiele wo remote control roboter diskutiert wurden und wo das erstellen von größeren Datasets thematisiert wurden, aber diese Ansätze galten als Randthemen ohne Relevanz für die weitere Erforschung der Künstlichen Intelligenz. Das änderte sich ab 2010 grundlegend und zwar deshalb weil man mit den bisherigen versuchen in einer Sackgasse steckte und daraufhin die Prioritäten in der Forschung neu justierte.
June 12, 2026
VLA models -- the upcoming revolution in AI
Since the year 2023, there are Large language models (LLM) available which are soem sort of advanced chatbots. A LLM can answer question, programs a computer code and can paint an image. Even if these systems are looking powerful there is a much more advanced technology available not released yet which is a VLA model.
VLA stands for vision language action model. It can handle text in combination with robotic action which is needed to control biped robots and drones both. The user interface looks similar to a LLM because there is a text box and the user enters a prompt. The difference is, that the AI software will convert the prompt into action. An example prompt might be "walk in a circle" "bring me the red ball".
Similar to a LLM, a VLA Model works with natural language. The AI won't do anything by its own but its a text based interaction between human and machine. The innovation is, that the output of the AI isn't restricted to a text window on the monitor but the AI has access to servo motors in the reality or can control ingame characters in a videogame. Such kind of AI is available in research prototypes and was described in academic papers but its not available as commercial product for everyone.
Current LLM can simulate the behavior in parts today. Its possible to upload a JPEG image to the internet and the AI can describe the picture with words. Such kind of picture to text annotation seems a bit useless, because its obvious what is shown on the picture. So the feature is used seldom in the reality. Only in combination with actuator control of a robot it makes sense to annotate pictures. Because the robot needs to transform the camera signal into text and then take decisions in response to the information.
AI the big picture
AI isn't new but was researched since decades by multiple researchers. They have investigated andless amount of theories and algorithms for different subjects. To get a better picture what the AI community has researched in the past, the working thesis is, that there was a transition from closed systems in the past, to open systems in the present time. This working thesis should be explained briefly.
A closed system is the natural understanding in computing. It assumes that a software runs on a computer, and the programmer has to write down the source code including the algorithm. A typical example is a model predictive control algorithm which takes a physics engine to predict future states, or a path planning algorithm like RRT which searches for the shortest path. These approaches are imitating classical computer science paradigm which are working with the same technique.
The idea of a closed AI system is to grasp the reality in mathematical terms and write a computer program which solves a mathematical optimization problem. Such kind of appraoch was common in AI history until the 1990s. The only debate was about which algorithm was prefered, for example neural network or an alpha beta pruning algorithm.
It should be mentioend, that closed systems are not powerful enought to tackle advanced probloems. Especially in the domain of robot control, the paradigm fails every time, because of the state space explosion. There is no algorithm available which can handle millions of joint configurations of a biped robot. That was the reason why some pessimistic AI researchers in the past have assumed, that its not possible to solve np hard problems in AI.
A more powerful paradigm is an open system. Early examples are motion capture systems from the 1980s which are recording the position of markers in real time. Such a system is open because it tries to capture data from the environment, here mocap data. Another example of an early open system are text adventures like Zork I which puts also a great priority on human to machine interaction. Modern open systems developed after the year 2000 are using advanced interfaces based on text and sensory data. These systems are open because the input send to the computer is the most important information. A human operator might speak "Move to north and grasp the blue box". or another human operator might demonstrate a walking pattern in a motion capture suite and the robot has to repeat the trajectory. In open systems, the man to machine interaction stands in the center of attention. Possilble technologies like certain algorithms, a certain neural network or a database is groupoed around this principle. For example, a neural network might used to deterect the mocap markers, while a SQL database is used to store the realtime data, and then a rendering algorithm might fetch the database and paint the human pose on the screen.
From a technical perspective, these algorithms are trivial and most of them were available before the 1990s. The innovation is the context in which they are used which is human to machine interaction. The existing software libraries are not used to build closed systems e.g. a genetic algorithm which tries to improve itself, but they are used to parse textual input or annotate sensor data with textual [tags].
June 10, 2026
Matching game in python
The font-name needs to be adjusted according to the operating system, otherwise only a question mark is shown in the window.
import pygame
import sys
import time
# Pygame initialisieren
pygame.init()
# Fenstergröße
WIDTH, HEIGHT = 640, 480
screen = pygame.display.set_mode((WIDTH, HEIGHT))
pygame.display.set_caption("Emoji-Text-Matching")
# Farben
WHITE = (255, 255, 255)
BLACK = (0, 0, 0)
BLUE = (0, 0, 255)
# Schriftarten (mit Unicode-Unterstützung)
# font_large = pygame.font.SysFont("Segoe UI Emoji", 120) # Für Emoji Windows
font_large = pygame.font.SysFont("Noto Color Emoji", 150) # Für Emoji Linux
font_small = pygame.font.SysFont("Arial", 30) # Für Text
# Emoji-Text-Paare (20 Einträge)
pairs = [
("🐶", "Hund"),
("🐱", "Katze"),
("🐭", "Maus"),
("🐹", "Hamster"),
("🐰", "Hase"),
("🦊", "Fuchs"),
("🐻", "Bär"),
("🐼", "Panda"),
("🐨", "Koala"),
("🐯", "Tiger"),
("🦁", "Löwe"),
("🐮", "Kuh"),
("🐷", "Schwein"),
("🐸", "Frosch"),
("🐵", "Affe"),
("🐒", "Affe2"),
("🐺", "Wolf"),
("🐗", "Wildschwein"),
("🦊", "Fuchs"),
("🐝", "Biene"),
("🐛", "Raupe"),
("🔪", "Messer"),
("🔦", "Taschenlampe"),
]
# Position für Emoji und Text (zentriert)
emoji_x, emoji_y = WIDTH // 2, HEIGHT // 3
text_x, text_y = WIDTH // 2, emoji_y + 150
# Hauptspielschleife
def main():
clock = pygame.time.Clock()
running = True
current_pair_index = 0
while running:
for event in pygame.event.get():
if event.type == pygame.QUIT:
running = False
# Hintergrund
screen.fill(WHITE)
# Aktuelles Paar anzeigen
if current_pair_index < len(pairs):
emoji, text = pairs[current_pair_index]
# Emoji groß anzeigen
emoji_surface = font_large.render(emoji, True, BLACK)
emoji_rect = emoji_surface.get_rect(center=(emoji_x, emoji_y))
screen.blit(emoji_surface, emoji_rect)
# Text darunter
text_surface = font_small.render(text, True, BLUE)
text_rect = text_surface.get_rect(center=(text_x, text_y))
screen.blit(text_surface, text_rect)
# Nächstes Paar nach 1 Sekunde
time.sleep(1)
current_pair_index += 1
else:
# Alle Paare gezeigt: Beenden oder neu starten
font_done = pygame.font.SysFont("Arial", 40)
done_text = font_done.render("Alle Paare gezeigt!", True, BLACK)
done_rect = done_text.get_rect(center=(WIDTH // 2, HEIGHT // 2))
screen.blit(done_text, done_rect)
# Aktualisieren des Displays
pygame.display.flip()
clock.tick(30)
pygame.quit()
sys.exit()
if __name__ == "__main__":
main()
June 07, 2026
What is Artificial Intelligence?
In contrast to a famous myth, there is an answer available to this question because researchers have investigated the subject for decades. The most famous and easy to understand definition aka introduction towards the subject is a computer chess player. The computer is able to decide for the next move on the board and a modern chess program can beat even a grandmaster.
Computer chess explains at the same time, what current Artificial Intelligence can't provide yet. There is a difference available between a program like gnuchess and a robot. Gnuchess is only able to play chess, while a robot has to do more complex tasks. AI research since the 1980s was devoted towards the goal to improve the skills of a computer.
A promising approach is a reward function based on grounded language. In contrast to a fixed reward function which is used in computer chess, a parametric reward function based on natural language can be modified on the fly. This allows a computer to understand instrauctions like "move to the blue box and grasp it". This command is translated into a reward signal and the computer can plan a trajectory to maximize the reward.
Let us compare computer chess with instruction following in robotics. Computer chess is based on a single fixed evaluation function which converts the current board into a reward signal e.g. 0.4. This numerical information is used by the alpha beta prunning algorithm to find the optimal action. The planner is traversing the game tree upt to 10 steps into the future and decides for an action which maximaizes the reward. This is equal to win the game.
In contrast, instruction following in robotics is offloading the reward signal to a speaker located outisde of the robot. The speaker, determines by its command what the current subgoal is in the game. A possible command might be:
1. "if the battery is empty search for the charging station"
2. "grasp the red box"
3. "bring the red box into room C".
In contrast to the game of chess which has a single goal which remains the same, a warehouse robot can have multiple goals which are acivated in a sequence. The AI makes sure, that the robot understands a goal, in a mathematical sense. Understanding means, that the robot determines the numerical reward for a textual command. For example, if the goal is "grasp the red box" the robot will receive a reward if the gripper moves towards the box and another reward for closing the gipper around the box.
The problem for the programmers and AI engineers is to encode the reward function including the natural language parser in software. A robot who understands a dozens of commands comes close to the goal of building an intelligence machine.
The purpose of a command based reward function is to transform a closed system into an open system. Open means, that the robot is communicating with its environment. The need for doing so is because the robot itself has insufficient knowledge about the task, on the other hand the human operator has much more knowledge. It makes sense to offload the planning task towards the human operator.
In chess playing AI systems from the past with a fixed evaluation function it was not possible to interact with the system during runtime. The only strategy to modify the reward was to stop the program, modify the source the source code and restart the software.
June 02, 2026
Grounding mechanism 1o1
A DIKW pyramid consists of abstraction layers like Data, information and other. A grounding mechamism maps the items in the layer. In an example warehouse robot, the data layer cosnsits of sensor readings like GPS Coordinates, lidar distance, and battery capacity while the information layer consists of [tags] like "battery_full, north, obstacle_ahead".
The grounding mechanism generates the links between the entries. For example the lidar distcance of 10 cm is mapped to "obstacle_ahead" while the battery level of 10% is mapped to "Battery_empty".
In general, a grounding mechanism is some sort of matching game. it answers the question which situation is mapped to which description. Such a mapping is the core element of an advanced artificail intelligence.
To demonstrate why a matching game enables artificial intelligence let us assume an example. Suppose the human operator submits a command to the warehouse robot which is "move to the green area, grasp the small box on the left side, bring the box to the blue area, drop it into the shelf, then recharge your battery".
If the grounding mechanism is missing or was deactated, the command is interpreted as string with 144 characters. It wasn't formulated in the C/C++ programming langauge but it can be stored only in the main memory.
Suppose the robot has a builtin grounding mechanism, than its possible to parse the sentence word by word. The word "green" is matching to a certain RGB value, the word "box" is mapped to a certain shape in the camera, the word "shelf" is mapped to a picture of the shelf and so on. The parsing algorithm fetches a word from the sentences, and takes a lookup into the database to identify the item from the data layer of the DIKW pyramid. Understanding a sentence from a robots perspective has to do with matching items from the information layer to the data layer.
June 01, 2026
Symbol grounding problem as answer to np hard algorithms
Before its possible to describe grounded language there is a need to explain who artificial intelligence was imagined until the year 1990. It was treated similar to computer programming in the sense that there is a CPU which executes a program and its up to the programmer to make the algorithm as intelligent as possible. Artificial intelligence was thought as a very advanced computer programmed which is executed by a computer.
In other terms, the computer was seen as a problem solving machine and the only detail problem was which sort of algorithm is needed to solve a certain problem. For example motion planning in robotics was solved with motion planning algorithms while computer chess was solved with alpha beta prunning algorithms. Most of these AI related algorithms were designed as search algorithms. The computer was used to traverse the state space of the domain and this allowed the computer to find the optimal action.
The symbol grounding problem formulated by Stevan Harnad questions this algorithm oriented paradigm. This might explain why even today grounded language is a niche topic within computer science. Because computer science and algorithms were often treated as the same thing, it was outside of the scope how to program a computer without an algorithm.
Let us listen closely how Harnad, Brooks and Steels are arguing about grounded language. The core element is the sensory perception of a robot. The assumption is that the perception is transmitted to the computer. There is no need to calculate something but the focus on the data transfer. A light sensor detects light and the information from the sensor is send over a cable to the computer. The symbol grouding problem doesn't focus on the computer itself, but on the cable between a sensor and a computer, very similar to a computer network. Computer networks are different from a turing machine, they are never running algorithms, but a computer network communicates data often organized in a protocol layer.
The paradigm shift from algorithm centric computers towards protocol oriented data transmission is the core element of the symbol grounding problem. Artificial Intelligence isn't explained as processing or program executation, but Artificical Intelligence is imaged as the air gap between two hosts.
Let us compare the hardware. In classical algorithm oriented AI the basic building block is a central processing unit, which can be a 32bit CPU. The CPU is built with transistors on a chip and gets controlled by Assembly language. In contrast, the symbol grounding problem assumes that there is a Cat5 copper cable which delivers packets. Its up to the network engineer to define the protocol of the packets.
The paradigm shift can be explained for np hard problems. NP hard is a certain category of problems related to artificial intelligence which can't be solved with a computer. Nearly all robotics motion planning problems like the piano movers problem or model predictive control are np hard. The term np hard is referencing to the runtime of an algorithm executed on a cpu. In other words, even a modern 64bit CPU can't solve these problems because the hardware is too slow.
The holy grail in computer science is how to solve np hard problems. The answer was given by Stevan Harnad in his famous 1990 paper. He didn't mentioned np hard problems, but its possible to solve np hard problem with grounded language. Instead of using a CPU to calculate a mathematical problem, a copper cable is used to solve a data transmission problem. This new perspective is powerful enought to solve motion planning problems in robotics.
May 30, 2026
The transiton from closed to open robotics systems
The last AI winter went until the late 1990s. In this period, some robotics were built by the engineers and some AI algorithms were designed but all of them failed. The only thing working reliably was a simple CNC machines which were used in a static factory setups to cut a piece of metal. Even a simple pick&place robot for an assembly line was beyond the capabilities of the 1990s technology.
Today's robotics in the 2020s is much more powerful and this improvement can be explained with a paradigm shift. Robotics until the 1990s was organized with a closed system assumption. the idea was to treat a robot as as a microcontroller which runs a software in the batch mode. It was a mathematical and a computer science artifact which was controlled by deterministic algorithms implemented in a programming language like C/C++. The assumption in the 1990s was, that such a paradigm is powerful enough to create artificial intelligence. The assumption was that the existing tools like a 16bit microcontroller, a PID controller, a Kalman filter or a C compiler allows to build robots.
What the engenners didn't know was that the mentioned tools are equal to a dead end. Even with today's knowledge its not possible to build a robot with such an equipment. What is needed are different tools located outside of computer science which allows to build open systems. these advanced tools are:
- motion capture: a human actor demonstrates a movement for a camera
- grounded language, a vocabulary to communicate with a robot
- a multimodal dataset which stores mocap data and semantic annotation in a database
These tools were missing in the late 1990s. Not because of technical constraints, but because of missing understanding for the difference between open and closed systems. A robot can be built only by one of the principles: either the robot understands natural language or it doesn't. Either the robot can playback motion capture data or it can't.
The dominant reason why these advanced tools were missing in the 1990s is because they are located outside of mathematics and computer science. Motion capture has its root in biomechanics and in animated movies. It was introduced for Rotoscoping which allows to draw cartoons. While grounded language has its root in linguistics which is located in the humanities which is the opposite of mathematics.
In the 2020s computer science has redefined its own boundaries because the former restriction to mathematics and algorithm theory was not able to solve robotics problems. No matter which mathematical theory was applied to robot control, all of them failed. The dominant problem in robotics control is the state space explosion. A robot has many degree of freedoms and planning inside the error map of such a kinematics chain will need too much CPU cycle. There is no algorithm available which can search faster in the state space, but the mathematical perspective itself is the obstacle.
The inner working of a state of the art robot from the 2020s can be explained as a machine who understands English commands and has access to a motion capture database. These tools combined allows the robot to solve complex problems like biped walking and grasping objects. From an AI perspective, the intelligence of the robot isn't encoded in a computer program but the intelligence has its origin outside of the robot, namely motion capture data and verbal commands. The robot is reduced to a minimal device which executes an existing trajectory with the servo motor and is converting a command into action. For example, the human operator may say "move with trajectory #12", after fetching the trajectory from the database the robot activates its servo motors. Strictly spoken the intelligence has its origin not in the robot but the intelligence comes from the environment namely the human operator.
Robots constructed as open systems can be seen as communication devices instead of computing devices. They are not running a program similar to a Turing machine but they parsing a message similar to a Telefax machine.
May 26, 2026
The failure of AI related programming language part 2
In addition to a previous blogpost [1] the problem with 5th generation programming languages from the past should be explained in detail.
The initial situation in the mid 1980s was the existence of powerful 4th programming languages like C, Pascal and C++ which have simplified source code development. In contrast to former assembly language these languages offered powerful libraries and were able to compile on different computer hardware. Its pretty easy to write videogames like Pong and jump'n'run games in C and C++.
Unfortunately, these languages were not able to master robot control and AI problems. Some attempts were made to program game AI in the C language but in most cases the source code is hard to read because its a finite state machine, or the algorithm needs a high amount of CPU cycles because its a breadth first search algorithm in computer chess.
The consequence was to rediscover dedicated AI programming languages like Lisp and develop new 5th generation languages like Prolog and KL-one, which allows agent oriented programming. the promise was, that the programmer defines only facts and the reasoner module is able to plan by itself the robot's action.
It should be mentioned that AI related programming languages were a failure from day 1. The problem is, that its hard to utilize Prolog for a concrete example, e.g. to control a robot.
The main problem with so called 5th generation languages is, that they were designed with a classical programming language paradigm in mind. There is an interpreter which executes the code on a computer and the user is asked to formulate the problem in the syntax of the programming language. This constraints makes sense from a computer science perspective, because every programming language is organized with this principle. Without an interpreter or a compiler the computer can't execute the code. But from a domain specific perspective, its not possible to specify a problem this way.
The working thesis is, that existing 4th programming languages like C/C++ are more than powerful and doesn't need improvement but can be utilized for AI related programming task. What is needed to bridge the gap towards the reality is a user interface, formulated in C/C++.
A GUI interface manages the communication between a computer and the human user. It contains of buttons, text fields and command lines. Such a user interface is the key element to design advanced AI software. In the optimal case, the user interface looks like a head up display for a robot. There is a video camera picture shown on the screen and on top there are multiple text boxes as overlay with additional information formulated in grounded languages. Such kind of futuristic GUI can be programmed in a classical programming language like C.
[1] https://ai-and-robotics.blogspot.com/2026/04/the-failure-of-ai-related-programming.html
May 24, 2026
Textuelle Interaktion für Lagerroboter
Textuelle Interaktion für Lagerroboter
Das folgende game log zeigt die interaktion zwischen 3 Agenten: eine game engine, eine Spielerin und einen internen Lehrer. Die Interaktion erfolgt ausschließlich über ein Text terminal. Das Ziel ist das Text adventure zu gewinnen indem Kommandos eingegeben werden und der interne Lehrer befragt wird.
=== WAREHOUSE ROBOT SIMULATION ===
KI_Spielerin: "starte auf Position A1"
Game_engine: "Roboter bereit. Ziel: 10 Kisten zu Regal B5 transportieren."
KI_Spielerin: "scanne Regal B5"
Game_engine: "Regal B5: 3/10 Kisten fehlen."
Internal_Teacher: "Nutze Greifarm Modus 3 für Kisten >20kg."
KI_Spielerin: "greife Kiste bei A1"
Game_engine: "Kiste erfasst. Gewicht: 25kg."
KI_Spielerin: "bewege zu B5"
Game_engine: "Weg frei. Transport startet."
KI_Spielerin: "platzieren Kiste"
Game_engine: "Kiste in Regal B5 abgelegt. 1/10 erledigt."
KI_Spielerin: "scanne Regal B5"
Game_engine: "Regal B5: 2/10 Kisten fehlen."
Internal_Teacher: "Prüfe Batteriestand. Warnung: 15%."
KI_Spielerin: "fahre zur Ladestation"
Game_engine: "Ladestation erreicht. Ladevorgang startet."
KI_Spielerin: "lade bis 80%"
Game_engine: "Batterie: 80%. Transport fortsetzen."
KI_Spielerin: "bewege zu A1"
Game_engine: "Position A1 erreicht."
KI_Spielerin: "greife nächste Kiste"
Game_engine: "Kiste erfasst. Gewicht: 18kg."
KI_Spielerin: "bewege zu B5"
Game_engine: "Weg blockiert. Hindernis: Palette bei A3."
KI_Spielerin: "frage nach Lösung"
Internal_Teacher: "Umfahren oder Hindernis entfernen. Risiko: 2 Min Verzögerung."
KI_Spielerin: "umfahre Hindernis"
Game_engine: "Alternative Route berechnet. Transport startet."
KI_Spielerin: "platzieren Kiste"
Game_engine: "Mission 50% abgeschlossen."
=== ENDE ===
May 23, 2026
Grounded language in a nutshell
Grounded language can be described as sensor data tagging. It connects the internal raw sensory data of a robot with the external semantic tagging system. The linking is realized in a DIKW pyramid and improves man to machine communication. Such a communication system allows the robot to offload the intelligence to a human.
Here is an example. Suppose a warehouse robot stands in front of an obstacle. Because the robot's software isn't able to solve the situation, the robot asks a human operator what to do next. With the help of grounded language the output of the robot is: "obstacle: near, battery: 85%, question: What to do?". The human operator reads the textual message and takes a decision which is send back to the robot.
There are multiple techniques available how to implement such a system in software, for example with a handcoded language parser, or with a neural network. The shared similarity is, that all these attempts are based on natural language and put a high emphasizes on man to machine communication.
The term grounding is referencing to multiple situation:
a) its a link between sensor data and textual annotation
b) its a link between the internal robot structure and the external environment
c) its a link between low level and high level problem description
In more colloquial terms, grounded language means to use English for teleoperation of a robot. This principle seems not very impressive because it was demonstrated in science fiction movies multiple times in the past. The innovation is, that there is no alternative available to realize artificial intelligence. That means all advanced robots are built as teleoperated machine who understands English language.
Lessons learned from Douglas Lenat's Cyc
During the late 1980s the Cyc project was a large scale AI project. The promise was to create a database with handcrafted Lisp rules which is able to reason about the world. The attempt has failed but that is no problem because it its possible to analyze the reason why.
From today's perspective Cyc was an early attempt to create a dataset. A dataset is a .csv file but doesn't contain of computer code. Datasets are storing numbers and text. During the 1980s it was unknown how to create large scale datasets and Cyc had some builtin mistakes:
a) there was no word2vec algorithm which allows to convert the textual information into numerical representation
b) Cyc was encoded with rules but not with question answer pairs
A modern dataset which is superior over cyc would solve these mistakes. A common dataset used for training neural networks contains of a simple Q&A structure like "What is the capital of france? -- Paris". and it would use a word embeddings algorithm to project the information into a numerical space which can be parsed by neural networks.
The Cyc knowledge base was a combination of Lisp software and textual information. It was a hybrid of computer code and a dataset. Such kind of knowledge base was replaced by data only datasets which have become popular since the deep learning boom. In a data only dataset there is no computer code but only data itself which can be text or images. The computer code which is searching in the data is externalized in a deep learning library.
May 21, 2026
A review of bottom up robotics
In the late 1980s there was a fundamental paradigm shift available in the domain of Artificial Intelligence, called bottum up robotics or subsumption architecture. It wasn't a new algorithm but at first it was a criticism of AI in the past. Bottom up robotics is mostly the description that program controlled top down robotics until the year 1990 has failed. Instead Brooks recommended to build simple sensor driven robots in the style of William Walter's turtle robot in the 1940s.
In a single sentence, Brooks argued, that its unclear how to program robots and instead of trying it harder, the answer is to give up and build instead Analog beam robots with a single sensor and a single motor. Of course, such a robot doesn't make sense because the goal is to build high complex machines which can do practical tasks and not to build a light following bug which can't do anything.
Despite of this step backward, bottom up robotics had become a great success. Many other researchers have agreed to Brooks, and similar architectures like Tilden's BEAM robots were popular.
Let us describe bottom up robotics from a birds eye perspective. These robots or artificial bugs are mostly controlled by its environment and by a random generator but not by an internal program. This paradigm shift was the real novelty of Brooks. It introduced a concept in which the former program oriented approach in robotics was dismissed in favor of external control.
Brooks identified correctly what sort of technology can't be realized. Its not possible to program a robot similar to a computer program. It doesn't make sense to write a C program and compile it for a microcontroller which is doing something with a robot because such a C program will provide a reality gap to the environment. A high complex task will require a high complex computer program and nobody knows who to write down the source code.
Let me give an example. Before the advent of bottom up robotics, the shared assumption in artificial intelligence was, that a robot who should grasp an objects needs to be programmed first. There are 5000 lines of code which are planning the grasping, solving the mathematical equation to determine the trajectory of the gripper and monitor if the robot is successful. Its impossible to write and improve such a C program.
May 18, 2026
The power of head up displays
Head up displays are common special effects in scifi movies. Since the 1980s lots of films have demonstrated these visual effects. Most of the audience thinks, that the head up display isn't artificial intelligence but its only the artist representation of possible future robotics.
Its a bit surprising to explain that a head up display is the fundamental building block for artifcial intelligence because they are showing grounded language. The typical head up display is formatted in a key/value syntax, similar to a json file. Example for a warehouse robot:
location: cell B, north
movement: east
speed: 4 km/h
gripper: empty
obstacle: no
target: cell A
battery: 81%
All the important information can be shown in this syntax. The key/value format converts the camera picture into a text adventure game. A parser can analyze the textual information and decide what the robot should do next. For example, if the battery is below 20% the robot needs to find the charging station, And if there is an obstacle ahead, the robot needs to stop.
So we can say, that advanced robots aren't controlled by a AI algorithm but by the head up display. The information are the input for the decision making system, the head up display consists of the state space of a robot. If the robot decides for the wrong action, sometihng is wrong with information in the head up display.
May 14, 2026
The upcoming Claude mythos LLM
There are rumors available about a new large language model called "Claude mythos" which wasn't released yet. Its not very hard to describe its potential features because existing large language models have a lots of disadvantages.
Chatgpt and co are able to generate source code for example in Python and C but they are not able to execute in a virtual environment. The human user will notice this restriction because the LLM generated code contains sometimes smaller errors. For example the python interpreter might report that in a line 30 something is wrong. The current situation in may 2026 is, that the user has to submit the error message from python to the chatgpt LLM and then the chatbot will create the improved version which might contain another error. It takes a lot of time to produce a runnable software with such a feedback loop.
Suppose a large language model has an internal python interpret which can execute sourcecode and improve it. This would lower the needed feedback loops with a human and allows the LLM to generate error free programs in the frist attempt.
In general its about an environment to test software or test the actions of a robot. The assumption is that Claude mythos will have such a built in environment which improves AI based software engineering drastically.
The proposed abilities of Claude mythos to find bugs in existing software project is perhaps working with the same method. Before its possible to find a bug and fix it, there is a need to simulate the software in a simulator. Such a simulator is used by human programmers since years, its mostly a Gnu compiler which converts c code into binary code plus a virtual machine which is qemu to run the software. Every possible bugfix is compiled first to verify that there is no error in the code and then the binary file is run in a simulator to verify if the software is fixing the problem. The chance is high is that claude mython works with a similar principle.
This would allow a computer not only to generate source code, but also determine the outcome of the generated code. Such an LLM would be more useful than existing LLM which do not have such features.
Das Symbol grounding problem an einem praktischen Beispiel
Grounded language ist ein interdisziplinäres Problem was ein umfangreiches Fachwissen in sehr unterschiedlichen Disziplinen wie Informatik, Linguistik und Robotersteuerung erfordert. Es ist daher nötig, die Thematik zu vereinfachen anhand eines praktischen Beispiels. Ein Anfang ist eine Landkarte auf der ein Mauscursor bewegt wird. Der nutzer kann die mauf einen belieben Punkt bewegen z.B. auf einen roten Kreis oder ein gelbes Quadrat. Das Computerprogram zeigt für die Mauspostition die [tags] an, z.B. "[kreis] [grün]", oder "[rechteck] [klein]".
zumindest für das MInibeispiel mit der Landkarte auf dem geoemtrische Objekte zu sehen sind, ist damit das symbol grounding problem gelöst.
Ähnlich wie bei einer perspektivischen Darstellung in der Malerei gilt es also die REalität auf ein koordinatensystem abzubilden. Bei grounding problem bestehen die koordinaten aus einer [tag] liste. Der User zeigt auf einen punkt z.B. (100,30) und der Computer bestimmt die Tags für das Objekt an diesem Punkt.
Obwohl die technische Umsetzung leicht ist, kann über grounded language ein erstaunlich leistungsfähiges KI System erstellt werden. Ab dem moment wo der Computer tags ausgeben und parsen kann ist darüber eine Kommunikation möglich. Ein Beispiel:
Angenommen die beschriebene semantische Kamera wurde für ein Jump'bn'Run Videospiel implementiert, das heißt die Software vermag anhand der Tilemap sagen, ob der Mousecursor auf einem Abgrund, einem coin, einem powerup, einem Gegner oder auf einer Plattform steht. Dann kann diese Information in einer Regel referenziert werden, wie "gehe bis zum Abgrund und halte an, dann springe darüber und laufe bis zum Coin". Diese komplexe Befehlsfege referenziert auf erkannte Tags in dem Computerspiel, der parser kann dies auswerten und versteht was der Benutzer möchte. Nicth weil ein hochkomplexer Algorithmus im Hintergrund arbeitet, sondern weil ein mensch maschine interface existiert auf das man verweisen kann.
Der sourcecode und der screenshot zeigen nicht das geometrie problem sondern ein robot in a maze spiel bei dem ein roboter items sammeln muss. Es gibt in der Statuszeile eine semantische Event Erkennung. Der Roboter bewegt sich in der Karte und parallel dazu wird in der Textbox die aktuelle Situaton beschrieben, ein wenig so wie einem frühen Textadventure. Über besagte Statuszeile wird der game state des robtoers definiert und zwar im linguistischen Raum und nicht im geometrisch mathematischen Raum.
import pygame
import sys
import random
# Initialize Pygame
pygame.init()
pygame.font.init()
# --- Configuration Constants ---
GRID_SIZE = 40 # Pixels per cell
GRID_COLS = 20
GRID_ROWS = 12
# Textbox dimensions (40 chars wide, 4 lines high roughly translates to this)
TEXTBOX_HEIGHT = 100
SCREEN_WIDTH = GRID_COLS * GRID_SIZE
SCREEN_HEIGHT = (GRID_ROWS * GRID_SIZE) + TEXTBOX_HEIGHT
# Colors (RGB)
COLOR_STREET = (240, 240, 240)
COLOR_HOUSE = (70, 130, 180)
COLOR_ROBOT = (220, 50, 50)
COLOR_TRASH = (40, 180, 99)
COLOR_TEXTBOX_BG = (30, 30, 30)
COLOR_TEXT = (255, 255, 255)
COLOR_GRID = (210, 210, 210)
# --- Event Log System ---
# The 12 grounded language events:
# 1. "System initialized. Roomba ready."
# 2. "Moved North."
# 3. "Moved South."
# 4. "Moved East."
# 5. "Moved West."
# 6. "Obstacle detected at North."
# 7. "Obstacle detected at South."
# 8. "Obstacle detected at East."
# 9. "Obstacle detected at West."
# 10. "Grid boundary reached."
# 11. "Trash item successfully collected!"
# 12. "Area clear. No trash nearby."
event_logs = ["System initialized. Roomba ready.", "", "", ""]
def log_event(message):
"""Adds a new event to the log, keeping only the last 4 events."""
global event_logs
if event_logs[-1] != message: # Avoid spamming identical consecutive logs
event_logs.append(message)
if len(event_logs) > 4:
event_logs.pop(0)
# --- Map & Environment Setup ---
# 0 = Street (Pathway), 1 = House (Obstacle)
maze = [[0 for _ in range(GRID_COLS)] for _ in range(GRID_ROWS)]
# Generate mock "blocks" of houses to look like a street map
random.seed(42) # Seed for consistent map generation
for r in range(1, GRID_ROWS - 1, 3):
for c in range(1, GRID_COLS - 1, 4):
# Create a 2x2 or 2x3 house block
block_w = random.randint(2, 3)
block_h = 2
for bh in range(block_h):
for bw in range(block_w):
if r + bh < GRID_ROWS - 1 and c + bw < GRID_COLS - 1:
maze[r + bh][c + bw] = 1
# Spawn Trash Items
trash_positions = set()
while len(trash_positions) < 10:
tr = random.randint(0, GRID_ROWS - 1)
tc = random.randint(0, GRID_COLS - 1)
if maze[tr][tc] == 0: # Must be on a street
trash_positions.add((tc, tr))
# Spawn Robot
robot_x, robot_y = 0, 0
while maze[robot_y][robot_x] != 0:
robot_x = random.randint(0, GRID_COLS - 1)
robot_y = random.randint(0, GRID_ROWS - 1)
# --- Simulation Setup ---
screen = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT))
pygame.display.set_caption("Robot Street Simulator")
clock = pygame.time.Clock()
font = pygame.font.SysFont("Courier", 18) # Monospace font for predictable char width
def check_surroundings(rx, ry):
"""Scans adjacent cells to log nearby obstacles."""
# North
if ry - 1 < 0: pass
elif maze[ry - 1][rx] == 1: log_event("Obstacle detected at North.")
# South
if ry + 1 >= GRID_ROWS: pass
elif maze[ry + 1][rx] == 1: log_event("Obstacle detected at South.")
# West
if rx - 1 < 0: pass
elif maze[ry][rx - 1] == 1: log_event("Obstacle detected at West.")
# East
if rx + 1 >= GRID_COLS: pass
elif maze[ry][rx + 1] == 1: log_event("Obstacle detected at East.")
# Initial scan
check_surroundings(robot_x, robot_y)
# --- Main Loop ---
# --- Main Loop ---
running = True
while running:
for event in pygame.event.get():
# FIX: Changed event.get_type() to event.type
if event.type == pygame.QUIT:
running = False
# FIX: Changed event.get_type() to event.type
elif event.type == pygame.KEYDOWN:
dx, dy = 0, 0
move_dir = ""
if event.key == pygame.K_UP:
dy = -1
move_dir = "North"
elif event.key == pygame.K_DOWN:
dy = 1
move_dir = "South"
elif event.key == pygame.K_LEFT:
dx = -1
move_dir = "West"
elif event.key == pygame.K_RIGHT:
dx = 1
move_dir = "East"
if dx != 0 or dy != 0:
new_x = robot_x + dx
new_y = robot_y + dy
# Check Grid Boundary
if not (0 <= new_x < GRID_COLS and 0 <= new_y < GRID_ROWS):
log_event("Grid boundary reached.")
# Check House Obstacle Collision
elif maze[new_y][new_x] == 1:
log_event(f"Obstacle detected at {move_dir}.")
# Move Valid
else:
robot_x = new_x
robot_y = new_y
log_event(f"Moved {move_dir}.")
# Check Trash Collection
if (robot_x, robot_y) in trash_positions:
trash_positions.remove((robot_x, robot_y))
log_event("Trash item successfully collected!")
# Scan environment post-movement
check_surroundings(robot_x, robot_y)
# Check if all clear
if not trash_positions:
log_event("Area clear. No trash nearby.")
# --- Drawing Environment ---
screen.fill(COLOR_STREET)
# Draw Grid and Houses
for r in range(GRID_ROWS):
for c in range(GRID_COLS):
rect = pygame.Rect(c * GRID_SIZE, r * GRID_SIZE, GRID_SIZE, GRID_SIZE)
if maze[r][c] == 1:
pygame.draw.rect(screen, COLOR_HOUSE, rect)
pygame.draw.rect(screen, COLOR_GRID, rect, 1)
# Draw Trash Items
for (tx, ty) in trash_positions:
trash_rect = pygame.Rect(tx * GRID_SIZE + 10, ty * GRID_SIZE + 10, GRID_SIZE - 20, GRID_SIZE - 20)
pygame.draw.rect(screen, COLOR_TRASH, trash_rect, border_radius=3)
# Draw Robot
robot_rect = pygame.Rect(robot_x * GRID_SIZE + 6, robot_y * GRID_SIZE + 6, GRID_SIZE - 12, GRID_SIZE - 12)
pygame.draw.ellipse(screen, COLOR_ROBOT, robot_rect)
# --- Drawing Grounded Language Textbox ---
# Draw Textbox background container
textbox_rect = pygame.Rect(0, GRID_ROWS * GRID_SIZE, SCREEN_WIDTH, TEXTBOX_HEIGHT)
pygame.draw.rect(screen, COLOR_TEXTBOX_BG, textbox_rect)
pygame.draw.rect(screen, COLOR_TEXT, textbox_rect, 2) # Border
# Render the 4 lines of text
for idx, log in enumerate(event_logs):
# Clip string to 40 characters maximum to respect specification constraints
truncated_log = log[:40]
text_surface = font.render(truncated_log, True, COLOR_TEXT)
screen.blit(text_surface, (15, (GRID_ROWS * GRID_SIZE) + 10 + (idx * 20)))
pygame.display.flip()
clock.tick(30)
pygame.quit()
sys.exit()
May 13, 2026
Wie Computer das denken lernen
In der Geschichte der Künstlichen Intelligenz gab es zahlreiche versuche einer Maschine das Denken beizubringen. Zunächst wurde Denken über Algorithmen simuliert. Die Vorstellung war, dass eine denkende Maschine ein Programm abarbeitet und das Ergebnis dann eine Entscheidung ist z.B. den Roboter nach norden zu steuern.
Theoretisch mag das Konzept sinnvoll klingen es scheitert jedoch sobald man versucht einen solchen Algorithmus zu programmieren. Es ist nicht klar, wie man genau anfängt und wie vorhandene Algorithmen verbessert werden können. In der Summe ist der Versuch Denken als Algorithmenausführung zu definieren gescheitert.
Eine neuere und erfolgversprechende Methode dennoch dem Computer das Denken zu lehren ist die natürliche Sprache. Die Annahme lautet dass Denken identisch ist mit Sprachverarbeitung. Um Sprache von einem Computer verbeiten zu können ist ein interaktiver Ansatz möglich. Man sendet an den Roboter z.B. einen Satz wie "fahre nach norden" und der Computer übersetzt den Satz in eine Handlung. Oder man sendet an den Computer ein Wort wie "Apfel" und der Computer zeigt daraufhin das passende Bild mit dem Obst.
Wenn man die interaktion mit dem Computer in datensätzen dauerhaft speichert und darüber neuronale Netze trainiert erhält man moderne LLM Chatbots wie sie seit 2023 entwickelt werden. Diese kommen menschlichen Denken sehr nahe.
Das besondere an der sprachbasierten Künstlichen Intelligenz ist, dass sie nicht länger von Algorithmen definiert ist. ZWar beinhalten Large language modelle auch eine Softwarekomponente doch der weitaus wichtigere Teil ist die .csv Datei worin Frage / Antwort Paare gespeichert sind.
May 12, 2026
Productivity boost with artificial Intelligence
Programming in computer science works different in each year. In the 1980s a typical pong clone was realized in Assembly language which takes around 2 weeks until the program is running error free. The result is, that there are two paddles on the screen which can be moved with a joystick and the self created game engine counts the score.
In the 1990s the typical programming language was C which allows to program the same game much faster. Its assumed that the average programmer can create a pong clone in C in around 3 days by using existing graphics libraries and tutorials from the Internet. This might explain why C has replaced assembly programming.
Todays situation in the year 2026 is, that with the help of large language models its possible to create python code for a pong videogame in around 10 minutes. The programmer formulates the text prompt and is testing the generated python code on the local macihne.
In future its likely that the producivity will increase more, perhaps its possobiel to create a pong clone in under 3 seconds and program more advanced software also with Artificial intelligence.
May 11, 2026
Chinesische Spionin erkundet Roboter-Sortieranlage
Ort: Ein verlassener Kopierraum im Untergeschoss des Instituts für Robotik und Systemtheorie, Technische Universität.
Zeit: Später Abend, im Jahr 2026.
Das sanfte grüne Licht der Notbeleuchtung warf lange Schatten auf die Flure. Mei Lin – von ihren Kollegen nur „die fleißige Postdoktorandin“ genannt – bewegte sich lautlos. Sie war eine sogenannte Sea Turtle: In China geboren, im Ausland hochgradig ausgebildet um ihrer Heimat zu dienen – wenn auch auf eine Weise, die nicht in ihrem Arbeitsvertrag stand.
Sie betrat das Labor für Autonome Systeme. In der Mitte des Raums stand „ROB-SORT 4“, ein Prototyp, der die europäische Kreislaufwirtschaft revolutionieren sollte. Es war kein glänzender humanoider Roboter, sondern ein funktionaler Industriearm über einem Förderband. Doch das Herzstück war die semantische Schnittstelle.
An der Seite des Steuerungsgehäuses leuchtete ein nostalgisch anmutendes, aber hochpräzises 40x4 Zeichen LCD-Display.
Mei Lin: (flüstert leise auf Mandarin, während sie ihr Smartphone zückt) „Endlich. Das Grounded Language Model in Echtzeit.“
Sie aktivierte das Förderband im Testmodus. Ein zerknitterter Joghurtbecher fuhr unter die Kamera. Der Roboterarm hielt inne. Auf dem Display erschienen in rascher Folge die Zeilen, die das neuronale Netz gerade ‚dachte‘:
OBJEKT 0815: BECHER. FARBE: WEISS/BLAU.
MATERIAL: PP-KUNSTSTOFF. GEWICHT: 12G.
VOLUMEN: KLEIN. STATUS: LEICHT DEFORMIERT.
AKTION: GREIFER-MODUS 2 (SOFT-GRIP). ZIEL: BOX 4.
Mei Lin hielt den Atem an. Das war die Lösung. Während die deutschen Ingenieure noch darüber stritten, ob die semantische Beschreibung der Objekte die Latenzzeit zu stark erhöhte, hatte die KI hier bereits die perfekte Brücke zwischen Sprache und physischer Aktion geschlagen. Die „geerdete Sprache“ (Grounded Language) erlaubte es dem Roboter, physikalische Eigenschaften wie „Gewicht“ und „Material“ nicht nur als abstrakte Zahlen, sondern als logische Beschreibungen zu verarbeiten, bevor der Greifbefehl berechnet wurde.
Sie machte mehrere hochauflösende Fotos von dem Display, während verschiedene Müllobjekte – eine Glasflasche, eine rostige Konservendose, ein Stück Wellpappe – analysiert wurden.
Mei Lin: „Farbe, Größe, Material, Gewicht... alles übersetzt in natürliche Sprache. Genial einfach. Einfach genial.“
Sie wusste, dass die Cloud-Server des Instituts streng überwacht wurden. Ein Upload großer Datenmengen nach Peking würde sofort die Alarmglocken des Verfassungsschutzes schrillen lassen. Doch Mei Lin hatte einen archaischen Plan.
Sie schlich zurück in den Kopierraum im Keller. Dort stand ein altes Kombigerät aus den frühen 2000ern, das nur noch für die Kommunikation mit der konservativen Universitätsverwaltung genutzt wurde. Ein analoges Faxgerät.
Sie schloss ihr modifiziertes Smartphone an den Telefonanschluss an. Die digitalen Fotos der 40x4-Displays wurden in ein analoges Signal umgewandelt.
Piiiep-krrr-tsch-hiiiiiii.
Das Geräusch war Musik in ihren Ohren. In diesem Moment wurden die exakten Parameter der deutschen Spracherkennung und die daraus resultierenden Greifer-Entscheidungen über eine gesicherte Telefonleitung nach Peking übertragen.
Szenenwechsel: Ein Hochsicherheitslabor im Bezirk Haidian, Peking. Drei Stunden später.
Chefingenieur Zhang: (starrt auf die einlaufenden Faxe, die ein Assistent eilig sortiert) „Was ist das? Analoges Fax? Wie kreativ von ihr.“
Assistent: „Es sind die Datensätze vom ROB-SORT Projekt, Herr Direktor. Sehen Sie sich die Beschreibungen an. Das System nutzt natürliche Sprache als Filter für die Greifer-Sensorik. Wir haben versucht, das rein mathematisch über Drehmomente zu lösen, aber die Fehlerquote war zu hoch. Wenn wir die KI erst beschreiben lassen, was sie sieht – ‚schweres Glas, glatte Oberfläche‘ – kann die Feinmotorik des Greifers sofort darauf reagieren.“
Chefingenieur Zhang: (schlägt mit der flachen Hand auf den Tisch) „Wir haben bereits die Hardware-Basis in der Sortieranlage Süd-Peking stehen. Wir brauchen keine drei Jahre für die Validierung wie die Deutschen. Wir nehmen diese Sprachlogik, füttern sie in unser Modell und stellen die Produktion sofort um. Wir überspringen die gesamte Testphase für die mechanische Integration.“
Drei Monate später: Berlin.
Professor Baumgartner (ein entfernter Kollege des Robotik-Lehrstuhls) saß in seinem Büro und starrte auf seinen Monitor. Er öffnete einen Link zu einer Pressemitteilung der Tsinghua University und der Beijing Waste Management Group.
Professor Baumgartner: (ruft entsetzt seinen Oberassistenten herein) „Haben Sie das gesehen? Die Chinesen haben gestern die größte automatisierte Müllsortieranlage der Welt in Betrieb genommen. Sie nutzen ein System namens ‚Natural Language Grasping‘.“
Oberassistent: „Aber Professor, das ist doch exakt unser Ansatz! Wir wollten nächste Woche erst den Förderantrag für die Pilotanlage stellen. Wir sind noch mitten in der Kalibrierung des 40x4-Displays für die Fehlerprotokolle.“
Professor Baumgartner: (lässt die Schultern sinken) „Schauen Sie sich die Bilder an. Die Greifer sind identisch mit unseren Entwürfen. Sogar die Beschreibungsparameter – Farbe, Größe, Material, Gewicht – sind in derselben Reihenfolge gelistet. Wie ist das möglich? Wir haben das Projekt noch nicht einmal publiziert!“
Er blickte aus dem Fenster auf den Campus. Mei Lin ging gerade unten über den Hof, ein Tablet im Arm, freundlich lächelnd.
Professor Baumgartner: „Vielleicht sind wir Deutschen einfach zu langsam geworden. Während wir noch die Normen für das Display festlegen, haben die anderen den Müll der Welt schon sortiert.“
Mei Lin strich sich eine Strähne aus dem Gesicht. In ihrer Tasche vibrierte ihr Telefon. Eine Nachricht aus der Heimat: „Die Anlage läuft stabil. 99,8 % Trennungsquote. Gute Arbeit, Sea Turtle.“ Sie löschte die Nachricht und betrat das Institut für eine weitere Schicht „fleißiger“ Forschung.
Ferngesteuerte Robotik im Jahr 1999
Ort: Ein stickiges Büro an der Technischen Universität, vollgestellt mit Röhrenmonitoren und Stapeln von Fachzeitschriften.
Zeit: November 1999.
Professor Baumgartner: (starrt fassungslos über den Rand seiner Lesebrille) „Sagen Sie das bitte noch einmal, Herr Fischer. Ich möchte sichergehen, dass ich Sie in diesem akustisch suboptimalen Raum nicht missverstanden habe.“
Lukas: (nervös, ein zerknittertes Manuskript in der Hand) „Herr Professor, ich dachte an einen Paradigmenwechsel. Die Algorithmen für die autonome Navigation in komplexen Umgebungen sind... nun ja, sie stecken fest. Warum ersetzen wir die Logik nicht durch menschliche Intuition? Ein Roboter, der über eine Funkstrecke oder das neue Breitband-Internet ferngesteuert wird. Der Mensch übernimmt die Entscheidungsebene. Wir umgehen das gesamte Problem der Pfadplanung durch Telepräsenz.“
Professor Baumgartner: (lässt den Füllfederhalter fallen, das Geräusch hallt wie ein Schuss) „Telepräsenz? Sie wollen einen ferngesteuerten Spielzeugwagen bauen und das als Informatik-Dissertation verkaufen? Wir befinden uns an der Schwelle zum neuen Jahrtausend, Fischer! Die ganze Welt blickt auf die Automatisierung, und Sie wollen einen digitalen Marionettenspieler engagieren?“
Lukas: „Aber die Rechenleistung...“
Professor Baumgartner: (fällt ihm ins Wort) „Die Rechenleistung ist eine Ausrede für Denkfaulheit! Wissen Sie, was Sie da vorschlagen? Sie schlagen vor, die Informatik aus der Robotik zu entfernen. Wenn ein Mensch den Arm führt oder den Pfad wählt, findet keine Informationsverarbeitung im Sinne der Maschine statt. Das ist... das ist Zirkusarbeit. Ganz ehrlich, Fischer: Wenn das Ihr Verständnis von wissenschaftlichem Fortschritt ist, dann müssen wir uns ernsthaft fragen, ob dieses Institut der richtige Ort für Sie ist. Ich bezweifle unter diesen Umständen massiv, dass Sie die nötige Reife für eine Promotion besitzen.“
Lukas: (schluckt) „Ich wollte nur eine pragmatische Lösung für das Problem der lokalen Minima in der Navigation finden.“
Professor Baumgartner: „Pragmatismus ist das Ende der Grundlagenforschung! Wir lösen Probleme nicht, indem wir sie wegschieben. Wir lösen sie mathematisch. Setzen Sie sich.“
(Baumgartner wühlt in einem Stapel und zieht ein erst kürzlich erschienenes Paper hervor.)
Professor Baumgartner: „Haben Sie LaValle gelesen? Oder Kuffner? Nein? Natürlich nicht. Während Sie über Joysticks nachdenken, entwickeln kluge Köpfe den Rapidly-exploring Random Tree, kurz RRT. Das ist die Zukunft, Fischer! Es ist ein probabilistischer Algorithmus, der den Konfigurationsraum effizient durchsucht, indem er Bäume in Richtung unbesetzter Bereiche wachsen lässt.“
Lukas: „Ein zufallsbasierter Baum? Ist das nicht zu... stochastisch für präzise Manöver?“
Professor Baumgartner: „Es ist genial! Es löst das Problem der hohen Dimensionalität, an dem Sie mit Ihrem 'Tele-Hobby' kläglich scheitern würden. Sie werden folgendes tun: Sie vergessen diesen Unsinn mit der Fernsteuerung sofort. Sie werden ein Framework entwickeln, das RRT für nicht-holonome Systeme implementiert. Wir werden beweisen, dass die Maschine den Weg findet, ohne dass ein Mensch am anderen Ende der Leitung schwitzt.“
Lukas: „Verstehe, Herr Professor. Also ein rein algorithmischer Ansatz.“
Professor Baumgartner: „Ein wissenschaftlicher Ansatz. Gehen Sie in den Pool, lesen Sie die Veröffentlichungen von 1998 und '99 zum Thema RRT und zeigen Sie mir nächste Woche eine Simulation, die ohne menschlichen Eingriff funktioniert. Und Fischer... erwähnen Sie nie wieder das Wort 'fernbedient' in diesen Mauern. Wir bauen hier Intelligenz, keine Geisterfahrer.“
Lukas: „Ja, Herr Professor. Ich... ich mache mich sofort an die Arbeit.“
Professor Baumgartner: (murmelt, während Lukas das Büro verlässt) „Fernsteuerung... unfassbar. Als Nächstes schlägt er wohl noch vor, dass wir unsere Briefe per Fax verschicken, statt E-Mails zu schreiben.“
May 10, 2026
Early social robots
Around the year 2000, the Kismet robot was developed and in 2004 the Leonardo robot was presented to the public. These machines were able to receive and submit emotion and it was unclear why a robot needs such skills. From the self understanding, Kismet and Leonardo were created as social robots with a strong focus on human to machine interaction but their real advantage is located somewhere else.
Classical robotics until 2000 was suffering from the so called state space explosion. Mathematical algorithms like Model predictive control and rapidly-exploring random tree (RRT) were unable to solve motion planning problems. Even simple tasks like programming a line following robot was an advanced multiperson project during this time. The state space explosion problem is the direct result of np hard problems in computer science which is a problem category which needs a high amount of CPU cycles. For example, a robot with 10 DOF has billion of billion possible trajectories to execute and its not possible to score them with an algorithm.
Social robotics is solving the problem by intelligence offloading. Instead of determining the trajectory of the robot by the robot itself, the environment is in charge. A social robot would interact with the human operator, and the operator will provide the needed trajectory. Any complex task which is np hard can be delegated this way, this allows to build minimalist machines which are able to solve complex problems at the same time.
May 09, 2026
Science disciplines in robotics
Robotics before the year 2000 was dominated by computer science and mathematics. The published journal articles during this period are showing a deep understanding of hard science to analyze and solve robotics problems. There are well formulated mathematical equations and highly efficient algorithms available which were implemented as computer programs. Unfortunately, this close relationship to mathematics and computer science resulted into failed projects.
There was a paradigm shift available in robotics research after the year 2000. This was done by a redistribution of the priorities. Former mathematics centric robotics research has been questioned by new disciplines which were Linguistics and motion capture. From a perspective of classical mathematics, modern publication about robotics are showing a lack of knowledge. The average paper about grounded language mentions mathematical optimization only as a side note in favor of a longer introduction into the importance of natural language for activity recognition.
Robotics after the year 2000 is mostly an interdisciplinary approach in which the sub disciplines are explored only with a superficial knowledge. In exchange more science disciplines are recognized as important to enable powerful robots.
Robotics before the year 2000 had a lack of interaction with the environment. A strong focus on mathematics and hard science results into batch mode algorithms which are operating independent from external influences. The bias of mathematics is to compress the reality into algorithms and numbers by ignoring sensor data.
In contrast, robotics from 2000-2020 were influenced by social robotics which puts a strong focus on human to robot interaction. This interaction is realized with speech enabled interfaces and motion capture to enable co-bots. By definition, social robotics are interactive machines which are not programmed with algorithms but they perceive commands and facial expression from humans.
The disciplines math and computer science can be seen as the backend of a robot while linguistics and motion capture are the frontend.
Robotics technology before the year 2000
... was remarkable less developed. The most advanced approach available during this time period was model predictive control with the RRT algorithm. This allows a robot to follow a fixed trajectory. For example if the robot is 10 centimeter away from the floor's trajecoty, the MPC planner ensures that the robot gets back on the track. No additional features are available, but moving on a fixed trajectory for example in a warehouse was everything which can be realized with an RRT based motion planning algorithm.
In addition, it should be mentioned that the combination of rapidly exploring random tree and model predictive control was a highly advanced technique before the year 2000. RRT is more efficient than other solvers like A*, and model predictive control is based on a physical model of the robot including its movement abilities. This allows to control a wheeled robot and a UAV both.
From today's perspective its surprising, that the described mathematical optimization algorithm requies on the one hand advanced knowledge in computer science including artificial intelligence on a university phd level and at the same time, the resulting robot is a simple line following robot which can't be scaled up to more advanced problems. This my explain why AI before 2000 was seen as difficult to realize and most of the projects have failed. That means, even advanced mathematicans with 20 years of practical experiences in optimization problems were only able to program a line following robot which was able to move along a fixed line on the ground. From this dispointing reality it seems rational to assume that AI can't be realized at all.
May 07, 2026
AI after the year 2010
There was a paradigm shift available how AI researchers have discussed about the shared goal of building intelligent robots. Until the year 2010 the untold assumption was to program a closed system. The robot was seen as a machinery which consists of software, hardware and algorithm and the goal was to optimize this machinery. For example to create more advanced grippers or improve a path planning algorithm. It was assumed that this was the only way to think about robotics, because the goal was to build autonomous self sufficient systems which was seen as equal to artificial intelligence.
After the year 2010 there was a different approach available which has started with bottom up robotics invented by Rodney Brooks and has evolved into modern Vision language action models, see the right figure. The idea is to use teleoperation between a robot and an external instance which can be a computer program, a human or a large language model. Such kind of distributed AI generates a new problem. Instead of discussing how a robot is working internally, for example with an algorithm, the new question is how to design the ocmmunication between the robot and the external instance.
This simple modification has created a very different bias in Artificial intelligence. Former autonomous and closed systems are rejected in favor of a natural language communication preference. An early example for open systems in robotics was the Shrdlu project, later more complex attempts were the Poeticon++ dataset and the Rocco Robocup commentator. These early attempts were not using advanced LLMs but they have anticipated a speaker to hearer communication pipeline.
Classical AI until the year 2010 was limited by the np hard challenge. A certain motion planning algorithm needs a large amount of CPU resources. Planning the steps for a complex robot task e.g. biped walking and grasping objects was beyond the capabilities of computer hardware. Even with highly optimized programming language and advanced model predictive control algorithms, this np hard bottleneck can't be solved.
In recent AI after the year 2010 the np hard problem can be ignored because there is no need for motion planning algorithms anymore. The robot gets its instruction from an external instance. And this external instance can generate a trajectory much easier than the robot itself. What is available instead is the problem how to program a text parser. If the external instance gives the command "move to left corner in the maze" this command needs to be translated into action by the robot. For doing so, a dedicated parser is needed which can be implemented as context free grammar, as large language model or a handcoded computer program. This parser is the new limitation in robotics.




