May 12, 2026

Productivity boost with artificial Intelligence

 Programming in computer science works different in each year. In the 1980s a typical pong clone was realized in Assembly language which takes around 2 weeks until the program is running error free. The result is, that there are two paddles on the screen which can be moved with a joystick and the self created game engine counts the score.

In the 1990s the typical programming language was C which allows to program the same game much faster. Its assumed that the average programmer can create a pong clone in C in around 3 days by using existing graphics libraries and tutorials from the Internet. This might explain why C has replaced assembly programming.

Todays situation in the year 2026 is, that with the help of large language models its possible to create python code for a pong videogame in around 10 minutes. The programmer formulates the text prompt and is testing the generated python code on the local macihne.

In future its likely that the producivity will increase more, perhaps its possobiel to create a pong clone in under 3 seconds and program more advanced software also with Artificial intelligence.

May 11, 2026

Chinesische Spionin erkundet Roboter-Sortieranlage

 Ort: Ein verlassener Kopierraum im Untergeschoss des Instituts für Robotik und Systemtheorie, Technische Universität.

Zeit: Später Abend, im Jahr 2026.

Das sanfte grüne Licht der Notbeleuchtung warf lange Schatten auf die Flure. Mei Lin – von ihren Kollegen nur „die fleißige Postdoktorandin“ genannt – bewegte sich lautlos. Sie war eine sogenannte Sea Turtle: In China geboren, im Ausland hochgradig ausgebildet um ihrer Heimat zu dienen – wenn auch auf eine Weise, die nicht in ihrem Arbeitsvertrag stand.

Sie betrat das Labor für Autonome Systeme. In der Mitte des Raums stand „ROB-SORT 4“, ein Prototyp, der die europäische Kreislaufwirtschaft revolutionieren sollte. Es war kein glänzender humanoider Roboter, sondern ein funktionaler Industriearm über einem Förderband. Doch das Herzstück war die semantische Schnittstelle.

An der Seite des Steuerungsgehäuses leuchtete ein nostalgisch anmutendes, aber hochpräzises 40x4 Zeichen LCD-Display.

Mei Lin: (flüstert leise auf Mandarin, während sie ihr Smartphone zückt) „Endlich. Das Grounded Language Model in Echtzeit.“

Sie aktivierte das Förderband im Testmodus. Ein zerknitterter Joghurtbecher fuhr unter die Kamera. Der Roboterarm hielt inne. Auf dem Display erschienen in rascher Folge die Zeilen, die das neuronale Netz gerade ‚dachte‘:

    OBJEKT 0815: BECHER. FARBE: WEISS/BLAU.
    MATERIAL: PP-KUNSTSTOFF. GEWICHT: 12G.
    VOLUMEN: KLEIN. STATUS: LEICHT DEFORMIERT.
    AKTION: GREIFER-MODUS 2 (SOFT-GRIP). ZIEL: BOX 4.

Mei Lin hielt den Atem an. Das war die Lösung. Während die deutschen Ingenieure noch darüber stritten, ob die semantische Beschreibung der Objekte die Latenzzeit zu stark erhöhte, hatte die KI hier bereits die perfekte Brücke zwischen Sprache und physischer Aktion geschlagen. Die „geerdete Sprache“ (Grounded Language) erlaubte es dem Roboter, physikalische Eigenschaften wie „Gewicht“ und „Material“ nicht nur als abstrakte Zahlen, sondern als logische Beschreibungen zu verarbeiten, bevor der Greifbefehl berechnet wurde.

Sie machte mehrere hochauflösende Fotos von dem Display, während verschiedene Müllobjekte – eine Glasflasche, eine rostige Konservendose, ein Stück Wellpappe – analysiert wurden.

Mei Lin: „Farbe, Größe, Material, Gewicht... alles übersetzt in natürliche Sprache. Genial einfach. Einfach genial.“

Sie wusste, dass die Cloud-Server des Instituts streng überwacht wurden. Ein Upload großer Datenmengen nach Peking würde sofort die Alarmglocken des Verfassungsschutzes schrillen lassen. Doch Mei Lin hatte einen archaischen Plan.

Sie schlich zurück in den Kopierraum im Keller. Dort stand ein altes Kombigerät aus den frühen 2000ern, das nur noch für die Kommunikation mit der konservativen Universitätsverwaltung genutzt wurde. Ein analoges Faxgerät.

Sie schloss ihr modifiziertes Smartphone an den Telefonanschluss an. Die digitalen Fotos der 40x4-Displays wurden in ein analoges Signal umgewandelt.

Piiiep-krrr-tsch-hiiiiiii.

Das Geräusch war Musik in ihren Ohren. In diesem Moment wurden die exakten Parameter der deutschen Spracherkennung und die daraus resultierenden Greifer-Entscheidungen über eine gesicherte Telefonleitung nach Peking übertragen.

Szenenwechsel: Ein Hochsicherheitslabor im Bezirk Haidian, Peking. Drei Stunden später.

Chefingenieur Zhang: (starrt auf die einlaufenden Faxe, die ein Assistent eilig sortiert) „Was ist das? Analoges Fax? Wie kreativ von ihr.“

Assistent: „Es sind die Datensätze vom ROB-SORT Projekt, Herr Direktor. Sehen Sie sich die Beschreibungen an. Das System nutzt natürliche Sprache als Filter für die Greifer-Sensorik. Wir haben versucht, das rein mathematisch über Drehmomente zu lösen, aber die Fehlerquote war zu hoch. Wenn wir die KI erst beschreiben lassen, was sie sieht – ‚schweres Glas, glatte Oberfläche‘ – kann die Feinmotorik des Greifers sofort darauf reagieren.“

Chefingenieur Zhang: (schlägt mit der flachen Hand auf den Tisch) „Wir haben bereits die Hardware-Basis in der Sortieranlage Süd-Peking stehen. Wir brauchen keine drei Jahre für die Validierung wie die Deutschen. Wir nehmen diese Sprachlogik, füttern sie in unser Modell und stellen die Produktion sofort um. Wir überspringen die gesamte Testphase für die mechanische Integration.“

Drei Monate später: Berlin.

Professor Baumgartner (ein entfernter Kollege des Robotik-Lehrstuhls) saß in seinem Büro und starrte auf seinen Monitor. Er öffnete einen Link zu einer Pressemitteilung der Tsinghua University und der Beijing Waste Management Group.

Professor Baumgartner: (ruft entsetzt seinen Oberassistenten herein) „Haben Sie das gesehen? Die Chinesen haben gestern die größte automatisierte Müllsortieranlage der Welt in Betrieb genommen. Sie nutzen ein System namens ‚Natural Language Grasping‘.“

Oberassistent: „Aber Professor, das ist doch exakt unser Ansatz! Wir wollten nächste Woche erst den Förderantrag für die Pilotanlage stellen. Wir sind noch mitten in der Kalibrierung des 40x4-Displays für die Fehlerprotokolle.“

Professor Baumgartner: (lässt die Schultern sinken) „Schauen Sie sich die Bilder an. Die Greifer sind identisch mit unseren Entwürfen. Sogar die Beschreibungsparameter – Farbe, Größe, Material, Gewicht – sind in derselben Reihenfolge gelistet. Wie ist das möglich? Wir haben das Projekt noch nicht einmal publiziert!“

Er blickte aus dem Fenster auf den Campus. Mei Lin ging gerade unten über den Hof, ein Tablet im Arm, freundlich lächelnd.

Professor Baumgartner: „Vielleicht sind wir Deutschen einfach zu langsam geworden. Während wir noch die Normen für das Display festlegen, haben die anderen den Müll der Welt schon sortiert.“

Mei Lin strich sich eine Strähne aus dem Gesicht. In ihrer Tasche vibrierte ihr Telefon. Eine Nachricht aus der Heimat: „Die Anlage läuft stabil. 99,8 % Trennungsquote. Gute Arbeit, Sea Turtle.“ Sie löschte die Nachricht und betrat das Institut für eine weitere Schicht „fleißiger“ Forschung.

Ferngesteuerte Robotik im Jahr 1999

 Ort: Ein stickiges Büro an der Technischen Universität, vollgestellt mit Röhrenmonitoren und Stapeln von Fachzeitschriften.
Zeit: November 1999.

Professor Baumgartner: (starrt fassungslos über den Rand seiner Lesebrille) „Sagen Sie das bitte noch einmal, Herr Fischer. Ich möchte sichergehen, dass ich Sie in diesem akustisch suboptimalen Raum nicht missverstanden habe.“

Lukas: (nervös, ein zerknittertes Manuskript in der Hand) „Herr Professor, ich dachte an einen Paradigmenwechsel. Die Algorithmen für die autonome Navigation in komplexen Umgebungen sind... nun ja, sie stecken fest. Warum ersetzen wir die Logik nicht durch menschliche Intuition? Ein Roboter, der über eine Funkstrecke oder das neue Breitband-Internet ferngesteuert wird. Der Mensch übernimmt die Entscheidungsebene. Wir umgehen das gesamte Problem der Pfadplanung durch Telepräsenz.“

Professor Baumgartner: (lässt den Füllfederhalter fallen, das Geräusch hallt wie ein Schuss) „Telepräsenz? Sie wollen einen ferngesteuerten Spielzeugwagen bauen und das als Informatik-Dissertation verkaufen? Wir befinden uns an der Schwelle zum neuen Jahrtausend, Fischer! Die ganze Welt blickt auf die Automatisierung, und Sie wollen einen digitalen Marionettenspieler engagieren?“

Lukas: „Aber die Rechenleistung...“

Professor Baumgartner: (fällt ihm ins Wort) „Die Rechenleistung ist eine Ausrede für Denkfaulheit! Wissen Sie, was Sie da vorschlagen? Sie schlagen vor, die Informatik aus der Robotik zu entfernen. Wenn ein Mensch den Arm führt oder den Pfad wählt, findet keine Informationsverarbeitung im Sinne der Maschine statt. Das ist... das ist Zirkusarbeit. Ganz ehrlich, Fischer: Wenn das Ihr Verständnis von wissenschaftlichem Fortschritt ist, dann müssen wir uns ernsthaft fragen, ob dieses Institut der richtige Ort für Sie ist. Ich bezweifle unter diesen Umständen massiv, dass Sie die nötige Reife für eine Promotion besitzen.“

Lukas: (schluckt) „Ich wollte nur eine pragmatische Lösung für das Problem der lokalen Minima in der Navigation finden.“

Professor Baumgartner: „Pragmatismus ist das Ende der Grundlagenforschung! Wir lösen Probleme nicht, indem wir sie wegschieben. Wir lösen sie mathematisch. Setzen Sie sich.“

(Baumgartner wühlt in einem Stapel und zieht ein erst kürzlich erschienenes Paper hervor.)

Professor Baumgartner: „Haben Sie LaValle gelesen? Oder Kuffner? Nein? Natürlich nicht. Während Sie über Joysticks nachdenken, entwickeln kluge Köpfe den Rapidly-exploring Random Tree, kurz RRT. Das ist die Zukunft, Fischer! Es ist ein probabilistischer Algorithmus, der den Konfigurationsraum effizient durchsucht, indem er Bäume in Richtung unbesetzter Bereiche wachsen lässt.“

Lukas: „Ein zufallsbasierter Baum? Ist das nicht zu... stochastisch für präzise Manöver?“

Professor Baumgartner: „Es ist genial! Es löst das Problem der hohen Dimensionalität, an dem Sie mit Ihrem 'Tele-Hobby' kläglich scheitern würden. Sie werden folgendes tun: Sie vergessen diesen Unsinn mit der Fernsteuerung sofort. Sie werden ein Framework entwickeln, das RRT für nicht-holonome Systeme implementiert. Wir werden beweisen, dass die Maschine den Weg findet, ohne dass ein Mensch am anderen Ende der Leitung schwitzt.“

Lukas: „Verstehe, Herr Professor. Also ein rein algorithmischer Ansatz.“

Professor Baumgartner: „Ein wissenschaftlicher Ansatz. Gehen Sie in den Pool, lesen Sie die Veröffentlichungen von 1998 und '99 zum Thema RRT und zeigen Sie mir nächste Woche eine Simulation, die ohne menschlichen Eingriff funktioniert. Und Fischer... erwähnen Sie nie wieder das Wort 'fernbedient' in diesen Mauern. Wir bauen hier Intelligenz, keine Geisterfahrer.“

Lukas: „Ja, Herr Professor. Ich... ich mache mich sofort an die Arbeit.“

Professor Baumgartner: (murmelt, während Lukas das Büro verlässt) „Fernsteuerung... unfassbar. Als Nächstes schlägt er wohl noch vor, dass wir unsere Briefe per Fax verschicken, statt E-Mails zu schreiben.“

May 10, 2026

Early social robots

 Around the year 2000, the Kismet robot was developed and in 2004 the Leonardo robot was presented to the public. These machines were able to receive and submit emotion and it was unclear why a robot needs such skills. From the self understanding, Kismet and Leonardo were created as social robots with a strong focus on human to machine interaction but their real advantage is located somewhere else.

Classical robotics until 2000 was suffering from the so called state space explosion. Mathematical algorithms like Model predictive control and rapidly-exploring random tree (RRT) were unable to solve motion planning problems. Even simple tasks like programming a line following robot was an advanced multiperson project during this time. The state space explosion problem is the direct result of np hard problems in computer science which is a problem category which needs a high amount of CPU cycles. For example, a robot with 10 DOF has billion of billion possible trajectories to execute and its not possible to score them with an algorithm.

Social robotics is solving the problem by intelligence offloading. Instead of determining the trajectory of the robot by the robot itself, the environment is in charge. A social robot would interact with the human operator, and the operator will provide the needed trajectory. Any complex task which is np hard can be delegated this way, this allows to build minimalist machines which are able to solve complex problems at the same time.

May 09, 2026

Science disciplines in robotics

Robotics before the year 2000 was dominated by computer science and mathematics. The published journal articles during this period are showing a deep understanding of hard science to analyze and solve robotics problems. There are well formulated mathematical equations and highly efficient algorithms available which were implemented as computer programs. Unfortunately, this close relationship to mathematics and computer science resulted into failed projects.

There was a paradigm shift available in robotics research after the year 2000. This was done by a redistribution of the priorities. Former mathematics centric robotics research has been questioned by new disciplines which were Linguistics and motion capture. From a perspective of classical mathematics, modern publication about robotics are showing a lack of knowledge. The average paper about grounded language mentions mathematical optimization only as a side note in favor of a longer introduction into the importance of natural language for activity recognition.

Robotics after the year 2000 is mostly an interdisciplinary approach in which the sub disciplines are explored only with a superficial knowledge. In exchange more science disciplines are recognized as important to enable powerful robots.

Robotics before the year 2000 had a lack of interaction with the environment. A strong focus on mathematics and hard science results into batch mode algorithms which are operating independent from external influences. The bias of mathematics is to compress the reality into algorithms and numbers by ignoring sensor data.

In contrast, robotics from 2000-2020 were influenced by social robotics which puts a strong focus on human to robot interaction. This interaction is realized with speech enabled interfaces and motion capture to enable co-bots. By definition, social robotics are interactive machines which are not programmed with algorithms but they perceive commands and facial expression from humans.

The disciplines math and computer science can be seen as the backend of a robot while linguistics and motion capture are the frontend.

Robotics technology before the year 2000

 ... was remarkable less developed. The most advanced approach available during this time period was model predictive control with the RRT algorithm. This allows a robot to follow a fixed trajectory. For example if the robot is 10 centimeter away from the floor's trajecoty, the MPC planner ensures that the robot gets back on the track. No additional features are available, but moving on a fixed trajectory for example in a warehouse was everything which can be realized with an RRT based motion planning algorithm.

In addition, it should be mentioned that the combination of rapidly exploring random tree and model predictive control was a highly advanced technique before the year 2000. RRT is more efficient than other solvers like A*, and model predictive control is based on a physical model of the robot including its movement abilities. This allows to control a wheeled robot and a UAV both.

From today's perspective its surprising, that the described mathematical optimization algorithm requies on the one hand advanced knowledge in computer science including artificial intelligence on a university phd level and at the same time, the resulting robot is a simple line following robot which can't be scaled up to more advanced problems. This my explain why AI before 2000 was seen as difficult to realize and most of the projects have failed. That means, even advanced mathematicans with 20 years of practical experiences in optimization problems were only able to program a line following robot which was able to move along a fixed line on the ground. From this dispointing reality it seems rational to assume that AI can't be realized at all.

May 07, 2026

AI after the year 2010

There was a paradigm shift available how AI researchers have discussed about the shared goal of building intelligent robots. Until the year 2010 the untold assumption was to program a closed system. The robot was seen as a machinery which consists of software, hardware and algorithm and the goal was to optimize this machinery. For example to create more advanced grippers or improve a path planning algorithm. It was assumed that this was the only way to think about robotics, because the goal was to build autonomous self sufficient systems which was seen as equal to artificial intelligence.

After the year 2010 there was a different approach available which has started with bottom up robotics invented by Rodney Brooks and has evolved into modern Vision language action models, see the right figure. The idea is to use teleoperation between a robot and an external instance which can be a computer program, a human or a large language model. Such kind of distributed AI generates a new problem. Instead of discussing how a robot is working internally, for example with an algorithm, the new question is how to design the ocmmunication between the robot and the external instance.

This simple modification has created a very different bias in Artificial intelligence. Former autonomous and closed systems are rejected in favor of a natural language communication preference. An early example for open systems in robotics was the Shrdlu project, later more complex attempts were the Poeticon++ dataset and the Rocco Robocup commentator. These early attempts were not using advanced LLMs but they have anticipated a speaker to hearer communication pipeline.

Classical AI until the year 2010 was limited by the np hard challenge. A certain motion planning algorithm needs a large amount of CPU resources. Planning the steps for a complex robot task e.g. biped walking and grasping objects was beyond the capabilities of computer hardware. Even with highly optimized programming language and advanced model predictive control algorithms, this np hard bottleneck can't be solved.

In recent AI after the year 2010 the np hard problem can be ignored because there is no need for motion planning algorithms anymore. The robot gets its instruction from an external instance. And this external instance can generate a trajectory much easier than the robot itself. What is available instead is the problem how to program a text parser. If the external instance gives the command "move to left corner in the maze" this command needs to be translated into action by the robot. For doing so, a dedicated parser is needed which can be implemented as context free grammar, as large language model or a handcoded computer program. This parser is the new limitation in robotics.

May 03, 2026

Playing a videogame with a textbox

 For arduino microcontrollers there is a standard display available with 20x4 characters. Such a small text display is a great choice for demonstrating grounded language in action. In an example jump'n'run sidesrolling game, the following text boxes were generated by the event detection engine:

Example 1
-----------
PLAYER ON GROUND
JUMP READY         
COIN +1   TOTAL 5  
ENEMY NEAR -COVER  

Example 2
-----------
DASH COOLDOWN 1.2s
PLATFORM AHEAD 3m 
SPIKE! STEP BACK   
HEALTH 4/5  POWERUP

Example 3
-----------
FELL -1LIFE       
RESPAWN AT CHECKPT 
TIME 02:14       
KEY ACQUIRED  DOOR

Example 4
-----------
SPEED BOOST ACTIVE
ENEMY HIT x2     
COMBO 3X  +50PTS 
SECRET PATH DETECTʼD

From a technical perspective such a textbox is highly efficient. The text occupies very few amount of RAM and because the repeating pattern it can be compressed further.

Even if the description is formulated on a high abstraction layer, its possible to use these information to play the game with an Artificial intelligence. All what is needed are a list of rules for determining what to do in each situation. These rules are not applied to the graphical videogame at 800x600 Pixel resolution but the rules are applied to the text box.