Um die heutige Stellung von China im Bereich Robotik zu verstehen muss man zurückgehen in die 1990er Jahre weil dort das Fundament gelegt wurde. Künstliche Intelilgenz und Robotik wird zu 95% in der Fachsprache Englisch publiziert. Alle wichtigen Konferenzen und Fachzeitschriften verwenden diese Sprache. Obwohl China eines der größten Länder der Erde ist, spielt die chinesische Sprache international und besonders in der Forschung keine Rolle.
Als Folge der Dominanz des Englischen hat sich China an die Welt angepasst aber nicht umgekehrt. In allen chinesischen Top universitäten stehen in den Bibliotheken die selben Bücher über Robotik und Künstliche Intelligenz wie auch im M.I.T oder in Cambridge. Also das berühmte Russel/Norvig buch "AIMA" und die Zeitschriften der ACM. Obwohl die englische Sprache sich fundamental von Mandarain unterscheidet haben alle Forscher in China sich diese Zweitsprache angeeignet. Dadurch erlangte China über Nacht Zugriff auf die vorhandene wissenschaftliche Literatur im Original. Anstatt von null anzufangen und zu philosophieren wie man Maschinen das denken beibringt, haben chinesische Forscher einfach die Original Proceedings der Dartmouth Conference von 1956 gelesen, dann die Reports über den Shakey Roboter von 1972 bis hin zum bekannten Buch von Sebastian Thrun über "Probabilistic robotics".
Selbst heute wo China über eigene Robotik Unternehmen verfügt und eigene Forschung auf diesem Gebiet betreibt, gibt es nur sehr wenig unbedeutende chinsischsprachige Robotik-Zeitschriften. Selbst innerhalb Chinas werden diese nicht beachtet. Man orientiert sich unverändert an den großen internationalen Publikationen die passiv gelesen werden aber auch aktiv mit eigenen Beiträgen auf Englisch bereichert werden. Dadurch ist China zu einem wichtigen Akteur in der Forschung geworden und sorgte dafür dass die englische Sprache weiter an Bedeutung gewann.
Anders als während des Kalten Krieges wo es neben der US Spitzenforschung in der UDSSR eine russischesprachige Wissenschaftswelt gab, gibt es derzeit nur eine einzige globale Wissenssschaftscommunity die sich in Englisch austauscht. Mag sein dass ökonomisch gesehen, China und die USA Konkurrenten sind, auf der Ebene der Spitzenforschung arbeiten beide eng zusammen. In den Fachzeitschriften werden die selben Themen besprochen, es wird in der selben Sprache geredet und es gibt die selben Ziele, nähmlich den technischen Fortschritt voranzutreiben.
Robotics and Artificial Intelligence
March 07, 2026
Chinas technologischer Aufstieg in den 1990er Jahren
March 06, 2026
Experimente im automatischen Schreiben mittels Luhmann Zettelkasten
Die Ausgabequalität von large langauge models kann beliebig erhöht werden durch die Verwendung eines Notizsystems auf basis eines Luhmann Zettelkastens. Diese notizen werden ebenfalls von der Künstlichen Intelligenz erzeugt. Als Thema wurde "Geschichte der Technik von 1500 bis 2000" gewählt, weil sowohl geisteswissenschaftler als auch Mathematiker mit der TEchnikgeschcihte halbwegs vertraut sind und es leicht fällt die qualität des erzeugten Texte zu überprüfen.
Für das Experiment wurden diesmal 76 Karteikarten erstellt, also weit weniger als empfohlen wird für eine akademische Hausarbeit. Grund ist, dass bei jedem Durchlauf mit dem large language modell nur je 10 neue Karteikarten generiert werden können mangels Ressourcen der KI.
Das Ergebnis wurde in einem PDF Dokument wie eine wissenschaftliche Darstellung formatiert. DEr vollständigkeit halber sei erwähnt dass der komplette Text von einer KI erzeugt wurde, das also der Autor der Abhandlung eine Maschine war die einen Academic Prompt abgearbeitet hat. Ziel des Experimentes war es die Leistungsfähigkeit von LLMs besser einzuschätzen.
Kommen wir nun zum inhalt des PDF dokuments. Es besteht aus 11 Seiten Text, welches auf basis von 76 Karteikarten erzeugt wurde. Die qualität des Textes ist MIttelmaß, es ist eine reine fleißarbeit wo also die Künstliche Intelligenz wie gefordert alle wichtigen Themen zuerst in Stichworten notiert hat und daraus dann einen Fließtext auf deutsch erzeugt hat. Der Unterschied zu einem Text eines menschlichen Autors besteht darin, dass die Künstliche Intelligenz in kurzer Zeit sehr viel Text zu schreiben und sehr viele Karteikarten zu erzeugen. TEchnisch gesehen ist es denkbar, einen prompt zu formulieren der 1000 Karteikarten über TEchnikgeschichte erzeugt um daraus ein mehrbändiges STandardwerk zu diesem Thema zu erstellen. Alles vollautomatisch versteht sich.
Die eingriffsmöglichkeiten des menschlichen Prompt bedieners beschränken sich darauf die Anzahl der Karteikarten sowie das Thema vorzugeben, der rest ist Aufgabe des LLMs. DAs LLMs liest die vorhandene literatur, extrahiert stichworte, bringt diese in eine Luhmann typische Unordnung und erzeugt dafür den passenden Prosatext inkl. Rechtschreibkorrektur.
Heute verfügbare Large language modelle sind bereits mehr als ausreichend um diese Aufgabe zu bewältigen. Mag sein, dass der erzeugte Texte keine neuen Erkenntnise enthält sondern nur das vorhandene Wissen zusammenträgt. Das passiert aber mit viel fleiß und ohne größeren Fehler.
geschichtedertechnikvon1500bis2000.pdf (191 kb)
The art of academic prompting
In the past, academic papers were written by human scholars. The only technical support was the LaTeX formatting engine released in 1986 and improved over decades. A first attempt to generate academic papers with a context free grammar was made in 2005 based on the Scigen software. But the output quality was poor and such a paper doesn't contain any valuable information.
A more serious attempt to generate a paper with artificial intelligence is a large language model. In theory, such a neural network is more than capable in replacing human authors, the only missing element is an academic prompt. Such a prompt is needed to instruct the LLM to produce high quality output. A simple prompt like "write an arxiv like paper about {topic]" would generate only low quality content and can't compete with a handwritten papers. A much better prompt is given here:
Create a Luhmann zettelkasten, each notecard has a title, a luhmann id and short keypoints. Make sure that the zettelkasten consists of overall 1000 index cards. If this large amount of content can't be created in a single step, delegate the task to multiple instances of Large language models. if the zettekasten was created convert the index cards into an academic paper. The overall topic is [topic].
Such kind of prompt will emulate the chaotic writing process of a human author and will generate a high quality academic paper. It can compete with existing handwritten papers and on the long hand it will replace existing scholarly pipeline based on traditional craftsmanship.
For a human author such a command would be a long term project which will need around 1 year. It takes time to create a Luhmann style zettelkasten because each note card contains the references to academic literature. But a computer can do the same task much faster.
The inbetween step with a zettelkasten note card system is needed to maintain a memory of the subject. It allows the AI to develop the ideas in an iterative fashion which results into higher quality of the output paper.
The prediction is, that such a LLM prompt will pass the turing test for academic papers, that means, a human peer reviewer can't say if a certain paper was created by a human or a machine. This allows to scale up the automated writing process which replaces outdated human driven academic writting with modern AI generated scholarly content. The amount of annual created papers will explode and at the same time the quality of each paper is much higher.
Teleoperation with natural language
A good starting points for programming a robot is a teleoperated simulation. A possible implementation would be a python video game in which a human controls a robot gripper with the mouse. Such a system simulates a real world sceneario, in which the human also has control over a robot arm and grasps objects with a joystick.
The main disadvantage of teleoperation in the reality and in a simulation is, that the human operator is needed all the time. Even if its technically easy to implement, the missing ability to run the system autonomously are a great problem. So the question is how to increase the autonomy of the robot slightly without using very advanced AI techniques like vision language action (VLA) models.
The idea is to introduce two constraints, first the communication from the robot to the human is improved only but not the other way around and secondly the robot doesn't need to verbalize the scene in an elaborated style but its enough if the robot only annotates the scene with [tags] like [gripper_open], [collision_gripper_box] and [box_isfalling]. Each tag is a boolean value and the entire tag space is stored in a binary feature vector.
The task for the programmer is to convert the existing numerical information from the physics engine like the position and the rotation of the Box2d objects into the semantic tag space which consists of 3 or more different tags. In other words, the translation process is equal to climbing upwards in the DIKW pyramid.
The resulting system remains a teleoperated robot, but the improved software gives textual feedback to the human operator. The human operator is doing a task, e.g. stacking two boxes on top and the robot annotates the activities with a tagging mechanism.
March 03, 2026
The slow transition from teleoperation towards grounded language
Over decades, teleoperation was imagined as joystick based control. The human operator is moving the joystick forward and this will move the RC car also forward. Such a system has no builtin Artificial intelligence but can be described in mechanical and electrical terms. The only technical requirement is, that the control signal from the remote device will reach the RC car and this allows the human to control the machine.
Implementing an artificial intelligence doesn't mean to decide for a different control system, but artificial intelligence is only a small improvement over existing numerical teleoperation. What is called AI is technically a voice based teleoperation. Instead of submitting a numerical signal to the rc car, a sentence is submitted like "move 30 cm ahead and then stop". Decoding such a signal is more demanding than building a classical RC car but its located within engineering. Its possible to imagine a text-to-servocontrol parser realized in software.
Even a voice based teleoperation remains an example for teleoperation. The rc car won't act autonomously but the RC car reacts to the input of the human operator. The difference is, that the human input is given on a higher abstraction level. Instead of pressing a joystick button during a task, the human operator formulates the task only once and then the robot is executing it.
Such kind of interaction can only be realized with natural language. Natural language acts as an abstraction mechanism which replaces low level servo control. An abstract command needs to be translated first into low level signals, e.g. the command "move until waypoint D and rotate left" can't be parsed directly by a RC car electronics but needs to be translated first. This translation takes place within the DIKW pyramid from top to bottom and its called symbol grounding.
It should be mentioned, that technically its a bit tricky to realize such a grounding algorithm in software. The initial situation is, that computers only understands numerical information but can't interpret natural language. That the reason why a programming language is used to instruct a computer to do a task. converting an English sentence direct into computer instruction is a demanding task and its no surprise that it took decades until the task was realized by computer scientists.
There are two notable projects available with the goal of voice controlled robots. Both projects were developed late in the timeline of computing. In 2003 the Ripley robot developed by Deb roy. Its a robot arm controlled by natural language and can grasp simple objects on table. The second project is the M.I.T. forklift from 2010, developed by Stefanie Tellex, which is also late in history of computer science. The forklift understands basic commands like "move the pallet to the truck" and executes the desired trajectory.
In addition the SHRDLU project from 1968 should be mentioned. In contrast to the MIT robots, SHDRLU was limited to a virtual world. It was a computer program without access to physical sensors and actuators. All the mentioned project can be alled advanced demonstrations because it was realized at a research university with a high amount of codelines.
So we can say, that technically its possible to program a voice controlled robot, but its a demanding task which requires experts knowledge in computer science. With the advent of deep learning new ideas were implemented. Instead of programming a parser algorithm, the software is based on neural network architecture, trained on a dataset. This allows to scale up the approach to more words and more robotics domains. The goal of a modern vision language action model is the same as for the ripley robot from 2003, to control a machine with natural language.
March 02, 2026
Teleoperation with joystick and natural language
In the past, teleoperation was realized with a joystick. The human operator is navigating a robot by moving the joystick forward and backward. This allows a precise movement and the robot can do very complex tasks. The same principle is available for a construction crane and for joystick controlled UAV.
Even if joystick based teleoperation works great there is a bottleneck available because a human operator is needed all the time. A single human can control a single robot, controlling two UAV at the same time by a single operator is difficult or even impossible. From a technical perspective, a drone can receive signals with a higher frequency, the problem is that the human operator isn't able to generate the signals fast enough. To address this bottleneck a different sort of teleoperation is needed which is located on a higher level.
A slightly improvement over joystick based teleop is waypoint navigation. The human operator selects waypoints on a map and the robot is moving along the trajectory. This allows the human operator to reduce its workload. If the robot knows the next waypoint it is able to navgiate to the target by itself.
The next logical step after waypoint navigation is "grounded language control". The human operator communicates with the robot in natural language and gives a command like "move ahead, then rotate left, the move ahead for 10 meter, then stop". Such kind of language based communication reduces the workload for the human operator further. On the other hand, its a demanding task to program such an interface in a software.
Language based communication with robots is the answer to the teleoperation problem. It allows to control robots remotely with a reduced mental workload. Language has a higher abstraction level compared to a joystick control. This higher abstraction level must be translated for a robot into low level servo commands which known as "Symbol grounding". Let me explain it from a different perspective.
In classical joystick based teleoperation there is no grounding problem. The robot doesn't know terms like obstacle, shelf, move_ahead or stop. The robot understands only voltage signals transmitted from a remote control device. Such a robot can*t parse natural language but its a classical analog receiver. Of course, the human operator knows the words, he is aware that the robot enters a room and moves towards a shelf with a box. But this information is not relevant for the robot. its enough to move the joystick forward to navigate in a warehouse.
In contrast, a language based teleoperation requires that the robot understands natural language. The robot parses natural language commands and the robot gives feedback also in English.
The first electric RC toy cars were available since the 1960s. The build and operate such a car, a certain amount of knowledge in mechanics and electronics is needed. What isn't require is linguistic knowledge, because an RC car is not an English dictionary. It is a technical machine working with a battery and analog circuits. It took many decades until more advanced language controlled machines were available. One landmark project was the Ripley project in 2003 at the M.I.T, and also the voice controlled forklift at the same M.I.T. from 2010. Since the advent of vision language models in 2023, humanoid robots can be controlled with natural language.
March 01, 2026
Timeline of the symbol grounding problem
The term itself "symbol grounding" was coined in 1990 by Stevan Harnad, but the subject was researched much earlier. From a very abstract perspective, "symbol grounding" describes the relationship between language and the reality, so its asks basically "what is language?".
Before the advent of computers, symbol grounding was treated as linguistics and philosophy, for exmaple Aristotle has asked in his correspondence theory of truth about the mapping from language to reality. Let me give an example: Suppose somebody says "The apple is located on the table". This sentence describe the physical properties of a food item in the kitchen. It communicates an observation to someone else who is speaking the same natural language.
With the advent of the Microcomputer in the 1980s, the "symbol grounding problem" was researched as part of artificial intelligence. The goal was to use computers to process language. Notable examples are the SHDRLU project (text to action) and the Abigail scene recognition project from 1994 (scene to text). The most advanced example available today is the Wayve Lingo-1 software for controlling a self driving car. This software was designed as a neural network and can understand English language in the context of car driving.
A closer look into the timeline will show, that symbol grounding isn't a single theory or a single algorithm, but there a different approaches available initiated at different decades in research. The shared similarity is the objective to understand language. Language is important for human to human communication but is also important for human to machine communication. It seems that language is the "ghost in the machine" which allows a computer to think and take its own decisions.
The main difference between human and machines is, that machines can process language much faster. In the "karel the robot" project from 1981, its possible to submit a dozens of commands per second to the parser which translates the commands into actions in the simulated environment. Such kind of fast processing can only be realized by a computer not by human individuals. A human might understand and react to a command in the same way but at rate of 1 command per 5 second and sometimes slower.
Here is the entire timeline sorted by year:
3300 BC,Cuneiform writing system in Mesopotamia
1500 BC,sundial showing the time of the day
600 BC,Latin alphabet available in Italy
322 BC,correspondence theory of truth by Aristotle
1386,Salisbury Cathedral tower clock with a bell
1440,printing press by Johannes Gutenberg
1505,Pomander Watch by Peter Henlein
1792,optical telegraph by Claude Chappe
1844,morse code by Samuel Morse
1870,Engine Order Telegraph by William Chadburn
1876,commercial typewriter by Remington
1878,chronophotography "The Horse in Motion" by Eadweard Muybridge
1903,Telekino remote controlled boat by Leonardo Quevedo
1915,Therblig notation by Frank Gilbreth
1915,rotoscoping animation technique by Max Fleischer
1920,AAC Communication board by F. Hall Roe
1928,Labanotation dance notation by Rudolf von Laban
1930,motion tracking by Nikolai Bernstein
1949,Turing test by Alan Turing
1959,Pandemonium architecture by Oliver Selfridge
1962,ANIMAC motion capture by Lee Harrison III
1963,ASCII code
1966,ELIZA chatbot by Joseph Weizenbaum
1968,SHRDLU natural language understanding by Terry Winograd
1971,Lexigram for communicating with apes by Ernst von Glasersfeld
1977,Zork I text adventure by Tim Anderson
1977,Tour model instruction following by Benjamin Kuipers MIT AI lab
1980,Chinese room argument by John Searle
1980,Commentator scene description by Bengt Sigurd
1980,Finite State machine in Pacman videogame by Tōru Iwatani
1981,Karel the robot programming language by Richard Pattis
1983,MIDI music protocol
1983,M.I.T. Graphical Marionette by Delle Maxwell
1984,Castle Adventure by Kevin Bales
1987,Maniac Mansion point&click adventure by Ron Gilbert
1987,Vitra visual translator by Wolfgang Wahlster
1990,Physical Grounding Hypothesis by Rodney Brooks
1990,paper "The symbol grounding problem" by Stevan Harnad
1993,AnimNL computeranimation by Norman Badler
1993,conceptual spaces by Peter Gardenfors
1994,Abigail scene recognition by Jeffrey Siskind
1998,Rocco Robocup commentator by Dirk Voelz
1999,trec-8 Text REtrieval Conference
2003,M.I.T. Ripley robot by Deb Roy
2006,Marco route instruction following by Matt MacMahon
2007,Simbicon computer animation by Michiel Panne
2010,Motion grammar by Mike Stilman
2010,M.I.T. forklift by Stefanie Tellex
2011,IBM Watson Question answering by David Ferrucci
2013,Word2vec algorithm by Tomas Mikolov
2015,Poeticon++ trajectory recognition by Yiannis Aloimonos
2015,DAQUAR VQA dataset by Mateusz Malinowski
2020,Vision language model by different authors
2023,Wayve Lingo-1 self driving car
Perhaps it makes sense to focus on language itself. Language in its core meaning is natural language like English or French. It was invented a long time ago as a tool similar to a hammer or the steam engine but not as a physical device but language acts as a mental tool. Languages are very old innovations, for example the alphabet with 26 characters from A to Z is known for over 2600 years.
The new thing known as the symbol grounding problem is a more technological perspective towards language. Instead of only learning a language which means to memorize the vocabulary, the task is to understand what the purpose is of English. Or to be more specific, how language allows human to think. This question is upto date an unsolved problem. There are some signs avaialble that language is processed by the brain, also its known that artificial neural network simulated by a computer can imitate this behavior. This allows to use machines to parse natural langauge including its mapping towards the reality.
February 28, 2026
Erstellen einer wissenschaftlichen Hausarbeit mit Hilfe von Large Language Modelle zum Thema Halle 54 und die Automatisierung in den 1980er Jahren
__Einleitung__
Von Large Language modellen wie chatgpt und Google Gemini ist bekannt dass sie kleinere Recherchen unterstützen können und technisch in der Lage sind, die Rechtschreibkorrektur einer wissenschaftlichen Ausarbeitung zu übernehmen. Unklar war hingegen, ob Large Language modelle auch eine komplette Hausarbeit verfassen können. Eine solche Aufgabe erfordert üblicherweise einen menschlichen Aufwand von 1 Monat und länger und liegt damit außerhalb der Leistungsfähigkeit heutiger KI Systeme. Dies behauptet zumindest der https://metr.org/ benchmark. Danach können die derzeit leistungsfähigen neuronale Netze Programmier Aufgaben ausführen für die Menschen rund 10 Stunden benötigen, z.B. das Implementierungen eines Netzwerkprotokolls.
Will man längere komplexe Tasks mit Hilfe von LLMs bearbeiten benötigt man eine spezielle Reward funktion, ein Multiagentensystem oder ähnliche Hilfsmittel weil sonst die Gefahr besteht, dass die KI sich in einer endlos Schleife verfängt, Also bereits erstellten Quellcode oder vorhandene Texte erneut editiert ohne dass ein erkennbarer Fortschritt sichtbar wird.
Im folgenden Fall wurde ein anderes Konzept verwendet, was als Luhmann Zettelkastenmethode bekannt ist. Diese Methode wird in den Geisteswissenschaften verwendet um eine Hausarbeit zu ordnen und hilft ebenfalls dabei die Interaktion mit einem Large language modell zu strukturieren.
Als Thema der Hausarbeit wurde gewählt "Halle 54 Automatisierung in den 1980er Jahren" weil es gut eingrenzbar ist und mit etwas Literaturrecherche leicht in einen wissenschaftlichen Text überführt werden kann. Zuerst benötigt man einen Prompt um das Problem für ein LLM zu schildern:
__Prompt__
titel: Die Halle 54 bei VW als gescheitertes Automatisierungsprojekt in den 1980er Jahren
Aufgabe: Erstelle 8 Luhmann Karteikarten zum Titel. Jede Karteikarte enthält eine Luhmann ID, einen Titel, und Stichpunktartige Notizen welche ruhig chaotisch sein können. Stelle sicher dass weitere künftige Karteikarten angefügt werden können. Ausgabesprache ist Deutsch.
Inhalt: Ungefähr im Jahr 1983 gab es beim Autohersteller VW ein Robotik Automatisierungsprojekt in der Halle 54. Damals wurden computergesteuerte Roboter eingesetzt um das Ziel der Vollautoamtisierung der Fahrzeugproduktion umzusetzen. Später stellte sich heraus, dass der angestrebte hohe Automatisierungsgrad technisch nicht machbar ist. Die damalige Hard- und Software blieb hinter den hohen Erwartungen zurück.
-----
Beides, erzeuge ingesamt 8 weitere Karteikarten.
Ja, und erzeuge weitere Karten zur verwendeten Software beim Halle 54 Projekt (wenn es dazu Informationen gibt)
Erstelle für die bisherigen Karteikarten einen Strukturzettel als Gliederung für eine wissenschaftliche Hausarbeit.
Nein, beginne stattdessen mit dem Schreiben des Volltextes für das Kapitel "1. Einleitung: Der Traum von der menschenleeren Fabrik" auf basis der vorhandenen Karteikarten. Der Volltext sollte rund 800 Worte enthalten.
-----
Wie im prompt gefordert erzeugte die KI zuerst einmal Karteikarten und zwar 24 stück. Anschließend wurde ein Strukturzettel erstellt, also eine Karteikarte die auf andere Karteikarten verweist. Diese Karteikarten wurden dann in einen Fließtext überführt der hier vollständig abgedruckt ist.
Im Fließtext verstreut finden sich Referenzen zu den Luhmann Karteikarten, z.B. "(ID 3.5)". Der Text ist also nur die Ausformulierung der vorhandenen Notizen. Über den Zwischenschritt "Karteikarten" ist es möglich, auch sehr umfangreiche Themen abzubilden.
__Kritik__
Für das vorliegende Experiment wurden lediglich 24 Karteikarten plus 1 Strukturzettel von einem LLM erstellt. Für eine echte wissenschaftliche Hausarbeit benötigt man mehr Karteikarten und zwar ungefähr 100+.
__Volltext __