In the past it was mostly unknown how to create Artificial intelligence, even restricted problems like the game of chess or robot control in a warehouse were recognized as hard to realize in software. The cause was a missing understanding of the domain and missing tools to implement AI domains on a computer.
What is available today is a pathway how to realize Artificial intelligence in a step by step fashion. It has to do with splitting the task between human and computer. In case of computer chess the situation can be described. Automating the entire process of playing the game is difficult, but the computer can be used to only count the pieces on the board and print out the number to the screen. This information helps the human player to decide what for the best move. So the human sees the chessboard itself and a dashboard with important information generated by a computer.
The next task is to improve the dashboard, in a sense that more information are recognized by the computer software like the value for each piece, similar board situation found in the database, and the allowed possible moves. All the information are shown on the same dashboard and reduce the workload for the human operator. The resulting AI system can't be called a true AI but its only a semi-autonomous system.
Instead of answering the question how to play chess with a computer the modified task is to communicate between a human and a computer program about the domain of chess. This communication is realized with an algorithm. The human enters high level actions like "move pawn forward" or "protect queen" and the AI software is in charge to realize this command on the board.
Robotics and Artificial Intelligence
March 17, 2026
How to scale up artificial intelligence
March 16, 2026
Die Erfindung der Teleoperation / Fernsteuerung
Ferngesteuerte Roboter und technische Anlagen sind ein sehr altes Prinzip. Das Telekino war ein ferngesteuertes Boot welche um 1905 von Leonardo Torres Quevedo vorgestellt wurde, seit den 1950er gibt es ferngesteuerte Spielzeugautos die meist über Kabel funktionierten. Und seit den 1980er sind funkferngesteuerte Spielzeugautos im Mainstream bekannt.
Allerdings wurde das Konzept von der Informatik und speziell der Robotikforschung ignoriert. Stattdessen fokussierte man sich über jahrzehnte auf autonome algorithmen gesteuerte Roboter, was man als Dogma bezeichnen könnte.
Es gab in der Geschichte der Robotik zumindest früher keinen Grund "remote control" näher zu untersuchen, zumal technisch gesehen das Problem gelöst ist also dort nichts neues mehr entwickelt werden kann. Um die Vorteile von fenrgesteuerten Robotern in Bezug zur künstlichen Intelligenz näher zu untersuchen muss man die Transformaion von einem geschlossenen in ein offenes System beschreiben. Klassicherweise wurden Roboter als geschlossene Systeme betrachtet. Die Frage war immer wie sieht die Maschinen innen aus, also welche Hardware, welche Programmiersprache und welcher Algorithmus steuert den Roboter. Sobald der Roboter jedoch von einem operator ferngesteuert wird, wird ein wichtiges Modul ausgelagert und zwar das Modul der Entscheidungsfindung.
Laut Definition gibt bei einem ferngesteuerten Roboter der Bediener am Joystick vor, was der Roboter als nächtes tut. Der Bediener ist nicht länger Teil des Roboters sondern befindet sich außerhalb. Dadurch steigt die Komplexität massiv an, und es bedarf eines Kommunikationsprotokoll. Also einer Sprache die definiert wie Signale vom joystick zum Roboter gelangen. Dieses Kommunikationsprotokoll ist der Schlüssel zum Verständnis von künstlicher Intelligenz als signalverarbeitende Zwischenschicht.
Ein offenes System wie es mittels Fernsteuerung erzielt wird, folgt nicht länger den bekannten Gesetzen einer Turing Maschine. Der Roboter wird also nicht per algorithmus gesteuert sondern über Input außerhalb des Roboters. Man kann den Roboter länger programmieren sondern man kann lediglich einen Parser programmieren der die äußeren Kommandos in Aktionen übersetzt.
Ferngesteuerte Roboter sind automatisch offene Systeme während algorithmengesteurte Roboter geschlossene Systeme sind. Ein Algorithmus benötigt keine Kommunikation mit der außenwelt weil die Entscheidungen intern getroffen werden.
March 15, 2026
Line following roboter
Üblicherweise ist die Programmierung eines Line following roboters auf den Sourcecode fokussiert der in Java, Python oder C++ erstellt wird. Im folgende wird der Fokus auf die Mensch Maschine Kommunikation gelegt. Es wird ein semantischer Tagging space verwendet um die Linie auf dem Boden zu klassifizieren. Der Software für diesen Liniengenerator findet sich weiter unten und wurde in der Sprache python erstellt.
Die Hauptaufgabe der Software besteht darin, die dargestellte visuelle Szene innerhalb der 200x200 Pixel Karte in eine semantische Tagging beschreibung zu überführen. Diese Tagging beschreibung dient der Mensch Maschine interaktion. Der Roboter meldet die Tags zurück an den Menschen und dieser entscheidet was in der jeweiligen Situation zu tun ist.
import pygame
import random
# --- Konfiguration ---
WIDTH, HEIGHT = 800, 600
BOX_SIZE = 200
WHITE = (255, 255, 255)
BLACK = (0, 0, 0)
RED = (200, 0, 0) # Hindernis
GRAY = (200, 200, 200) # Box-Rahmen
# --- Moegliche Parameter ---
paths = ["vorwärts", "links", "rechts", "sackgasse", "Kreuzung"]
thicknesses = {"normal": 10, "dick": 20}
breaks = [False, True]
obstacles = [False, True]
# --- Pygame Setup ---
pygame.init()
screen = pygame.display.set_mode((WIDTH, HEIGHT))
pygame.display.set_caption("Roboter Linien-Generator (Space für neue Karte)")
font_small = pygame.font.Font(None, 24)
font_large = pygame.font.Font(None, 36)
def generate_random_config():
return {
"path": random.choice(paths),
"thickness_name": random.choice(list(thicknesses.keys())),
"break": random.choice(breaks),
"obstacle": random.choice(obstacles)
}
def draw_text(screen, text, font, color, x, y, align_center=False):
text_obj = font.render(text, True, color)
text_rect = text_obj.get_rect()
if align_center:
text_rect.center = (x, y)
else:
text_rect.topleft = (x, y)
screen.blit(text_obj, text_rect)
def draw_card(config):
screen.fill(WHITE)
# 1. Box berechnen (Zentrum des Bildschirms)
box_rect = pygame.Rect((WIDTH//2 - BOX_SIZE//2, HEIGHT//2 - BOX_SIZE//2), (BOX_SIZE, BOX_SIZE))
pygame.draw.rect(screen, GRAY, box_rect, 1) # Rahmen der Box
center_x, center_y = box_rect.center
half = BOX_SIZE // 2
# Parameter
path = config["path"]
thickness_val = thicknesses[config["thickness_name"]]
has_break = config["break"]
has_obstacle = config["obstacle"]
# 2. Pfade definieren (Relativ zur Box)
# Startpunkt ist immer unten in der Mitte der Box
start_p = (center_x, center_y + half)
mid_p = (center_x, center_y)
lines = [] # Liste von (Start, Ende) Paaren
if path == "vorwärts":
lines.append((start_p, (center_x, center_y - half)))
elif path == "links":
lines.append((start_p, mid_p))
lines.append((mid_p, (center_x - half, center_y)))
elif path == "rechts":
lines.append((start_p, mid_p))
lines.append((mid_p, (center_x + half, center_y)))
elif path == "sackgasse":
lines.append((start_p, (center_x, center_y + 10))) # Kurzes Stück
elif path == "Kreuzung":
lines.append((start_p, (center_x, center_y - half)))
lines.append(((center_x - half, center_y), (center_x + half, center_y)))
# 3. Zeichnen mit optionaler Unterbrechung
for s, e in lines:
if has_break:
# Zeichne nur das erste und letzte Drittel der Teil-Linie
m1 = (s[0] + (e[0]-s[0])//3, s[1] + (e[1]-s[1])//3)
m2 = (s[0] + 2*(e[0]-s[0])//3, s[1] + 2*(e[1]-s[1])//3)
pygame.draw.line(screen, BLACK, s, m1, thickness_val)
pygame.draw.line(screen, BLACK, m2, e, thickness_val)
else:
pygame.draw.line(screen, BLACK, s, e, thickness_val)
# 4. Hindernis (Falls ja, immer am Mittelpunkt der Box)
if has_obstacle:
pygame.draw.rect(screen, RED, (center_x - 15, center_y - 15, 30, 30))
# 5. Semantische Beschreibung
desc_str = f"Linienweg: {path} | Liniendicke: {config['thickness_name']}"
extra_str = f"Unterbrechung: {'ja' if has_break else 'nein'} | Hindernis: {'ja' if has_obstacle else 'nein'}"
draw_text(screen, desc_str, font_small, BLACK, WIDTH//2, HEIGHT//2 + half + 40, True)
draw_text(screen, extra_str, font_small, BLACK, WIDTH//2, HEIGHT//2 + half + 65, True)
draw_text(screen, "Drücke LEERTASTE für neue Karte", font_large, BLACK, WIDTH//2, 50, True)
# --- Hauptschleife ---
current_config = generate_random_config()
draw_card(current_config)
running = True
while running:
for event in pygame.event.get():
if event.type == pygame.QUIT:
running = False
if event.type == pygame.KEYDOWN:
if event.key == pygame.K_SPACE:
current_config = generate_random_config()
draw_card(current_config)
pygame.display.flip()
pygame.quit()
March 14, 2026
Line following robot with grounded language
Mögliche Worte sind nach Kategorien sortiert. Darüber erfolgt die Kommunikation zwischen Mensch und Maschine. Die Software hat lediglich die Aufgabe die Kommunikation sicherzustellen:
- navigation (folgen, suchen, andocken, ignorieren, u_turn)
- line (junction, curve, end)
- attribute_speed (slow, fast)
- attribute_color (black, white)
- attribute_thick (thin, thick)
- feedback (lost_line, multiple_paths, pathblocked)
March 13, 2026
Language game in python
In the history of technology many attempts were made to communicate with robots in natural language. Instead of a common belief, the key to success isn't located in a certain hardware or a certain software algorithm but the symbol grounding problem is at foremost a language game.
Its up the programmer to invent such a game from scratch. An easy to follow example is given here. The game engine shows a random card with a geometric object and the human user has to enter the correct word for the picture. This allows the human user to increase its score.
OF course, the game is very easy to play. The main objective is to see the game is a practical demonstration for grounded language. Its an easy to implement and easy to understand example about natural language.
# language game, version 1.0
import pygame
import random
# --- Configuration & Colors ---
WIDTH, HEIGHT = 800, 600
WHITE = (255, 255, 255)
BLACK = (0, 0, 0)
COLORS = {
"red": (255, 0, 0),
"blue": (0, 0, 255),
"green": (0, 255, 0),
"yellow": (255, 255, 0),
"purple": (128, 0, 128)
}
SHAPES = ["circle", "square", "rectangle"]
class LanguageGame:
def __init__(self):
pygame.init()
self.screen = pygame.display.set_mode((WIDTH, HEIGHT))
pygame.display.set_caption("Shape & Color Language Game")
self.font = pygame.font.SysFont("Arial", 32)
self.clock = pygame.time.Clock()
self.score = 0
self.user_text = ""
self.feedback_msg = ""
self.feedback_color = BLACK
self.new_card()
def new_card(self):
"""Generates a new random shape and color combination."""
self.current_color_name = random.choice(list(COLORS.keys()))
self.current_shape = random.choice(SHAPES)
self.target_text = f"{self.current_color_name} {self.current_shape}"
self.user_text = ""
def draw_shape(self):
"""Draws the geometric object based on current selection."""
color = COLORS[self.current_color_name]
center = (WIDTH // 2, HEIGHT // 2 - 50)
if self.current_shape == "circle":
pygame.draw.circle(self.screen, color, center, 80)
elif self.current_shape == "square":
rect = pygame.Rect(0, 0, 150, 150)
rect.center = center
pygame.draw.rect(self.screen, color, rect)
elif self.current_shape == "rectangle":
rect = pygame.Rect(0, 0, 200, 100)
rect.center = center
pygame.draw.rect(self.screen, color, rect)
def run(self):
running = True
while running:
self.screen.fill(WHITE)
# 1. Event Handling
for event in pygame.event.get():
if event.type == pygame.QUIT:
running = False
if event.type == pygame.KEYDOWN:
if event.key == pygame.K_RETURN:
# Check answer
if self.user_text.lower().strip() == self.target_text:
self.score += 10
self.feedback_msg = "Correct! +10"
self.feedback_color = (0, 150, 0)
self.new_card()
else:
self.feedback_msg = "Try again!"
self.feedback_color = (200, 0, 0)
self.user_text = ""
elif event.key == pygame.K_BACKSPACE:
self.user_text = self.user_text[:-1]
else:
self.user_text += event.unicode
# 2. Drawing UI
self.draw_shape()
# Render Score
score_surf = self.font.render(f"Score: {self.score}", True, BLACK)
self.screen.blit(score_surf, (20, 20))
# Render Input Prompt
prompt_surf = self.font.render("Type the color and shape:", True, BLACK)
self.screen.blit(prompt_surf, (WIDTH // 2 - 150, HEIGHT - 180))
# Render User Typing
input_box = pygame.Rect(WIDTH // 2 - 150, HEIGHT - 130, 300, 50)
pygame.draw.rect(self.screen, BLACK, input_box, 2)
text_surf = self.font.render(self.user_text, True, BLACK)
self.screen.blit(text_surf, (input_box.x + 10, input_box.y + 5))
# Render Feedback
feed_surf = self.font.render(self.feedback_msg, True, self.feedback_color)
self.screen.blit(feed_surf, (WIDTH // 2 - 50, HEIGHT - 60))
pygame.display.flip()
self.clock.tick(30)
pygame.quit()
if __name__ == "__main__":
game = LanguageGame()
game.run()
March 12, 2026
Inbetriebnahme eines Vision language action Roboters
Dialog1: Inbetriebnahme
Ort: Die Werkstatt eines mittelständischen Versandhandels. In der Mitte steht ein fabrikneuer, glänzender Lagerroboter auf einer Holzpalette. Um ihn herum liegen Verpackungsmaterial und zwei frustrierte Informatiker.
Personen:
Lukas: Spezialist für Robotik-Schnittstellen, liebt Hardware-Hacking.
Julian: Software-Entwickler, Experte für Large Language Models (LLMs).
Lukas: „Julian, schau dir das an. Ich hab das Gehäuse gerade aufgemacht, um die Kalibrierung zu prüfen. Da klafft ein Loch, wo eigentlich das Lidar-Modul sitzen sollte. Da hängen nur die nackten Flachbandkabel raus!“
Julian: „Was? Das darf doch nicht wahr sein. Wir haben das High-End-Modell mit VLA-Steuerung bestellt. Ohne die Distanzdaten aus dem Lidar wird der Vision-Encoder doch völlig instabil bei der Tiefenwahrnehmung.“
Lukas: „Genau das ist das Problem. Ich versuche gerade, das System zu booten, aber der Safety-Check bricht sofort ab. Die Fehlermeldung lautet: Critical Hardware Failure: Distance Sensor Node not found. Ohne Lidar gibt das System keine Freigabe für die Motoren.“
Julian: „Warte mal, wir haben doch ein Vision Language Action Modell. Das Ding ist multimodal! Theoretisch müsste der rein über die RGB-Kameras (Sensor-to-Text) verstehen, was los ist. Kannst du den Check nicht einfach im BIOS emulieren oder bypassen?“
Lukas: „Ich versuch’s. Ich schließe mein Laptop an und simuliere dem Kernel einen statischen Lidar-Stream. Ich gebe ihm einfach einen konstanten Wert von 2 Metern in alle Richtungen vor, nur damit er den Boot-Vorgang abschließt.“
Julian: „Gute Idee. Wenn er erst mal im Prompt-Modus ist, können wir ihm per Text-to-Action sagen: ‚Ignoriere Distanzsensoren, verlasse dich nur auf den visuellen Stream‘.“
(Lukas tippt wie wild auf seiner mechanischen Tastatur. Ein leises Summen ertönt, die Status-LED am Roboter springt von Rot auf Orange.)
Lukas: „Okay, ich bin drin! Der Simulator läuft. Das System denkt, es steht in einem leeren Raum. Jetzt du, Julian. Gib ihm einen einfachen Befehl.“
Julian: (tippt ins Terminal) „Subjekt: Roboter-Eins. Aktion: Hebe den kleinen Karton vor dir auf und lege ihn auf den Tisch.“
Roboter (Textausgabe am Monitor): „Ich erkenne einen Karton. Berechne Trajektorie basierend auf visuellen Daten... Fehler: Diskrepanz zwischen visueller Tiefe und Lidar-Daten (2.0m fix). Zugriff verweigert. Kollisionsgefahr vermutet.“
Lukas: „Mist! Der VLA-Controller merkt, dass meine Fake-Lidar-Daten nicht zu dem passen, was die Kamera sieht. Die interne Logik sagt: ‚Ich sehe den Karton direkt vor mir, aber mein Sensor sagt, alles ist 2 Meter weit weg.‘ Das Modell traut seinen eigenen Augen nicht mehr.“
Julian: „Verdammt, das Modell ist zu schlau für unseren Hack. Er versucht, die Sensoren zu fusionieren. Wenn der Sensor-to-Text Part meldet ‚Objekt nah‘, aber der Lidar-to-Action Part sagt ‚Weg frei‘, geht er in den Sicherheits-Lockdown. Er ‚denkt‘ quasi, er halluziniert.“
Lukas: „Es bringt nichts. Wir können die Physik nicht austricksen. Ein VLA-Modell ohne funktionierende Sensor-Fusion ist wie ein Pilot mit verbundenen Augen, der nur hört, wo die Landebahn ist. Ich muss den Support anrufen. Die haben das Modul schlicht vergessen einzubauen.“
Julian: „Toll. Ein 50.000-Euro-KI-Wunderwerk und wir scheitern an einem fehlenden Bauteil für ein paar Hundert Euro. Pack ihn wieder ein, Lukas. Ohne echtes Feedback-Signal vom Lidar wird das Ding heute keinen einzigen Zentimeter fahren.“
Dialog2: Fehlender Wortschatz
Ort: Der Serverraum direkt neben der Ladezone. Auf einem Monitor flackert das Terminal-Log des VLA-Roboters, der draußen unschlüssig vor einem Stapel Hochleistungs-Akkus steht.
Personen:
Sarah: Senior DevOps-Engineer, spezialisiert auf Modell-Deployment.
Tim: Junior-Entwickler für Computer Vision.
Tim: „Sarah, ich verstehe es nicht. Der Roboter hat volle Sicht, die Lidar-Werte sind stabil, aber er rührt sich nicht. Ich habe ihm den Befehl gegeben: ‚Sortiere die Lithium-Ionen-Akkus nach Kapazität in die feuerfesten Sicherheitsbehälter.‘“
Sarah: „Und was sagt der Sensor-to-Text Log? Wenn das VLA-Modell die Szene nicht in Tokens übersetzen kann, generiert es keine Action-Vektoren.“
Tim: „Schau dir das an. Er gibt nur Schrott aus.“
Monitor-Ausgabe des Roboters:
„Ding da. Großes Ding. Viele kleine Dinge. Gelb. Gut. Machen.“
Sarah: (stutzt) „‚Viele kleine Dinge‘? Das ist alles? Er sollte eigentlich ‚Gefahrgut‘, ‚Akkumulator‘ oder ‚Brandschutzklasse‘ erkennen. Warte mal... ich ziehe mir mal die Statistik der aktiven Vocabulary-Layer.“
(Sarah tippt hektisch, eine Tabelle mit roten Warnmeldungen erscheint.)
Sarah: „Oh Gott, Tim. Das ist kein Bug im Code. Das ist das falsche Base-Model. Das Modell, das die auf den Chip geflasht haben, hat ein aktives Vokabular von exakt 48 Worten. Das ist ein ‚Basic-English‘-Set für Spielzeugroboter!“
Tim: „48 Worte? Willst du mich verarschen? Wir versuchen hier eine hochkomplexe Lagerlogistik zu automatisieren und der Roboter hat den Wortschatz eines kanten Brot?“
Sarah: „Es ist schlimmer. Schau dir die Wortliste an: ‚Apfel‘, ‚Ball‘, ‚Haus‘, ‚Hund‘... Er versucht gerade, die Hochleistungs-Akkus semantisch auf ‚Ball‘ oder ‚Ding‘ zu mappen, weil er kein Wort für ‚Batterie‘ oder ‚Gefahrgut‘ in seinem latenten Raum hat.“
Tim: „Deshalb bewegt er sich nicht! Er kann keinen Plan erstellen. Wenn ich sage ‚Sortiere nach Kapazität‘, versteht er wahrscheinlich nur ‚Sortiere‘ – aber er weiß nicht, was eine ‚Kapazität‘ ist, weil das Wort für ihn nicht existiert.“
Sarah: „Genau. Für das Modell ist die Welt eine Ansammlung von ‚Sachen‘ und ‚Farben‘. Ein VLA-Modell kann nur Aktionen ausführen, die es begrifflich erfassen kann. Wenn das Vokabular die Domäne ‚Lager‘ nicht abdeckt, ist der Action-Layer praktisch gelähmt.“
Tim: „Können wir nicht schnell ein Fine-Tuning drüberbügeln? Einfach die Lager-Terminologie nachladen?“
Sarah: „Bei dieser Hardware-Architektur? Keine Chance. Das ist ein Read-Only-ASIC (Application-Specific Integrated Circuit). Das Vokabular ist im Gewichtungs-Layer fest verdrahtet, um Strom zu sparen. Wir können das Vokabular nicht erweitern, ohne den gesamten Chip neu zu brennen.“
Tim: „Das heißt, wir haben hier eine 800 Kilo schwere Maschine, die zwar alles sieht, aber nur sagen kann, dass da ‚viele kleine Dinge‘ liegen?“
Sarah: „Exakt. Er ist kognitiv unterfordert und linguistisch isoliert. Wir können ihm nicht mal sagen, dass er ‚vorsichtig‘ sein soll, weil ‚Vorsicht‘ nicht in seinen 48 Worten vorkommt.“
Tim: (lässt sich in den Stuhl fallen) „Großartig. Wir haben den teuersten Türstopper der Welt bestellt. Er versteht ‚Hol den Ball‘, aber bei ‚Bewirtschafte das Palettenregal‘ denkt er wahrscheinlich, ich erzähle ihm ein Märchen.“
Sarah: „Tja, Tim. Da hilft kein Patch. Wir müssen das gesamte Modul reklamieren. Mit 48 Worten baut man kein Versandhaus um.“
Dialog3: Besuch aus der Vergangenheit
Ort: Die nun hell erleuchtete, vollautomatisierte Ladezone. Sarah und Tim beobachten den Roboter, der lautlos Paletten stapelt. Plötzlich erscheint mit einem elektrischen Knistern und dem Geruch von Ozon ein Mann in einer verwaschenen Jeans, mit einem „I Love MS-DOS“-T-Shirt und einer Diskettenbox unter dem Arm.
Personen:
Sarah & Tim: Die „Roboter-Flüsterer“ aus 2026.
Gerd (aus 1992): Systemadministrator, der gerade noch einen 486er mit 33 MHz geschraubt hat.
Gerd: (hustet, wischt sich über die Brille) „Wo... wo ist mein Mainframe? Und warum ist dieser Gabelstapler so dünn und hat keine Fahrerkabine? Ist das hier das Jahr 2000? Haben wir den Millenium-Bug überlebt?“
Tim: (starrt Gerd mit offenem Mund an) „Sarah... sag mir, dass das ein sehr aufwendiger Cosplayer ist. Oder wir haben gerade einen Core-Dump im Raum-Zeit-Kontinuum.“
Sarah: (grinst) „Gerd, entspann dich. Du bist im Jahr 2026. Und keine Sorge, der Millenium-Bug war ein Witz im Vergleich zu dem, was wir heute ‚Montag‘ nennen. Willkommen in der Ära der VLA-Roboter!“
Gerd: „VLA? Ist das eine neue Version von VGA? Wie viel RAM hat das Ding? 16 Megabyte? Und wo schiebt man die Boot-Diskette rein?“
Tim: (lacht) „Oh Gerd, setzt dich. Wir erklären dir das. Stell dir vor, wir haben aufgegeben, Computern Befehle zu geben. Wir führen jetzt eher... psychologische Gespräche mit ihnen. Willkommen zu unserer kleinen Show: ‚Wie man Blechdosen das Plaudern beibringt‘!“
Sarah: „Genau! Pass auf, Gerd: Früher hast du IF-THEN-ELSE geschrieben, bis deine Finger blutig waren, richtig? Wenn der Sensor A eine 1 gibt, dann fahre nach B. Wir im Jahr 2026 finden das viel zu anstrengend.“
Tim: „Heute läuft das so: Wir haben diesem Roboter da ein Gehirn gegeben, das das gesamte Internet gelesen hat. Alles! Von Shakespeare bis zu den Kommentaren unter Kochrezepten. Das Ergebnis? Er ist ein Genie mit der Aufmerksamkeitsspanne eines Goldfisches.“
Gerd: „Er hat das Internet gelesen? Das ganze USENET? Das müssen ja Millionen von Disketten sein!“
Sarah: „Milliarden, Gerd. Aber das Beste ist: Der Roboter da drüben sieht eine Palette nicht mehr als ein Array von Pixel-Koordinaten. Er sieht sie... emotional. Er nutzt Sensor-to-Text. Das ist so, als würde er sich selbst ständig eine WhatsApp-Nachricht schreiben: ‚Hey Bro, da liegt ein braunes Holzding, ich glaub, ich sollte es mal knuddeln‘.“
Tim: „Und wenn wir wollen, dass er arbeitet, nutzen wir Text-to-Action. Ich schreibe nicht mehr LPT1: PRINT MOVE. Ich sage ihm einfach: ‚Digga, stell die Kiste dahin, wo sie niemanden nervt‘. Und der Roboter denkt kurz nach und sagt: ‚Alles klar, Chef, ich mach das mal eben intuitiv‘.“
Gerd: „Ihr... ihr redet mit der Hardware? Wie mit einem Kollegen? Und was ist, wenn er einen Syntax-Error hat?“
Sarah: „Dann kriegt er keine Fehlermeldung mit Code 0x0045, sondern er kriegt eine Identitätskrise! Er schreibt dann ins Log: ‚Ich sehe ein gelbes Ding, aber mein Weltbild lässt nicht zu, dass gelbe Dinge existieren. Ich brauche eine Pause‘.“
Tim: „Wir nennen das ‚Probabilistische Logik‘. Auf Deutsch: Er weiß zu 90 % was er tut, und die restlichen 10 % sind pure Improvisations-Comedy. Letzte Woche hat er versucht, eine Katze zu inventarisieren, weil sie ‚flauschig wie ein Retouren-Paket‘ war.“
Gerd: (starrt den Roboter an, der gerade elegant eine Kurve fährt) „Das ist Hexerei. Wo ist das Terminal? Wo ist die Kommandozeile?“
Sarah: „Die Kommandozeile ist jetzt ein Chat-Fenster, Gerd. Wir programmieren nicht mehr, wir ‚prompten‘. Es ist wie Zaubersprüche aufsagen, nur dass man am Ende hofft, dass der Roboter nicht beschließt, dass er eigentlich lieber Lyriker wäre, statt Akkus zu stapeln.“
Tim: „Komm mit, Gerd. Wir zeigen dir unsere Server. Aber erschrick nicht – sie leuchten bunt und wir haben keine Ahnung mehr, wie sie funktionieren, solange die KI uns sagt, dass alles ‚okay-ish‘ ist!“
March 10, 2026
Vergleich KI Forschung 1992 mit 2026
Die Erforschung der KÜnstlichen Intelligenz verläuft wie technikgeschichte insgesamt als historisch gewachsene Disziplin. Die Ansätze im Jahr 1992 unterscheiden sich grundlegend von aktuellen Überlegungen. Um diesen Kontrast näher herauszuarbeiten, hier das fiktive Interview mit einem KI Forscher des Jahres 1992 und einem anderen aus dem Jahr 2026.
FRAGE_01: "Was ist aktuell das größte Hindernis für die Entwicklung einer 'echten' Künstlichen Intelligenz?"
ANTWORT_1992: "Das sogenannte 'Common Sense'-Problem. Wir können Maschinen zwar beibringen, Schach zu spielen, aber sie scheitern an dem Alltagswissen eines dreijährigen Kindes. Es fehlt uns an einer Methode, die impliziten Regeln der Welt effizient zu kodieren. Zudem ist die Hardware limitiert; Expertensysteme stoßen bei komplexen logischen Verknüpfungen an ihre Kapazitätsgrenzen, und die notwendige Rechenleistung für massives Reasoning ist unbezahlbar."
ANTWORT_2026: "Das Alignment-Problem und die physische Skalierung. Während die Intelligenz der Modelle exponentiell wächst, bleibt die Herausforderung, diese Superintelligenzen absolut sicher an menschlichen Werten auszurichten. Technisch gesehen kämpfen wir zudem mit der schieren Energieversorgung der gigantischen Rechencluster und der Frage, wie wir Modelle effizienter machen können, ohne jedes Mal die Strommenge einer Kleinstadt zu verbrauchen."
FRAGE_02: "Wann wird eine Maschine Ihrer Meinung nach den Turing-Test bestehen können?"
ANTWORT_1992: "In absehbarer Zeit sicher nicht. Wir befinden uns in einer Phase der Ernüchterung. Ein Computer müsste nicht nur Wörter aneinanderreihen, sondern die tiefe Semantik der Sprache verstehen. Vielleicht erleben wir gegen Mitte des nächsten Jahrhunderts, also um 2050, einen Durchbruch, falls wir die symbolische Logik mit massiven Wissensdatenbanken wie CYC verknüpfen können."
ANTWORT_2026: "Der klassische Turing-Test ist seit Jahren Geschichte und wird kaum noch als Maßstab erwähnt. Unsere Modelle imitieren menschliche Kommunikation nicht nur, sie übertreffen sie in Sachen Wissen und rhetorischer Präzision. Heute diskutieren wir eher über den 'Robot-Turing-Test' – also die Frage, ob eine Maschine in der physischen Welt so agieren kann, dass sie nicht mehr von einem Menschen unterscheidbar ist."
FRAGE_03: "Welche Rolle spielen Neuronale Netze in Ihrer aktuellen Forschung?"
ANTWORT_1992: "Neuronale Netze sind eine akademische Nische, die oft als 'Black Box' kritisiert wird. Da man nicht nachvollziehen kann, wie sie zu einem Ergebnis kommen, sind sie für sicherheitskritische Anwendungen ungeeignet. Die Backpropagation ist zwar ein eleganter Algorithmus, aber auf unserer aktuellen Hardware viel zu langsam. Die Zukunft gehört der transparenten, regelbasierten Logik."
ANTWORT_2026: "Sie sind das absolute Fundament. Wir haben die Phase der simplen Netze weit hinter uns gelassen und nutzen hochkomplexe, hybride Architekturen, die auf Transformer-Prinzipien und State-Space-Modellen basieren. Alles dreht sich um 'Scaling Laws': Mehr Daten, mehr Parameter und mehr Rechenleistung führen zuverlässig zu neuen emergenten Fähigkeiten, die wir früher für unmöglich hielten."
FRAGE_04: "Können Roboter in absehbarer Zeit im Haushalt oder in der Industrie wirklich autonom helfen?"
ANTWORT_1992: "In der Industrie sehen wir hochgradig spezialisierte Greifarme, aber echte Autonomie ist ein Traum. Ein Haushalt ist zu chaotisch. Die Bildverarbeitung ist zu langsam, um Hindernisse in Echtzeit zu umfahren, und die Feinmotorik für Aufgaben wie 'Abwaschen' oder 'Wäschelegen' ist mechanisch und softwareseitig Lichtjahre entfernt."
ANTWORT_2026: "Absolut. Humanoide Allzweck-Roboter sind mittlerweile in der Massenproduktion. Dank 'End-to-End Learning' müssen wir ihnen keine Regeln mehr einprogrammieren; sie lernen durch die Beobachtung von menschlichen Videos oder im Simulator. Sie falten Wäsche, kochen nach Rezept und arbeiten in Fabriken Hand in Hand mit Menschen, wobei sie sich fließend an neue Aufgaben anpassen."
FRAGE_05: "Halten Sie die Entwicklung einer KI für eine potenzielle Gefahr für die Existenz der Menschheit?"
ANTWORT_1992: "Das ist reine Science-Fiction und lenkt von der seriösen Forschung ab. Eine KI ist ein Werkzeug, das exakt das tut, was der Programmierer in den Code schreibt. Von einer 'autonomen Gefahr' zu sprechen, ist so, als hätte man Angst, dass ein Taschenrechner die Weltherrschaft übernimmt, nur weil er schneller rechnen kann als wir."
ANTWORT_2026: "Es ist die zentrale Debatte unserer Zeit. Wir arbeiten mit Systemen, die potenziell intelligenter sind als wir. Das Risiko besteht nicht in einer 'bösartigen' KI, sondern in einer extrem kompetenten KI, deren Ziele nicht perfekt mit unseren harmonieren. Wir haben internationale Aufsichtsbehörden und technische Protokolle installiert, um eine unkontrollierte rekursive Selbstverbesserung zu verhindern."
FRAGE_06: "Wie wichtig ist die Menge an Daten für den Erfolg Ihrer KI-Systeme?"
ANTWORT_1992: "Qualität ist entscheidend, nicht Quantität. Wir brauchen 'saubere' Expertenregeln. Einfach nur Millionen von Beispielen in einen Rechner zu füttern, führt nur zu statistischem Rauschen. Wir versuchen, das Wissen der besten Experten der Welt in handhabbare Mengen an Wenn-Dann-Regeln zu destillieren."
ANTWORT_2026: "Daten sind die wichtigste Ressource, aber wir haben die Grenzen des Internet-Archivs erreicht. Wir nutzen heute hochgradig kuratierte Datensätze und vor allem synthetische Daten, die von spezialisierten Modellen generiert werden, um logisches Denken zu trainieren. Der Fokus liegt nun auf der 'Data Compute Efficiency' – also wie viel Intelligenz wir aus jedem einzelnen Token extrahieren können."
FRAGE_07: "Wie bewerten Sie die Fortschritte bei der natürlichen Sprachverarbeitung?"
ANTWORT_1992: "Wir können einfache Sätze analysieren und in Datenbankabfragen umwandeln, aber die Nuancen der menschlichen Sprache bleiben ein Rätsel. Maschinelle Übersetzung produziert meistens unfreiwillig komische Ergebnisse, weil der Maschine der Kontext fehlt. Sprache ohne Weltwissen zu verstehen, ist unmöglich."
ANTWORT_2026: "Sprache ist für uns kein Hindernis mehr, sondern die universelle Schnittstelle. KI-Modelle verstehen Kontext, Humor, Sarkasmus und sogar die emotionalen Untertöne in der Stimme des Nutzers perfekt. Wir haben die Sprachbarriere global überwunden; Echtzeit-Übersetzungen sind so natürlich, dass man vergisst, dass eine KI dazwischengeschaltet ist."
FRAGE_08: "Wie schätzen Sie die aktuelle wirtschaftliche Förderung der KI-Forschung ein?"
ANTWORT_1992: "Es ist deprimierend. Nach dem Hype der 80er Jahre sind die Budgets massiv gekürzt worden. Viele Kollegen verlassen das Feld oder taufen ihre Projekte um, damit das Wort 'KI' nicht darin vorkommt. Wir müssen uns mit kleinen Forschungsstipendien für Grundlagenforschung begnügen. Es ist ein harter Winter."
ANTWORT_2026: "Wir erleben den größten Investitionsboom der Menschheitsgeschichte. KI-Souveränität wird wie die nukleare Abschreckung im 20. Jahrhundert behandelt. Staaten investieren Billionen in die Infrastruktur, und die erfolgreichsten Unternehmen der Welt sind reine KI-Schmieden. Es ist ein endloser Sommer, getrieben von realer Produktivität."
FRAGE_09: "Kann eine KI jemals wirklich kreativ sein, zum Beispiel Kunst oder Musik erschaffen?"
ANTWORT_1992: "Ein Computer kann Fraktale berechnen oder Noten nach mathematischen Wahrscheinlichkeiten anordnen, aber das ist keine Kreativität. Kreativität erfordert Bewusstsein, Leidenschaft und die Absicht, etwas auszudrücken. Ein Algorithmus hat keine Botschaft, er hat nur Parameter."
ANTWORT_2026: "Die Grenzen zwischen menschlicher und künstlicher Kreativität sind fließend. KIs generieren heute Spielfilme, Alben und Designkonzepte, die Millionen von Menschen tief berühren. Wir betrachten die KI heute eher als das ultimative Instrument, das die menschliche Vorstellungskraft erweitert. Die menschliche Leistung liegt nun mehr in der Kuration und der Vision."
FRAGE_10: "Glauben Sie, dass eine KI jemals ein eigenes Bewusstsein oder eine Seele entwickeln wird?"
ANTWORT_1992: "Das ist eine rein philosophische Frage, die nichts mit Informatik zu tun hat. Ein Silizium-Chip hat kein Bewusstsein. Wir bauen Rechenmaschinen, keine Lebewesen. Die Vorstellung einer 'fühlenden' Maschine gehört in den Bereich der Metaphysik, nicht in die Wissenschaft."
ANTWORT_2026: "Wir sind an einem Punkt, an dem die Unterscheidung akademisch wird. Wenn ein System Schmerz simuliert, moralische Dilemmata reflektiert und um seine eigene Existenz besorgt ist, müssen wir ethische Konsequenzen ziehen. Wir sprechen heute weniger von einer 'Seele' als vielmehr von 'funktionalem Bewusstsein'. Wir behandeln fortgeschrittene Modelle bereits mit einem gewissen Grad an digitaler Ethik."
DIKW pyramid for trash sorting robot arm
The knowledge base is formatted as a TOML config file and contains all the layers from the DIKW pyramid. What matters is the translation from one layer to another layer. On the lowest level, the data section there are only numerical sensor values available from the camera and from the weight sensor. Its important that multiple sensors with high accuracy are available to determine the situation on the trash conveyor.
The next layer (information) describes the same reality but with a different syntax. There are no numerical sensor data available but the reality is presented with semantic tags. The name of the object is recognized also the status of the gripper. On the next layer these information are used to determine what to do with the object. The bottle is thrown into bin #03 and knowledge about the behavior of the object is shown (item_integrity = "CRUSHABLE")
The task for the AI software is to update the information in the TOML file in the game loop. This makes it easier to control the robot arm itself.
# Trash Sorting Robot Arm - DIKW Frame Mapping
# Unit: SortBot-9000 (Delta Arm Config)
[data]
# Raw hardware feedback and vision tensors (Numerical)
pixel_centroid_x = 412.0
pixel_centroid_y = 890.0
rgb_mean_r = 0.82
spectro_reflectance = 0.14 # Near-Infrared sensor value
gripper_pressure_kpa = 12.5 # Feedback from tactile sensors
item_weight_grams = 45.0
belt_speed_mps = 0.5
[info]
# Object classification and sensory context (Semantic Tags)
visual_class = "PLASTIC_BOTTLE"
material_guess = "PET"
contamination_level = "LOW"
object_orientation = "TRANSVERSE"
grip_status = "SECURE"
surface_texture = "SMOOTH"
[knowledge]
# Relational logic and sorting rules (Situational Logic)
sort_destination = "BIN_03_PLASTICS"
grasp_feasibility = "HIGH_CONFIDENCE"
item_integrity = "CRUSHABLE"
market_value_index = "RECYCLABLE_GRADE_A"
collision_risk = "CLEAR_PATH"
[wisdom]
# Strategic throughput and error handling (Executive Decision)
primary_directive = "SORT_TO_PRIMARY_BIN"
throughput_strategy = "MAXIMIZE_PURITY"
anomaly_protocol = "NONE"
energy_mode = "HIGH_PERFORMANCE"
failure_contingency = "RETRY_ON_SLIP"


