Robotics and Artificial Intelligence: Selbstfahrendes Auto gesteuert mit Sprache

Setting: Innenraum eines hochmodernen Prototyps für autonomes Fahren. Die Sitze sind futuristisch, aber bequem. Draußen, auf einer mehrspurigen Stadtstraße, herrscht dichter, stockender Verkehr.

Personen:
* A: Dr. Elias Vogel, der leitende KI-Techniker (ungefähr 40).
* B: Max Huber, ein neugieriger Besucher und Journalist (ungefähr 30).

(Das Auto, Modell "Orion-Prototyp 7", steht seit einigen Minuten still. Der Motor ist lautlos. Auf dem großen Display flimmern Echtzeit-Daten und eine detaillierte Karte.)

B (Max): Tja, Herr Dr. Vogel. Selbst die modernste Technologie kapituliert vor einem Berliner Freitagnachmittag. Ich dachte, Ihr Orion-System hätte eine geheime Abkürzung für solche Fälle.

A (Dr. Vogel): (Lächelt) Wünschenswert, Herr Huber. Aber selbst wir sind an die Gesetze der Physik und der Straßenverkehrsordnung gebunden. Wir stehen hier nicht aufgrund eines Fehlers, sondern weil die Logik des Verkehrs es so will. Sehen Sie auf dem Display: Der Stau löst sich erst in etwa zwanzig Minuten auf. Eine perfekte Gelegenheit, um Ihnen das Herzstück des Systems zu erklären.

B: Ausgezeichnet. Denn genau das beschäftigt mich seit der Abfahrt vom Parkplatz: Dieses Auto fährt nicht nur, es denkt in Sprache, wie Sie sagten. Sie nennen es das "Language-to-Action"-Netz. Wie genau muss ich mir das vorstellen? Übersetzt das Auto alles, was es sieht, in einen internen Monolog?

A: Im Prinzip ja, aber es ist präziser als ein einfacher Monolog. Wir haben das System auf Basis eines Large Language Model (LLM) entwickelt, das fundamental für autonomes Fahren optimiert wurde. Der menschliche Verstand verarbeitet visuelle und sensorische Informationen, indem er sie in Konzepte und Beschreibungen umwandelt: „Die rote Ampel ist an, der Fußgänger läuft auf die Straße, der Wagen links bremst.“ Das ist das Konzept der Kontextualisierung durch Sprache.

Unser System, wir nennen es intern "Codex", tut dasselbe. Die Sensordaten z.B. Lidar, Radar, Kameras, werden nicht direkt in Steuerbefehle umgesetzt. Stattdessen übersetzt Codex die aktuelle Verkehrssituation, die Umgebung und die Vorhersage in eine präzise, strukturierte interne Sprache. Erst aus diesem Sprachmodell leitet das Netzwerk die nächsten Fahrbefehle ab.

B: Das ist faszinierend. Es ist also ein LLM, das auf die Domäne Autofahren zugeschnitten ist. Das führt mich sofort zu meiner ersten Frage: Wie groß ist der Wortschatz, den Codex wirklich versteht? Ein normales großes Sprachmodell kennt Millionen von Wörtern, aber das braucht Ihr Auto doch gar nicht.

A: Das ist der entscheidende Punkt. Wir haben den Wortschatz extrem reduziert und spezialisiert. Codex versteht nicht "Philosophie" oder "Quantenmechanik". Der aktive Vokabularbereich, mit dem es arbeitet, liegt bei etwa 25000 bis 30000 Begriffen.

B: Nur so wenig? Das ist überraschend.

A: Es sind hochspezifische Begriffe, Herr Huber. Sie stammen aus drei primären Domänen:

1. Fahrzeugdynamik und Manöver: Wörter wie „Spurwechsel vorbereiten“, „sanfte Bremsung“, „Beschleunigung“, „Übersteuern korrigiert“.
2. Verkehrsumgebung und Objekte: Das sind die Nomen „Fußgänger“, „Fahrradfahrer“, „Lichtsignal“, „Baustelle“, „Straßenschaden Typ A“. Diese sind mit extrem präzisen geometrischen und prädiktiven Attributen verknüpft.
3. Gesetzgebung und Entscheidungsfindung (High-Level): Hier sprechen wir über die Regeln: „§ 1 StVO konform“, „Priorität rechts vor links“, „Notfall-Halt eingeleitet“.

Jedes Wort ist im Grunde ein Symbol für eine komplexe Datenstruktur, die Ort, Geschwindigkeit, Wahrscheinlichkeit und Sicherheitsmarge beinhaltet. Es ist ein hochkomprimiertes, optimiertes Verkehrs-Idiom.

B: Und wie sieht es mit der Spracherkennung aus? Ist Codex rein auf Englisch trainiert, wie die meisten großen KI-Systeme, oder kann es auch auf Deutsch reagieren? Wir sind ja gerade in Deutschland.

A: Unser Prototyp hier ist von Grund auf multilingual konzipiert, was unsere Trainingsdaten betrifft. Der Kern des Codex-Modells operiert zwar intern in einer Art neutraler, logischer Repräsentationssprache, die wir für die Recheneffizienz entwickelt haben. Aber es wurde auf Datensätzen in Englisch und Deutsch trainiert.

B: Warum diese zwei?

A: Englisch als globaler Standard, und Deutsch wegen der Spezifität unserer Straßenverkehrsordnung und unserer primären Testregion. Das bedeutet, wenn ein Straßen- oder Baustellenschild das Wort "Umleitung" enthält, wird es direkt als das Konzept erkannt, das im deutschen Kontext gilt. Ein rein englisch trainiertes Modell müsste es erst übersetzen und dann die deutsche Regel anwenden, was eine kritische Verzögerung darstellen könnte. Codex verarbeitet die visuelle Information und labelt sie direkt in der richtigen Sprache für die Aktionsentscheidung.

B: Das ist ein sehr durchdachter Ansatz zur Fehlervermeidung. Das bringt mich zur Königsfrage: Mit welchem Datensatz haben Sie dieses spezialisierte LLM trainiert? Es muss ja gigantisch sein, aber gleichzeitig so fokussiert.

A: Es ist gigantisch, ja, aber mit einem Unterschied zu herkömmlichen LLMs. Wir haben uns auf zwei Hauptkomponenten konzentriert:

1. Visuelle/Sensorische Annotationen (~90% des Datensatzes): Wir verwenden Milliarden von Kilometern an simulierten Fahrten und Millionen von Kilometern an realen Fahrten, die wir selbst erfasst haben. Der Schlüssel ist die sprachliche Annotation. Jede kritische Situation – eine fast-Kollision, ein schwieriger Spurwechsel, eine überraschende Bremsung – wurde nicht nur mit visuellen Bounding Boxen annotiert, sondern auch mit einer detaillierten Ground-Truth-Sprachbeschreibung. Zum Beispiel: "Der rote SUV (ID 47) hat den toten Winkel verlassen und beschleunigt. Reduziere die Geschwindigkeit um 5 km/h, um einen sicheren Abstand wiederherzustellen.“ Das ist die Sprache, die das Netzwerk lernen muss.
2. Regelwerk und Logik (~10% des Datensatzes): Dies ist ein handkuratierter Datensatz, der alle relevanten Gesetzesparagraphen der StVO, der EU-Vorschriften und komplexer Fahrmanöver in eine formalisierte logische Sprache übersetzt. Das ist die grammatikalische und juristische Grundlage, die dafür sorgt, dass Codex nicht nur fährt, sondern verantwortungsvoll handelt.

B: Also lernt das Auto nicht nur zu fahren, es lernt auch, warum es fährt. Und es lernt, seine eigenen Entscheidungen intern mit Sprache zu begründen.

A: Exakt. Das bietet uns einen unschätzbaren Vorteil: Interpretierbarkeit und Debugging. Wenn das Auto später eine Fehlentscheidung trifft, können wir seinen internen Monolog – die Kette der Sprachbefehle und logischen Schlussfolgerungen – exakt zurückverfolgen. Wir lesen nicht nur „Aktion: Gebremst“, sondern „Grund: Fußgänger (ID 3) hat die Fahrbahn betreten (Wahrscheinlichkeit 99%), Notbremsung (Threshold 8 von 10) eingeleitet.“ Das ist für die Zertifizierung und die Fehlersuche revolutionär.

(Der Verkehr vor ihnen beginnt sich langsam zu bewegen.)

B: Herr Dr. Vogel, das ist wirklich erstaunlich. Ihr Ansatz, die rohen Sensordaten erst in ein hochspezialisiertes Sprachmodell zu übersetzen und daraus die Aktion abzuleiten, scheint mir ein echter Paradigmenwechsel im autonomen Fahren zu sein. Vielen Dank für diese tiefen Einblicke während unserer Pause.

A: Gern geschehen, Herr Huber. Und sehen Sie, die menschliche Logik hatte Recht: Die zwanzig Minuten sind um. Codex hat soeben den Befehl „Fahre mit reduzierter Geschwindigkeit dem Fluss des Verkehrs folgend an“ generiert. Wir sind wieder unterwegs.

(Das Auto gleitet sanft an.)

Robotics and Artificial Intelligence

October 17, 2025

Selbstfahrendes Auto gesteuert mit Sprache

No comments:

Post a Comment