Robotic Foundation Models sind multimodale KI-Modelle, die Roboter über Sprache, Bilder und Tastsinn steuern. Im Interview mit Leonard Schmedding spricht Prof. Dr. Wolfram Burgard über diese Technologie. Er erklärt, warum sie den nächsten Durchbruch der Robotik markiert. Der Robotik-Pionier ordnet ein, was klassische Sprach-Modelle bei echten Robotern nicht leisten.
Probabilistische Robotik: das Fundament selbstfahrender Autos
Wolfram Burgard gilt als Mitbegründer der probabilistischen Robotik. Diese Methode schätzt die Roboter-Position über Statistik. Schon 1997 schickte er den Roboter Rhino durch das Deutsche Museum in Bonn. Ein Jahr später folgte Minerva im Smithsonian in Washington.
Diese Roboter führten Besucher autonom durch die Ausstellung. Sie planten Routen, hielten an Exponaten und erklärten Inhalte. Der Durchbruch lag in der robusten Navigation ohne Fernsteuerung. Minerva baute ihre Karte sogar selbst und verortete sich gleichzeitig darin.
Burgards Doktorand brachte die Methode später zu Sebastian Thrun nach Stanford. Gemeinsam gewannen sie mit dem Roboterauto Stanley die DARPA Grand Challenge. Larry Page erkannte das Potenzial und Google X startete daraus Waymo. Heute steckt ein probabilistischer Algorithmus in fast jedem Robotaxi. Wie Thrun auf diese Reise blickt, zeigt unser Gespräch mit Sebastian Thrun.
Robotic Foundation Models: warum Roboter mehr als ein LLM brauchen
Ein Sprach-Modell erzeugt Text aus Text. Es plappert, wie Burgard es nennt. Ein Roboter muss aber die physische Welt verändern. Dafür braucht er Verkörperung, im Fachjargon Embodiment.
Robotic Foundation Models verbinden Bild, Sprache und Aktion in einem Modell. Fachleute sprechen von Vision Language Action Modellen, kurz VLA. Diese Systeme verstehen Befehle wie 'greife die Vase auf dem Tisch'. Sie übersetzen Sprache direkt in Bewegung.
Den meisten Modellen fehlt jedoch der Tastsinn. Sense of Touch entscheidet, wie fest ein Roboter zugreift. Burgard nennt das Beispiel einer Vase mit Blumen. Ein Mensch fasst den Topf an, nicht die Blüten. Er spürt sofort, ob die Vase aus der Hand rutscht.
Ein LLM kann solches Wissen beschreiben. Es kennt aber die nötigen Kräfte nicht. Genau diese Sensordaten fehlen den heutigen Modellen. Deshalb forschen Teams an Modellen mit Kraft- und Berührungs-Sensoren.
Der Flaschenhals heißt Roboterdaten
Der größte Engpass für Robotic Foundation Models sind Daten. Roboterdaten lassen sich nicht aus dem Internet ziehen. Firmen nutzen ferngesteuerte Roboter, um Bewegungs-Daten zu sammeln. Doch diese Methode skaliert nur langsam.
Burgard wünscht sich ein offenes Ökosystem statt isolierter Datensilos. Sein Vorbild sind Smartphones, die gemeinsam Verkehrs-Daten liefern. So profitieren alle Roboter von jeder neuen Fähigkeit. Auch die TU München baut dafür ein eigenes RoboGym auf. Wie das gelingt, zeigt das Gespräch mit Prof. Achim Lilienthal.
Simulation soll die Datenlücke zusätzlich schließen. Visuell sind Simulatoren schon sehr gut. Bei Reibung, Kollisionen und Tastsinn klafft aber die Sim-to-Real-Gap. Burgard formuliert es zugespitzt. Ein perfekter Simulator wäre bereits die halbe Lösung.
Nvidia zählt bei Simulations-Umgebungen zu den Marktführern. Die Simulationen bleiben dennoch unvollständig. Burgard betont deshalb den Wert gemeinsamer Anstrengung. Nur zusammen gelinge der schnellste Fortschritt.
Humanoide Roboter: Industrie vor Haushalt
Im Haushalt sieht Burgard humanoide Roboter noch lange nicht. Flüssigkeiten und Elektronik vertragen sich schlecht. Das industrielle Umfeld ist deutlich besser kontrollierbar. Dort erwartet er den ersten echten Einsatz.
China treibt humanoide Roboter besonders stark voran. Eine umgekehrte Alters-Pyramide verschärft dort den Mangel an Arbeitskräften. Hunderte chinesische Firmen entwickeln bereits Humanoide. In Deutschland nennt Burgard vor allem Neura Robotics.
Die Mechanik der Roboter hält Burgard für lösbar. Ein Halbmarathon-Roboter zeigt bereits starke Hardware. Die eigentliche Hürde bleibt die KI für das Embodiment. Genau hier sieht er Europas Chance.
Das Argmax-Problem: warum Unsicherheit zählt
Burgard warnt vor dem sogenannten Argmax-Problem. Viele KI-Systeme liefern nur die wahrscheinlichste Antwort. Sie nennen aber nicht, wie sicher diese Antwort ist. Bei einem Chatbot bleibt das harmlos.
Bei einem Roboter wird fehlende Unsicherheit gefährlich. Der Roboter handelt nach seiner Schätzung physisch. Ein selbstfahrendes Auto muss eine Tüte auf der Straße bewerten. Statistische Werte helfen, solche Risiken richtig abzuwägen. Genau das macht die probabilistische Robotik bis heute unersetzlich.
Europas Rückstand bei KI-Basismodellen
Bei Suchmaschinen und Cloud hat Europa den Anschluss verloren. Burgard sieht bei generativer KI dieselbe Gefahr. Auch bei Halbleitern hängt der Kontinent zurück. Diese Abhängigkeit von anderen Staaten wird zum Risiko.
Als Antwort leitet Burgard die bayerische KI-Basismodellinitiative. Der Freistaat investiert 54,5 Millionen Euro in eigene Modelle. Am Ende sollen über 2000 GPUs bereitstehen. Zwei Schwerpunkte stehen im Fokus: Medizin und Robotik.
Für die Robotik trainiert das Team ein multimodales Modell. Rund 100 Roboter liefern Bilder, Sprache, Kräfte und Tastdaten. Burgard fordert mehr Rechenkraft und mehr KI in der Ausbildung. Sein Appell an Unternehmen ist klar. Wer KI testet und Fehler zulässt, baut Vorsprung auf.
Fazit: Robotic Foundation Models als nächste Welle
Robotic Foundation Models verbinden Sprache, Wahrnehmung und Handlung. Sie könnten Roboter so flexibel machen wie nie zuvor. Der größte Hebel bleiben gemeinsam gesammelte Roboterdaten. Wir bei Everlast AI raten Unternehmen, jetzt erste Anwendungen zu testen.
Europa hat bei der Robotik-KI noch eine reale Chance. Forschung und Mechanik sind hierzulande stark aufgestellt. Initiativen wie in Bayern schaffen die nötige Basis. Robotic Foundation Models entscheiden, wer die nächste Welle der Automatisierung prägt.
Häufige Fragen
Was sind Robotic Foundation Models?
Robotic Foundation Models sind multimodale KI-Modelle für Roboter. Sie verarbeiten Sprache, Bilder und oft auch Kräfte oder Tastdaten. Anders als ein reines Sprach-Modell steuern sie echte Bewegungen. Das Ziel heißt Embodiment, also die physische Interaktion mit der Welt. So führen Roboter Aufgaben aus, die sie über Sprache erhalten.
Worin unterscheidet sich ein Robotic Foundation Model von einem LLM?
Ein LLM erzeugt nur Text aus Text. Es beschreibt Wissen, handelt aber nicht in der Welt. Ein Robotic Foundation Model verbindet Wahrnehmung mit Aktion. Es kennt Kräfte, Bewegungen und im Idealfall den Tastsinn. Damit greift und manipuliert ein Roboter reale Objekte. Genau diese Verkörperung fehlt klassischen Sprach-Modellen.
Was ist der größte Flaschenhals für Robotic Foundation Models?
Der größte Engpass sind Roboterdaten. Solche Daten lassen sich nicht aus dem Internet sammeln. Firmen nutzen ferngesteuerte Roboter, um Bewegungen aufzunehmen. Das skaliert nur langsam und kostet viel Aufwand. Burgard plädiert für ein offenes Daten-Ökosystem. Trainings-Zentren wie das RoboGym der TU München sollen die Lücke schließen.
Wo werden humanoide Roboter zuerst eingesetzt?
Burgard erwartet humanoide Roboter zuerst in der Industrie. Dort ist die Umgebung kontrolliert und planbar. Der Haushalt bleibt schwierig, weil Flüssigkeiten und Elektronik kollidieren. China setzt wegen seiner alternden Bevölkerung besonders stark auf Humanoide. In Europa nennt Burgard vor allem Neura Robotics als ernsten Akteur.
Warum fällt Europa bei KI-Basismodellen zurück?
Europa hat bereits Suchmaschinen und Cloud-Infrastruktur verpasst. Bei generativer KI und Halbleitern droht dieselbe Abhängigkeit. Burgard sieht darin ein großes wirtschaftliches Risiko. Die bayerische KI-Basismodellinitiative mit 54,5 Millionen Euro soll gegensteuern. Sie baut Rechenkraft für eigene Modelle in Medizin und Robotik auf.


































