„Sogar für mich als jemand, der schon lange auf dem Gebiet tätig ist, ist das, was gerade passiert, total verrückt." Das sagt nicht irgendwer. Das sagt Prof. Dr. Martin Riedmiller, Research Director bei Google DeepMind und einer der renommiertesten deutschen KI-Forscher weltweit. Im exklusiven Gespräch gibt er Einblicke in seine Arbeit, den Alpha Go Moment und warum Deutschland durchaus Grund zur Hoffnung hat.
Wer ist Martin Riedmiller?
Martin Riedmiller gehört zu den Pionieren des Deep Reinforcement Learning. Seine Karriere liest sich wie ein Streifzug durch die Geschichte der künstlichen Intelligenz.
1992 entwickelte er in seiner Diplomarbeit an der TH Karlsruhe den RProp-Algorithmus. Dieser machte neuronale Netze deutlich schneller trainierbar. Zu einer Zeit, als Deep Learning noch ein völlig neues Nischenthema war.
2005 veröffentlichte er mit der Neural Fitted Q Iteration einen wegweisenden Ansatz. Dieser gilt als Vorläufer moderner Deep-Learning-Methoden. Jahre vor DeepMinds berühmtem DQN zeigte er, dass neuronale Netze erfolgreiche Reinforcement-Learning-Agenten hervorbringen können.
Zwischen 1998 und 2008 gründete er mit seinem Team Brainstormers eines der ersten Roboterfußballteams weltweit. Sie setzten Reinforcement Learning ein und gewannen fünf Weltmeistertitel bei den RoboCup-Weltmeisterschaften. 2007 übernahm Angela Merkel symbolisch die Patenschaft für einen der Roboter.
2013 wagte er einen ungewöhnlichen Schritt. Er verließ seine sichere Professur und wechselte zu Google DeepMind. Heute leitet er dort das Control Team und arbeitet an den komplexesten Steuerungsproblemen überhaupt.
Der Alpha Go Moment
Im März 2016 erlebte die Welt einen Wendepunkt. Eine Maschine schlug erstmals den weltweit besten Go-Spieler. Martin Riedmiller war dabei. Er ist Co-Autor der berühmten Nature-Publikation „Human Level Control Through Deep Reinforcement Learning".
Im Interview beschreibt er den Moment: „Die ganzen Sachen dann mitzuerleben und dieses 4:1 dann zu sehen. Das war schon irgendwie so ein Momentum, wo ich gedacht hab: Oh, ich bin da bei einem ganz besonderen Verein gelandet."
Der Move 37 wurde legendär. Die Kommentatoren sagten zunächst: Das ist komisch. Was soll das jetzt? Hat sich der Agent vielleicht verzockt? Doch die Maschine hatte einen Zug gefunden, den kein Mensch je gespielt hätte.
„Eine Maschine kümmert sich überhaupt nicht darum, was irgendjemand mal gedacht hat oder was vielleicht schlecht war", erklärt Riedmiller. „Sie findet einfach irgendeinen Weg und sagt: Okay, ich will am Ende gewinnen."
Das Geheimnis des Reinforcement Learning
Riedmiller erklärt den fundamentalen Unterschied zu anderen KI-Ansätzen. Beim überwachten Lernen zeigt man der Maschine, was richtig ist. Bei Go würde das bedeuten: Ein Großmeister hat diesen Zug gespielt. Also mach das auch so.
Beim Reinforcement Learning funktioniert es anders. Die Maschine bekommt nur ein Ziel: Gewinne. Wie sie dorthin kommt, muss sie selbst lernen.
„Das Ganze äh millionenfach wiederholen können", beschreibt Riedmiller den Prozess. „Und so eine Situation führt dann eben auch zu sowas wie dem Move 37."
Das Prinzip basiert auf dem dynamischen Programmieren von Richard Bellman aus den 1950er Jahren. Die Maschine lernt eine Wertfunktion. Sie sagt für jede Situation voraus, wie viele Schritte noch nötig sind, um zu gewinnen.
„Wenn ich nach rechts gehe, dann brauche ich unendlich viele Schritte. Wenn ich nach oben gehe, dann brauche ich noch zehn Schritte. Also gehe ich nach oben."
Der Durchbruch bei der Kernfusion
2022 erzielte Riedmillers Team einen Durchbruch im Bereich der Kernfusion. Sie zeigten, dass Reinforcement Learning einen Tokamak-Fusionsreaktor steuern kann. Das Magnetfeld hält das Plasma stabil. Eines der größten Probleme in diesem Bereich.
„Wir konnten zeigen, dass so ein lernendes System ohne die Physik zu kennen, das tatsächlich lernen kann, so ein Plasma stabil zu halten", erklärt er.
Der Agent fand sogar eine kreative Lösung. Er setzte Magnete ein, die für einen ganz anderen Zweck gedacht waren. Die zerrten an der mechanischen Struktur. Die Ingenieure sagten: Bitte macht das nicht wieder.
„Der Agent hat auch hier so ähnlich wie bei dem Move 37 eine kreative Lösung gefunden", sagt Riedmiller. „Die war aber nicht im Sinne des ursprünglichen Erfinders."
Diese Arbeit zeigt einen Weg in die Zukunft. Statt mühevoll Regler zu entwickeln, kann ein Lernsystem sie selbst finden. Das spart enorm viel Zeit. Und es findet Wege, an die Menschen nicht gedacht haben.
Humanoide Roboter und die Zukunft
Auf die Frage nach humanoiden Robotern antwortet Riedmiller differenziert. Der finale Ansatz ist noch nicht gefunden. Bei Systemen mit 20 oder 30 Freiheitsgraden funktionieren klassische Techniken nicht mehr so einfach.
„Die große Problematik beim Reinforcement Learning ist, wenn ich jetzt zum Beispiel fünf Freiheitsgrade hab oder 20 oder sogar 30. Dann funktionieren diese Techniken nicht mehr so einfach."
Deshalb setzt die Branche aktuell stark auf Imitation Learning. Ein Mensch steuert den Roboterarm. Er greift Objekte auf. Er legt sie irgendwo hin. Das System sammelt ganz viele Trainingsdaten.
„Die ähnlichsten versucht praktisch die Story, die man bei der Sprache gesehen hat. Ganz ganz viele Trainingsdaten, ganz große Netze und ein ganz einfaches Lernziel."
Riedmiller sieht das als Wette. Für Sprache stand das ganze Internet zur Verfügung. Für Robotik gibt es viel weniger Daten. Die muss man erst sammeln. Und das dauert.
Die Beschleunigung der KI-Entwicklung
Auf die Frage, ob die aktuelle Beschleunigung nur gefühlt oder real ist, antwortet Riedmiller eindeutig: „Es ist tatsächlich eine objektive Beschleunigung."
Er selbst hat Schwierigkeiten, Schritt zu halten. „Jetzt funktioniert dann wieder Gemini 3.0, Gemini 3.0 ist viel besser als ChatGPT. Jetzt müssen die wieder aufholen."
Zwei Technologien kamen zusammen. Schnellere Rechner. Und die Erkenntnis, dass man Sprachmodelle einfach mit mehr Daten und größeren Netzen verbessern kann.
„Es war nicht klar, dass man so ein Sprachmodell in Anführungszeichen einfach nur dadurch so gut machen kann, dass man immer mehr Daten reinschmeißt und die Netze größer macht."
Das Ergebnis war überraschend. Selbst für die Forscher. „Zwei Jahre zuvor hätte ich überhaupt nicht vermutet, dass sowas möglich ist", gibt Riedmiller zu. „Dass man Texte produzieren kann, die Sinn machen über mehrere Seiten hinweg."
Die Grenzen des Skalierens
Trotzdem ist Riedmiller skeptisch gegenüber der These, dass Skalieren allein zur AGI führt. „Ich bin der Meinung, dass das nicht reichen wird."
Die Language Models sind gekommen, um zu bleiben. Sie werden ein wichtiges Modul sein. Aber es fehlen noch ganz sicher noch viele einzelne Prinzipien und Komponenten.
„Nur dann, wenn man wirklich daran forscht, wie Maschinen selber sich bestimmte Handlungsabläufe beibringen können, wird man dem Ziel näher kommen, das Gehirn irgendwann mal zu verstehen."
Sein aktueller Forschungsfokus liegt auf der Kombination von Large Language Models und Reinforcement Learning. Nicht um LLMs mit RL zu verbessern wie bei O1 oder O3. Sondern umgekehrt: LLMs als vortrainierte Weltmodelle nutzen, um RL effizienter zu machen.
Wer tiefer in das Thema KI-Agenten einsteigen möchte, findet in unserem Guide zu KI-Agenten weitere Grundlagen.
Deutschland als KI-Standort
Riedmiller lebt in Walkheim, einem Ort mit 1300 Einwohnern. Er arbeitet für DeepMind in London. Eine ungewöhnliche Konstellation. Demis Hassabis ließ sich darauf ein.
„Ich soll halt ein Team aufbauen in London und soll gucken, dass ich so oft wie möglich vor Ort bin. Und den Rest kann ich von Deutschland aus arbeiten."
Seine Familie wollte nicht umziehen. Die Kinder hatten gerade erst Freunde gefunden. Also pendelt er. Manchmal einmal pro Woche nach London. Manchmal öfter.
Auf die Frage nach Deutschland hat er eine überraschend positive Antwort. „Ich sehe das überhaupt nicht schwarz."
Das Bildungssystem ist ein großer Vorteil. Es ermöglicht allen kostenlosen Zugang. Riedmiller hat überall in Deutschland talentierte Leute getroffen. An großen Unis wie Karlsruhe. An kleinen wie Osnabrück.
„An denen Talenten mangelt's nicht", betont er.
Was fehlt, ist der Geist des Riskierens. In den USA kommen die großen Milliardäre und sagen: Deine Forschungsrichtung finde ich schön. Ich mache jetzt eine Stiftung auf. In Deutschland passiert das selten.
„Man soll sich mehr trauen", fordert Riedmiller. „Und wenn es halt dann wirklich nichts ist, dann sollte man auch sagen: Gut, wir haben es wenigstens probiert."
Was uns vom Gehirn unterscheidet
Ein Aspekt fasziniert Riedmiller besonders. Die Energieeffizienz des menschlichen Gehirns. Es arbeitet mit etwa 20 Watt. Heutige KI-Systeme brauchen Megawatt.
„Wir sind da schon noch ein ganz schönes Stück davon entfernt, überhaupt künstliche Intelligenz zu verstehen", gibt er zu.
Die Definition von AGI bleibt bewusst offen. Riedmiller mag eine alte Definition vom ersten KI-Workshop 1956 in Dartmouth. Damals formulierten die Forscher: Jeden Aspekt menschlicher Intelligenz so präzise formulieren können, dass eine Maschine das ausführen kann.
Das ist für ihn immer noch das Wesen von KI. Zu verstehen, wie das Gehirn so mächtig sein kann. Neue Sachen zu lernen. Sie mit alten Sachen zu verknüpfen. Und das alles in 80 Jahren zu schaffen.
„Der Photoshop Philip der KI-Welt" sollte man jedenfalls nicht werden. Werkzeuge ändern sich schnell. Die Grundprinzipien bleiben. Wer sich für den Beruf des AI Automations Managers interessiert, sollte genau das verstehen.
Fazit
Prof. Dr. Martin Riedmiller ist einer der wenigen Deutschen, die den Alpha Go Moment live erlebt haben. Er hat den RProp-Algorithmus erfunden. Fünf RoboCup-Weltmeistertitel gewonnen. Durchbrüche bei der Kernfusion erzielt.
Seine Botschaft an Deutschland ist klar. Die Talente sind da. Das Bildungssystem funktioniert. Was fehlt, ist Mut. Der Geist, auch mal zu scheitern.
Die Beschleunigung der KI-Entwicklung ist real. Nicht nur gefühlt. Selbst Riedmiller hat Schwierigkeiten, Schritt zu halten. Aber er bleibt optimistisch.
Reinforcement Learning wird eine zentrale Rolle spielen. Nicht nur für Spiele. Sondern für Robotik, Kernfusion und Steuerungsprobleme aller Art. Die Kombination mit Large Language Models steht erst am Anfang.
Martin Riedmiller lebt in einem 1300-Seelen-Dorf. Und arbeitet an der Spitze der KI-Forschung. Das zeigt: Der Standort ist nicht entscheidend. Die Ideen sind es. Das komplette Interview ist einsehbar auf dem YouTube Kanal Everlast AI.


.png)






.webp)

.webp)





















.webp)



.webp)

