Jedes große KI-Framework sagt dir: Leg eine Agents.md in dein Repository. Anthropic empfiehlt es. OpenAI empfiehlt es. Über 60.000 Open-Source-Projekte machen es bereits. Doch eine neue Studie der ETH Zürich zeigt: Diese Dateien machen deine KI-Agenten langsamer, teurer und schlechter. Im Interview mit Everlast AI erklärt Dr. Mark Müller, Co-Autor des Papers und Gründer von Logic Star AI, warum das so ist. Du erfährst, was du stattdessen tun solltest. Außerdem zeigt er, wie sein Startup „Preventative Maintenance für Code" baut – und damit eines der größten Probleme moderner Software-Teams löst.
Wer ist Dr. Mark Müller?
Dr. Mark Müller hat an der ETH Zürich promoviert – einer der weltweit führenden technischen Hochschulen. Seine Forschung umfasste zwei zentrale Bereiche. Der erste: die beweisbare Robustheit neuronaler Netze. Müller entwickelte Methoden, die mathematisch garantieren, dass ein neuronales Netz nicht durch bösartige Eingaben getäuscht werden kann.
Ein konkretes Beispiel aus seiner Forschung macht das greifbar. Ein Schilderkennungssystem in einem autonomen Auto erkennt ein Stoppschild. Jemand klebt einen kleinen Sticker darauf. Das System hält es plötzlich für ein 50-km/h-Schild. Müller entwickelte Trainingsmethoden, die genau das verhindern – und es mathematisch beweisen.
Heute finden ähnliche Methoden bei großen Sprachmodellen Einsatz. Ein konkretes Szenario: Ein KI-Kundenservice-Agent wird von einem Kunden überredet, 80 % Rabatt zu geben. Oder ein Upgrade im Flieger auszustellen. Beides ist tatsächlich schon passiert, wie Müller im Interview bestätigt. Unternehmen brauchen den Nachweis, dass ihr KI-System solche Tricks abwehrt. Das ist genau die Anwendung seiner Forschung auf die LLM-Welt.
Der zweite Schwerpunkt: LLMs für Code. Müllers Team entwickelte den SWE-Star Benchmark – den führenden Maßstab, um zu testen, wie gut KI-Agenten relevante Software-Tests schreiben. Vor seiner akademischen Karriere arbeitete Müller bei Porsche und beim Mercedes AMG Formel-1-Team. Dort sah er immer wieder: Bugs fressen enorm viel Zeit – selbst bei absoluten Spitzenteams.
Diese Erfahrung führte direkt zur Gründung von Logic Star AI, einem Spinoff der ETH Zürich und des bulgarischen Forschungszentrums INSAIT.
Was ist eine Agents.md überhaupt?
Bevor wir in die Studie eintauchen, klären wir den Grundbegriff. Mark Müller beschreibt es im Interview so: Eine Agents.md ist eine Anleitungsdatei oder ein Onboarding-Dokument für KI-Agenten. Du legst sie in dein Code-Repository. Jeder KI-Agent – ob Claude Code, Codex oder Cursor – liest diese Datei, bevor er mit einer bestimmten Aufgabe beginnt.
Stell dir die Agents.md wie ein Onboarding-Dokument für neue Mitarbeiter vor. Sie beschreibt: Worum geht es in diesem Projekt? Welche Regeln gelten? Welche Tools werden benutzt? Welche Coding-Standards sind einzuhalten?
Der entscheidende Unterschied zu menschlichen Entwicklern: KI-Agenten sammeln keine Erfahrung. Müller betont: Jeder Task, den ein Agent in einer Codebase erledigt, ist wie das erste Mal, dass er mit dieser Codebase arbeitet. Es gibt kein Gedächtnis zwischen den Aufgaben. Deshalb scheint ein gutes Onboarding-Dokument besonders wichtig.
Genau diese Logik hat über 60.000 Open-Source-Repositories dazu gebracht, solche Dateien einzusetzen. Warum ist das gerade jetzt so ein heißes Thema? Weil die Erfolge von Code-Agenten im Mainstream ankommen. Müller selbst hat innerhalb eines einzigen Tages ein funktionierendes SaaS-Produkt nachgebaut – nur mit Codex. Es war zuvor nur in einer geschlossenen Beta verfügbar. Jetzt sucht jeder nach Wegen, diesen enormen Produktivitätsgewinn auf die eigenen Projekte zu übertragen.
Die große Frage: Helfen diese Dateien wirklich? Bis zum Paper von Mark Müller und seinem Team hat das niemand wissenschaftlich untersucht.
Das Paper: „Evaluating Agents.md"
Das Paper erschien am 12. Februar 2026 auf arXiv und sorgte sofort für Aufregung. Sogar Theo Brown von t3.gg machte ein ganzes YouTube-Video darüber. Der Titel: „Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?" Die Autoren: Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev und Martin Vechev – alle von der ETH Zürich und Logic Star AI.
Die Forscher testeten die bekanntesten KI-Coding-Tools: Claude Code, OpenAI Codex und Qwen Code. Sie verglichen drei Szenarien. Erstens: Der Agent arbeitet ohne jede Kontextdatei. Zweitens: Der Agent bekommt eine automatisch generierte Agents.md. Drittens: Der Agent bekommt eine von Entwicklern geschriebene Agents.md.
Dazu entwickelte das Team einen eigenen Benchmark namens AGENTbench. Er umfasst 138 reale Aufgaben aus 12 GitHub-Repositories – sowohl Bug-Fixes als auch neue Features. Alle Repositories enthielten bereits echte, von Entwicklern geschriebene Kontextdateien.
Spannend ist auch der Hintergrund, den Müller im Interview verrät: Ursprünglich wollte das Team verschiedene Methoden evaluieren, die in der Literatur vorgeschlagen werden. Memory-Systeme, spezielle Pläne, die für einzelne Probleme designt werden. Keine davon hat funktioniert. Für keine konnte das Team eine statistisch signifikante Verbesserung feststellen. So kamen sie auf die Agents.md – mit der Erwartung, dass diese aber wirklich helfen müssten.
Die überraschenden Ergebnisse
Die Zahlen sprechen eine klare Sprache. Im Schnitt senken Agents.md-Dateien die Erfolgsrate um 3 %. Gleichzeitig steigen die Kosten um über 20 %. Das gilt sowohl für automatisch generierte als auch für menschlich geschriebene Dateien.
Für Dr. Mark Müller war das überraschendste Ergebnis: Es gibt keinen Effizienzgewinn. Im Interview erklärt er das detailliert. In der Informatik gibt es ein bekanntes Prinzip: Du investierst Rechenzeit am Anfang, um danach schneller zu sein. Das sogenannte Preprocessing. Die Idee: Der Agent liest die gesamte Codebase, extrahiert daraus eine Anleitungsdatei und findet danach die richtigen Dateien schneller.
Müller sagt dazu wörtlich: „Danach hätte ich gedacht, bin ich effizienter. Ich finde die richtigen Dateien schneller, ich weiß schon, wo alles ist. Vielleicht nicht unbedingt besser, aber zumindest effizienter." Doch das Gegenteil ist der Fall. Die Agenten werden 20 % teurer – ein gewaltiger Unterschied.
Drei weitere Erkenntnisse überraschten das Team besonders:
Die besten Modelle schreiben keine besseren Agents.md. GPT-5.2, eines der leistungsstärksten Modelle, erzeugt keine besseren Anleitungsdateien als das deutlich kleinere Qwen-Modell. Die Qualität der Agents.md hängt also nicht von der Modellgröße ab.
KI-Agenten befolgen Anweisungen zu gut. Das Problem liegt nicht darin, dass Agenten die Agents.md ignorieren. Im Gegenteil: Sie halten sich penibel an jede Regel. Müller beschreibt es so: In den Anweisungsdateien stehen normalerweise unnötige Schritte, die für ein spezielles Problem irrelevant sind. Genau diese irrelevanten Schritte sorgen dafür, dass die Agenten so ineffizient werden.
Von Entwicklern geschriebene Dateien wirken besser als KI-generierte. Wenn ein Mensch die Datei schreibt, verbessern sich die Ergebnisse um 4 % gegenüber KI-generierten Varianten. Der Grund: Menschen kuratieren besser. Sie wissen, welche Regeln wirklich zählen. Wer sich regelmäßig mit KI-Agenten und deren Einsatz beschäftigt, erkennt hier ein bekanntes Muster: Präzise Anweisungen schlagen immer umfangreiche Anweisungen.
Warum Agents.md oft schadet statt hilft
Mark Müller bringt es im Interview auf den Punkt: Die Agents.md wiederholt oft nur, was der Agent sowieso schon findet. Moderne KI-Agenten können selbstständig durch Ordnerstrukturen navigieren. Sie lesen README-Dateien, Contributing Guides und andere Quellen im Repository.
Sein Team hat das sogar wissenschaftlich nachgewiesen. Sie generierten eine Agents.md aus einem kompletten Repository. Dann entfernten sie alle README- und Contributing-Dateien sowie andere Schlüsseldateien, die menschliche Entwickler zum Onboarding verwenden. In diesem Szenario waren die Agents.md-Dateien plötzlich sehr hilfreich. Das ergibt auch Sinn: Jetzt konnte der Agent die gleichen Informationen nicht woanders finden.
Die Schlussfolgerung ist klar. Wenn deine Agents.md nur Informationen wiederholt, die schon im Repository stecken, spare sie dir lieber. Das betrifft alle automatisch generierten Agents.md. Denn irgendwoher muss das Wissen ja kommen – und es kommt aus dem Repository selbst.
Was dagegen hilft: Fehlerfälle dokumentieren, die ein Agent erlebt hat. Müller beschreibt das im Interview so: Wenn du als Entwickler beobachtest, dass ein Agent einen Fehler macht, schreib die Lösung in die Agents.md. Sag ihm: „Das nächste Mal musst du das so und so machen." Das sind Informationen, die der Agent nirgendwo sonst finden kann. Und genau solche Einträge können die Performance tatsächlich verbessern – auch wenn es im Schnitt immer noch teurer bleibt als keine Agents.md.
Die praktische Empfehlung: So nutzt du Agents.md richtig
Die Zuschauer werden sich fragen: Was soll ich jetzt konkret tun? Dr. Mark Müllers persönliche Empfehlung ist eindeutig:
Erstens: Selbst schreiben. Lass keine KI die Datei generieren. Menschen kuratieren besser und erzielen im Schnitt 4 % bessere Ergebnisse. Die besten Modelle wie GPT-5.2 schreiben nicht mal bessere Agents.md als kleine Modelle wie Qwen.
Zweitens: Kurz halten und rigoros kuratieren. Alles was überflüssig ist, muss raus. Alles was doppelt steht, muss raus. Jede generische Anweisung, die nicht zum konkreten Projekt passt, muss raus. Der Agent befolgt jede einzelne Zeile – auch die unnötigen.
Drittens: Kosten abwägen. Wer Claude Code über API-Keys nutzt, spürt den 20-Prozent-Aufschlag direkt im Budget. Wer ein Abo hat, merkt die Mehrkosten nicht. Müller sagt dazu klar: „Wenn man eine Subscription hat, dann ist der Cost Increase natürlich komplett geschluckt."
Auch die Entwickler bei Everlast AI beobachten: Mit jedem neuen Modellupdate brauchen die Agenten weniger Instruktionen. Die Modelle werden von allein besser darin, relevante Informationen selbst zu finden.
Wird klassisches Prompting irgendwann komplett überflüssig? Müller sieht das differenziert. Implizites Wissen, das nicht aus der Codebase abgeleitet werden kann, muss weiterhin irgendwo gespeichert werden. Dem Agenten muss irgendwie mitgeteilt werden, was seine Aufgabe ist. Aber die Menge an nötiger Anleitung sinkt mit jedem Modellupdate stetig.
Die Zukunft: Dynamische Kontextdateien statt statischer Agents.md
Ein besonders spannender Einblick aus dem Interview betrifft die Zukunft. Müller und sein Team arbeiten bei Logic Star mit statischer Analyse. Diese analysiert die gesamte Codebase automatisch und findet heraus, welche Teile miteinander verknüpft sind.
So kann das System dem Agenten für genau den Code, in dem er gerade arbeitet, exakt die richtige relevante Information bereitstellen. Das ist effizienter, als wenn der Agent selbst suchen muss. Und es ist präziser als eine allgemeine Agents.md, die für alle Aufgaben die gleichen Regeln vorgibt.
Mark Müller sieht hier einen klaren Zukunftstrend: Dynamische, clevere, problemgebundene Kontextdateien werden statische Agents.md ersetzen. Statt einer Datei, die für alles gelten soll, erzeugt ein System für jede einzelne Aufgabe den passenden Kontext. Das spart Tokens, reduziert Rauschen und liefert bessere Ergebnisse.
Logic Star AI: Bugs finden, bevor sie Schaden anrichten
Aus der Forschung an der ETH Zürich entstand Logic Star AI. Das Startup baut KI-Agenten, die autonom Bugs in Codebases aufspüren. Aber Müller stellt im Interview klar: „Das klingt vielleicht wie ein Bugscanner, aber das sind wir definitiv nicht."
Das Problem kennt jedes Entwicklerteam. Die meisten Teams haben schon verschiedene Scanner. Und das Problem ist immer das gleiche: Es gibt Hunderte von Warnungen. Jemand muss sie sich anschauen. Niemand weiß, was sich tatsächlich zu fixen lohnt.
Logic Star löst das anders. Du installierst die App, verbindest sie mit deiner Codebase, mit Slack, mit deiner Observability-Plattform wie Sentry und vielleicht noch mit einem Projekt-Management-System wie Jira. Dann bekommt das Engineering-Team jeden Tag die ein bis drei wichtigsten Bugs, die es heute fixen sollte.
Ein Montagmorgen ohne Logic Star – und mit
Müller beschreibt im Interview ein konkretes Szenario, das jeder Engineering Manager kennt. Montagmorgen, mittelgroßes SaaS-Unternehmen. 60 verschiedene Findings vom Static-Analysis-Scanner. 15 neue Sentry-Issues warten auf Triage. Acht Customer-Tickets sind übers Wochenende eingegangen. Customer Success pingt bereits auf Slack und fragt, wann das Problem gefixt ist.
All diese Signale kommen von verschiedenen Quellen. Verschiedene Entwickler schauen sich verschiedene Teile an. Es wird enorm viel kommuniziert, bis jemand merkt: All diesen Problemen liegt eine einzige Ursache zugrunde.
Logic Star erkennt das automatisch. Das System korreliert all diese Signale und sagt dir: Drei der Sentry-Issues kommen aus derselben Funktion. Diese Funktion wurde in einem Pull Request letzte Woche verändert. Zwei Jira-Tickets beschreiben genau das neue Verhalten. Und vor 6 Monaten gab es einen ähnlichen Fehler, der nach zwei Tagen zu einem Production Incident mit großen Zahlungsausfällen führte.
Das Ergebnis: Statt fünf kleiner Tickets in verschiedenen Systemen bekommt der Engineering Manager eine klare Ansage. „Payment Retry Logic Bug – betrifft aktuell 3 % der aktiven Nutzer. Vor 6 Monaten hat ein ähnlicher Fehler einen Zahlungsausfall verursacht. Hier sind die Schritte zur Reproduktion. Wir schlagen Markus aus dem Payments-Team vor, weil er den Pull Request erstellt hat."
Logic Star erzeugt sogar einen Prompt, den du direkt kopieren und in Claude Code einfügen kannst. Der Agent erstellt dann automatisch einen Fix. Alternativ bietet Logic Star auch einen eigenen Fix-Agenten an. Das spart dem Engineering Manager das Gespräch mit fünf verschiedenen Leuten – und dem gesamten Team Stunden an Kommunikation und Fehlersuche.
Warum Logic Star eigene KI-Modelle baut
Viele KI-Startups setzen ausschließlich auf bestehende Modelle wie GPT oder Claude. Logic Star geht bewusst einen anderen Weg. Müller stellt im Interview klar: „Wir nutzen für jedes Problem das beste Modell, was dafür verfügbar ist." Das Team verwendet GPT, Claude und Gemini – mit internen Benchmarks, die für jeden Sub-Task das beste Modell auswählen.
Trotzdem baut Logic Star zusätzlich eigene, spezialisierte Modelle. Dafür nennt Müller drei Gründe:
Enterprise-Anforderungen. Große Kunden wollen ihre Daten nicht an US- oder China-Labs schicken. Diese großen Modelle sind für sie komplett außer Frage. Zusätzlich wollen sie On-Premise-Deployment auf der eigenen Hardware. Dafür braucht es kleinere Modelle, die effizient auf den Code des jeweiligen Kunden zugeschnitten sind. Das hat auch Datenschutz- und Compliance-Gründe, die gerade für europäische Unternehmen entscheidend sind. Wer sich intensiver mit dem Thema befassen möchte, findet in unserem Beitrag zu Corporate LLMs weitere Hintergründe.
Kosten. Die eigenen Modelle von Logic Star sind deutlich kleiner. Aber so spezialisiert, dass sie rund 70 % der Performance der Frontier-Modelle erreichen. Für die spezialisierten Aufgaben der Bug-Erkennung reicht das aus.
Strategische Absicherung. Müller formuliert es pragmatisch: Wenn OpenAI in drei Monaten sagt, das nächste Codex kostet das Dreifache, darf das den Business Case von Logic Star nicht zerstören. Eigene Modelle schaffen die nötige Unabhängigkeit. Dafür baut das Team schon jetzt das Know-how auf, um schnell genug reagieren zu können.
Eine europäische Erfolgsgeschichte
Logic Star AI hat eine Pre-Seed-Finanzierung von 2,9 Millionen Euro erhalten. Lead-Investor ist Northzone, einer der renommiertesten europäischen Venture-Capital-Fonds. Unter den Angel-Investoren finden sich Namen von DeepMind, Snyk und Spotify.
Das Unternehmen hat Sitze in Zürich und Sofia. Es ist ein Spinoff der ETH Zürich und eng mit INSAIT verknüpft, dem bulgarischen KI-Forschungszentrum. Mark Müller betont im Interview stolz: „Wir sind sehr stolz, als europäische Erfolgsgeschichte zu gelten."
Gleichzeitig richtet er einen klaren Appell an die europäische Tech-Szene: „In Europa gibt es fantastische KI-Forschung. Wir brauchen einfach mehr Gründer, damit wir hier auch richtig geile Produkte daraus bauen können." Zu oft bleibe es bei der Forschung. Dann kämen amerikanische Unternehmen und bauten die umsatzstarken Produkte daraus.
Im März 2026 plant Logic Star einen Self-Serve-Launch. Dann kann jeder das Produkt auf seiner eigenen Codebase ausprobieren. Besonders SaaS-Unternehmen, die mit den beschriebenen Problemen kämpfen, sollten sich den Termin vormerken.
Die Vision des Teams geht weit über das aktuelle Produkt hinaus. Müller sieht einen wachsenden Bedarf: Mit Code-Agenten wird immer mehr Code produziert. Dadurch werden auch immer mehr Bugs eingeführt. Diese Bugs müssen rechtzeitig gefunden werden – bevor sie zu echten Incidents werden. Und selbst wenn alle Probleme gefunden werden, bleibt die Frage: Welche sollst du tatsächlich lösen? Denn wer alle Bugs fixt, aber nicht 100 % korrekt, macht die Codebase nur komplexer und schwieriger zu warten. Genau bei dieser Priorisierung hilft Logic Star.
Fazit
Die Agents.md-Studie von Dr. Mark Müller und der ETH Zürich liefert eine unbequeme Wahrheit. Die Kontextdateien, die fast jedes KI-Framework empfiehlt, schaden in der Praxis mehr, als sie helfen. Im Schnitt 3 % weniger Erfolg und 20 % höhere Kosten. Die Agenten befolgen die Anweisungen zu genau – auch die irrelevanten.
Die Handlungsempfehlung ist einfach: Agents.md kurz halten, selbst schreiben und rigoros kuratieren. Alles entfernen, was der Agent sowieso im Code findet. Nur echtes Erfahrungswissen, das nirgendwo sonst steht, gehört in die Datei. Und wer über API-Keys bezahlt, sollte den 20 % Aufschlag genau gegen den Nutzen abwägen.
Logic Star AI zeigt gleichzeitig, wohin die Reise geht. Statt statischer Kontextdateien brauchen wir dynamische Systeme, die dem Agenten für jede Aufgabe den exakt passenden Kontext liefern. Als europäisches Startup, das aus Spitzenforschung ein marktreifes Produkt baut, ist Logic Star ein starkes Signal dafür, was möglich ist, wenn europäische Forschung und Unternehmertum zusammenkommen.
Das vollständige Interview mit Dr. Mark Müller findest du auf dem YouTube-Kanal von Everlast AI.






.png)






.webp)

.webp)














