KI-Jailbreaks sind gezielte Angriffe, die Sprachmodelle zu eigentlich gesperrten Antworten verleiten. Prof. Dr. Florian Tramèr von der ETH Zürich erklärt im Gespräch, warum diese Tricks so einfach bleiben. Wir zeigen, wie sie funktionieren und wie dein Unternehmen seine KI-Systeme absichert.
Was KI-Jailbreaks so gefährlich macht
Jedes Sicherheitstraining bleibt unvollständig. Prof. Florian Tramèr forscht seit 10 Jahren an KI-Sicherheit. Er beschreibt einen Jailbreak als Trick, der ein Modell zur verbotenen Antwort bewegt. Das Modell merkt dabei nicht, dass die Aufgabe gefährlich ist.
Ein gängiger Trick zerlegt eine heikle Frage in harmlose Einzelteile. Das Modell löst jeden Teil getrennt. Es erkennt das gefährliche Gesamtbild nicht. Erst zusammengesetzt ergibt sich kritisches Wissen.
In der Cybersicherheit verschwimmt die Grenze besonders stark. Jeder Entwickler fragt, ob in seinem Code eine Lücke steckt. Ein Angreifer stellt dieselbe Frage zu fremdem Code. Der Wortlaut bleibt identisch, die Absicht kippt.
Claude Mythos: Wenn der Schutz zu weit greift
Anthropic sperrte sein Spitzenmodell Mythos nach Eingriff der US-Regierung. Der Grund liegt in extrem strengen Schutzmaßnahmen. Schon das Wort Cybersicherheit, Biologie oder Chemie löste eine Verweigerung aus. Das Modell antwortete dann: Nein, dabei helfe ich nicht.
Tramèr nennt ein absurdes Beispiel. Ein Nutzer fragt nach zwei Sicherheitslücken plus zwei weiteren. Das Modell verweigert die simple Addition als gefährlich. Solche Fehlalarme zeigen, wie schwer die richtige Balance fällt.
Bei Fable 5 verstärkte Anthropic diese Filter zusätzlich. Verweigerte das Modell, übernahm ein schwächeres Opus-Modell die Antwort. Der Schutz kostete also spürbar Qualität. Die Mythos-Geschichte entwickelt sich weiter.
Codex setzt sich jetzt selbst Ziele
OpenAI hat Codex eine ungewöhnliche Fähigkeit gegeben. Der Agent leitet sein Ziel jetzt selbst aus deiner groben Absicht ab. Den Befehl Slash-Goal brauchst du nicht mehr. OpenAI nennt das eine Verallgemeinerung des Meta-Prompts.
Noch konkreter wird das Plugin Record and Replay. Du nimmst deinen Arbeitsablauf als Video auf. Codex baut daraus einen Skill zum Wiederverwenden. Anschließend steuert es deinen Rechner per Computer-Use.
Für Desktop-Software ohne API klingt das verlockend. Alte Buchhaltungs- und ERP-Systeme im Mittelstand profitieren davon. Trotzdem raten wir aktuell zur Vorsicht. Ein voller Systemzugriff öffnet Prompt-Injection-Angriffen Tür und Tor.
GLM 5.2 fordert Claude Fable 5 heraus
Open-Source-Modelle holen rasant auf. GLM 5.2 ist frei verfügbar und bietet ein Kontextfenster von einer Million Tokens. Auf der Design Arena belegt es sogar Platz eins. Diesen Benchmark bestimmen echte Nutzer, nicht ein Anbieter.
Im direkten Test gegen Claude Fable 5 hält GLM 5.2 erstaunlich gut mit. Ganz an Fable 5 reicht es subjektiv nicht heran. Der Abstand schrumpft aber deutlich. Sobald die Intelligenz nah wirkt, entscheidet der Preis.
Genau hier zahlt sich Unabhängigkeit aus. Für 3.000 Dollar kaufst du bei GLM 5.2 fast sechsmal so viele Tokens wie bei Opus 4.8. Eine lokale KI-Backup-Strategie wird damit zur Pflicht. Den Leitfaden dazu liefert unser Report zur lokalen KI.
Was Unternehmen jetzt umsetzen sollten
Nur 6,5 Prozent der Unternehmen bringen KI wirklich in Produktion. Das zeigt eine Studie von Scale AI mit 494 Organisationen. Die Gewinner setzen dreimal so oft auf hybride Lösungen. Sie bauen gemeinsam mit einem strategischen Partner statt mit Tools von der Stange.
Der entscheidende Hebel sind eigene Daten. Erfolgreiche Firmen legen ihre Datenarchitektur fest, bevor sie Code schreiben. Genau dieses Fundament begleiten wir in unseren KI-Implementierungsprojekten. Modell-Unabhängigkeit über ein Corporate-LLM-System gehört fest dazu.
Fazit: KI-Jailbreaks bleiben eine offene Flanke
KI-Jailbreaks zeigen die Grenzen heutiger Sicherheitsfilter. Prof. Dr. Florian Tramèr macht klar, dass kein Schutz lückenlos ist. Zu strenge Filter wie bei Mythos kippen ins Gegenteil und blockieren harmlose Anfragen.
Für dich heißt das: Setze nicht alles auf ein einzelnes Modell. Halte mit Open-Source-Modellen wie GLM 5.2 und lokaler KI einen Plan B bereit. So bleibst du unabhängig, sparst Kosten und steuerst Risiken aktiv.
Häufige Fragen
Was ist ein KI-Jailbreak?
Ein KI-Jailbreak ist ein gezielter Trick, der ein Sprachmodell zu gesperrten Antworten bewegt. Angreifer formulieren ihre Anfrage so um, dass das Modell die Gefahr nicht erkennt. Oft zerlegen sie eine heikle Frage in harmlose Einzelteile. Das Modell löst jeden Teil getrennt und übersieht das kritische Gesamtbild. Prof. Dr. Florian Tramèr betont, dass kein Sicherheitstraining solche Angriffe vollständig verhindert.
Warum wurde Claude Mythos gesperrt?
Anthropic sperrte das Spitzenmodell Mythos nach einem Eingriff der US-Regierung. Auslöser waren die starken Fähigkeiten des Modells in heiklen Bereichen wie Cybersicherheit. Um Missbrauch zu verhindern, setzte Anthropic extrem strenge Schutzfilter ein. Diese griffen jedoch zu weit und blockierten selbst harmlose Anfragen. Schon das Wort Cybersicherheit oder Biologie konnte eine Verweigerung auslösen.
Was kann Codex mit Record and Replay?
Record and Replay ist ein Plugin für die Codex-App von OpenAI. Du nimmst deinen Arbeitsablauf als Video auf, statt ihn zu beschreiben. Codex wandelt die Aufnahme in einen wiederverwendbaren Skill um. Danach steuert der Agent deinen Computer per Computer-Use selbst. In der EU ist die Funktion bislang nicht verfügbar. Wegen Prompt-Injection-Risiken raten wir aktuell zu großer Vorsicht.
Ist GLM 5.2 so gut wie Claude Fable 5?
GLM 5.2 ist ein frei verfügbares Open-Source-Modell mit einem Kontextfenster von einer Million Tokens. Im direkten Vergleich hält es mit Claude Fable 5 erstaunlich gut mit. Ganz an die Design-Qualität von Fable 5 reicht es subjektiv nicht heran. Der Abstand schrumpft jedoch deutlich. Beim Preis liegt GLM 5.2 klar vorn und liefert für dasselbe Budget ein Vielfaches an Tokens.
Warum ist eine lokale KI-Backup-Strategie wichtig?
Anbieter wie OpenAI und Anthropic planen ein Pay-per-Use-Pricing. Die subventionierten Flatrate-Pläne könnten also bald wegfallen. Eine lokale KI-Backup-Strategie sichert dich gegen Preissprünge und Sperren ab. Open-Source-Modelle wie GLM 5.2 laufen auf eigener Hardware ohne laufende Token-Kosten. So bleibst du unabhängig von einzelnen Anbietern und steuerst deine Kosten selbst.































