Anthropic hat Claude Opus 4.7 veröffentlicht. Die Benchmarks sehen auf den ersten Blick beeindruckend aus. Doch wer genauer hinsieht, entdeckt ein Problem, das 99 % der Nutzer übersehen.
In diesem Beitrag bekommst du eine nüchterne Einordnung: Was kann Opus 4.7 wirklich? Warum kostet das Modell effektiv mehr als der Listenpreis verspricht? Und wieso holt OpenAI mit Codex und GPT-5.4 gerade massiv auf?
Benchmarks von Claude Opus 4.7: Der erste Eindruck
Boris Journey, Head of Claude Code bei Anthropic, beschreibt Opus 4.7 als intelligenter, agentischer und präziser als den Vorgänger. Die Zahlen stützen das zunächst.
Auf SWE-Bench Verified springt Opus von 80,8 auf 87,6 Prozent. Auf SWE-Bench Pro klettert es von 53,4 auf 64,3 Prozent. GPT-5.4 liegt bei 57,7 Prozent und damit klar dahinter.
Dazu kommt ein neues Reasoning-Level namens Extra High. Es schlägt laut Anthropics System Card sogar den bisherigen Max-Modus. Der Listenpreis bleibt identisch: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens.
Auch auf der Vending Bench 2 überzeugt das Modell. Es verwaltet über ein simuliertes Geschäftsjahr einen Getränkeautomaten autonom. Opus 4.7 erzielt am Jahresende 10.937 Dollar. Der Vorgänger Opus 4.6 lag bei rund 8.000 Dollar. Das ist ein Plus von 36 Prozent.

Der neue Tokenizer verdoppelt deine Kosten
Hier kommt der Haken. Anthropic hat den Tokenizer komplett ausgetauscht. Der neue Tokenizer zerlegt Texte deutlich feiner als der alte.
Die Folge: Claude Opus 4.7 verbraucht pro identischem Input 1,3 bis 2 Mal so viele Tokens wie Opus 4.6. Der gleiche Listenpreis ist damit Augenwischerei. Effektiv zahlst du 10 bis 40 Prozent mehr pro Aufgabe.
Dazu kommt der neue Adaptive Thinking Mode. Er ersetzt den alten Extended Thinking Mode. Das Setzen eines Token-Budgets über die API ist nicht mehr möglich. Standardmäßig läuft das Modell auf Extra High. Allein ein einziger Prompt frisst in Claude Code bereits bis zu 90.000 Tokens.
Praxis-Tipp: Stelle deinen Standard-Effort bewusst auf Medium oder High herunter. Sonst explodieren deine Kosten schnell.

Der dokumentierte Leistungsabfall von Opus 4.6
Parallel zum Release gibt es einen weiteren Aufreger. Opus 4.6 liefert seit Wochen schlechtere Ergebnisse als zuvor. Das ist kein Bauchgefühl, sondern messbar.
Stella Laurenzo, Senior Director of AI bei AMD, hat zwischen Januar und März 6.852 Claude-Code-Sessions mit 18.000 Thinking-Blocks und 235.000 Tool-Calls protokolliert. Ihr Fazit: Die sichtbare Thinking-Länge schrumpfte um 73 Prozent. Die Zahl gelesener Dateien vor einer Änderung fiel von 6,6 auf 2.
Der unabhängige Benchmark-Tracker Margin Lab meldet parallel einen Rückgang der Passrate von 56 auf 50 Prozent. Anthropic selbst bestätigte gegenüber Fortune Mitte April, den Standard-Effort-Level von Opus 4.6 auf Medium heruntergedreht zu haben, um Tokens zu sparen. Wir haben die Details zu Opus 4.6 in unserem Deep-Dive zu Claude Opus 4.6 bereits ausführlich eingeordnet.
Böse Zungen behaupten nun: Anthropic habe Opus 4.6 absichtlich verschlechtert, damit Claude Opus 4.7 besser wirkt als es tatsächlich ist.
Warum Anthropic unter Druck steht: Compute ist alles
Der eigentliche Grund für die Degradierung lautet vermutlich Compute. Anthropic hat schlicht nicht genug Rechenleistung.
Die Runrate von Anthropic ist von rund 9 Milliarden Dollar Ende 2025 auf 30 Milliarden Dollar im April 2026 gesprungen. Laut Dylan Patel von SemiAnalysis bräuchte Anthropic bis Ende 2026 mehr als 5 Gigawatt an Inferenzkapazität. Committed sind aktuell rund 2 Gigawatt.
Am Mittwoch vor dem Release waren Claude AI, die API und Claude Code drei Stunden lang komplett offline. Der große Deal mit Broadcom und Google über 3,5 Gigawatt TPU-Kapazität greift erst 2027. In der Lücke bis dahin spielt sich das gesamte Drama ab.
Ein bekannter KI-Jailbreaker hat zudem den System-Prompt von Opus 4.7 offengelegt. Er umfasst 150.000 Zeichen an Vorgaben. Nutzer berichten auf Reddit: Das Modell ignoriert klare Präferenzen und produziert seitenlange moralische Rechtfertigungen statt Ergebnisse.
OpenAI schlägt zurück: Codex, GPT-5.4-Cyber und Browser-Modus
OpenAI nutzt diesen Moment gnadenlos. Wenige Tage vor dem Opus-4.7-Release verschickte das Unternehmen ein internes Cope-Memo an Investoren. Darin rechnet OpenAI vor: Man habe Ende 2025 bereits 1,9 Gigawatt Compute zur Verfügung gehabt, Anthropic nur 1,4 Gigawatt.
Sam Altman sagt selbst, Compute sei inzwischen zur echten Produktrestriktion geworden. Parallel liefert OpenAI massive Updates:
- GPT-5.4-Cyber: Ein auf Cybersecurity feingetuntes Modell für verifizierte Teams
- Codex In-Browser-Modus mit Kommentarfunktion direkt im Browser
- Computer Use für MacOS-Anwendungen
- GPT Image 1.5 zur kostenfreien Bildgenerierung
- 111 neue Plugins, darunter Adlexan und Microsoft Office
Codex ist damit eine echte Alternative zu Claude Code. Wer Claude Code bereits kennt, findet sich auch in Codex schnell zurecht. Hintergründe zum Kampf um die Gentic Coding Super App findest du in unserem Überblick zu Coding Agents und Codex als potenzieller Super-App von OpenAI.
Praxis-Test: Was Claude Opus 4.7 wirklich leistet
Unser eigener Test zeigt zwei Seiten. Auf der positiven Seite: Das Modell erkennt Edge Cases deutlich besser. Es baut in einem einzigen Prompt einen funktionalen Trello-Clone mit Light Mode, Dark Mode, Suchfunktion und Import-Export. Die Qualität ist hoch.
Auf der negativen Seite: Ein einziger Prompt verbraucht fast 10 Prozent des Ein-Millionen-Token-Kontextfensters. Der neue Tokenizer schlägt hier voll durch.
Ein Reddit-Nutzer bringt die Ernüchterung auf den Punkt: Opus 4.7 sei weniger als 4 Prozent besser als GPT-5.4, koste dabei aber rund das Doppelte. GPT-5.4 ist zudem bereits Monate alt.
Fazit: Claude Opus 4.7 ist ein Seitwärtsschritt
Claude Opus 4.7 ist kein schlechtes Modell. Die Benchmarks sind real, die Präzision bei komplexen Aufgaben überzeugt. Doch der effektive Mehrwert verschwindet hinter Tokenizer-Wechsel, aufgezwungenem Adaptive Thinking und 150.000 Zeichen System-Prompt.
Für deinen Arbeitsalltag heißt das: Prüfe deinen Token-Verbrauch genau. Stelle den Effort-Level manuell auf Medium oder High. Und behalte Codex als ernsthafte Alternative auf dem Schirm.
Der Wettkampf um die Agentic Coding Super App ist offen. OpenAI holt gerade massiv auf.




































.png)






.webp)

.webp)




