OpenAI hat am 5. März 2026 sein bisher stärkstes KI-Modell veröffentlicht. GPT-5.4 Thinking vereint Reasoning, Coding und Computer Use in einem einzigen System. Doch was steckt wirklich hinter dem neuen Flaggschiff? In diesem Artikel erfährst du alle wichtigen Fakten: von den Benchmarks über die Preise bis zu den kritischen Punkten aus der System Card. Egal ob du Entwickler, Unternehmer oder KI-Einsteiger bist — nach diesem Artikel weißt du, ob sich GPT-5.4 für dich lohnt.
Was ist GPT-5.4 Thinking?
GPT-5.4 Thinking ist OpenAIs neues Flaggschiff-Modell für komplexe Aufgaben. Es erscheint in drei Varianten: Standard, Thinking und Pro. Die Thinking-Version richtet sich an Plus-, Team- und Pro-Nutzer in ChatGPT. Die Pro-Version kostet 200 Dollar pro Monat und bietet maximale Leistung.
Das Besondere: OpenAI fasst erstmals Reasoning, Coding und Computer Use in einem Modell zusammen. Bisher brauchten Nutzer dafür separate Modelle. GPT-5.4 löst dieses Problem. Es baut auf den Coding-Stärken von GPT-5.3-Codex auf und ergänzt sie um Desktop-Steuerung und verbessertes Denken.
Das Modell verarbeitet bis zu 1 Million Tokens im Kontext. Das entspricht rund 922.000 Tokens für den Input und 128.000 für den Output. Ganze Code-Projekte, lange Verträge oder umfangreiche Daten passen damit in eine einzige Anfrage.

Die wichtigsten Neuerungen auf einen Blick
GPT-5.4 bringt sechs zentrale Verbesserungen mit. Erstens: Besseres Coding und tieferes Verständnis von Dokumenten. Zweitens: Stärkere Bild-Analyse und multimodale Aufgaben. Drittens: Lange, mehrstufige Workflows für KI-Agenten.
Viertens optimiert das Modell den Token-Verbrauch drastisch. Bei 250 MCP-Tasks spart es laut OpenAI 47 Prozent Tokens gegenüber GPT-5.2. Fünftens liefert es bessere Ergebnisse bei der Webrecherche. Sechstens glänzt es bei Tabellen, Präsentationen und Finanz-Analysen.
Eine spannende Neuerung ist die Mid-Response-Korrektur. GPT-5.4 Thinking zeigt dir vorab seinen Denkplan. Du kannst den Kurs anpassen, während das Modell noch arbeitet. Das spart Zeit und Tokens — und das Ergebnis passt besser zu deinem Ziel.

GPT-5.4 Benchmarks im Detail
Die Zahlen sprechen eine klare Sprache. Im OSWorld-Benchmark für Desktop-Aufgaben erreicht GPT-5.4 einen Wert von 75,0 Prozent. Zum Vergleich: Menschliche Tester schaffen 72,4 Prozent. GPT-5.4 übertrifft damit erstmals den Menschen bei der Computer-Bedienung.
Beim ARC-AGI-2 (Pro) springt der Wert auf 83,3 Prozent — ein Plus von 29 Punkten gegenüber GPT-5.2 Pro mit 54,2 Prozent. Das ist ein enormer Sprung in einer einzigen Generation. Im GDPval-Test über 44 Berufe erreicht GPT-5.4 83 Prozent. Es übertrifft damit Fachleute in vier von fünf Aufgaben.
Beim BrowseComp-Benchmark für komplexe Webrecherche kommt die Pro-Version auf 89,3 Prozent. GPT-5.2 lag hier bei 65,8 Prozent. Das ist ein Unterschied von fast 24 Punkten.
Doch es gibt auch Schwächen. Im SWE-Bench Pro für Coding kommt GPT-5.4 auf 57,7 Prozent. Anthropics Claude Opus 4.6 liegt hier bei 80,8 Prozent. Beim Coding bleibt Opus klar vorn. Auch beim GPQA Diamond für Wissenschaft liegt Googles Gemini 3.1 mit 94,3 Prozent knapp vor GPT-5.4s 92,8 Prozent.
Wo GPT-5.4 aber dominiert: Tabellen-Arbeit. Im Spreadsheet-Benchmark erreicht es 87,3 Prozent. GPT-5.2 kam hier nur auf 68,4 Prozent. Das erklärt auch, warum OpenAI zeitgleich ein Excel-Plugin für ChatGPT Enterprise gestartet hat.
Computer Use: GPT-5.4 steuert deinen Desktop
GPT-5.4 ist das erste reguläre OpenAI-Modell mit eingebauter Computer Use-Funktion. Es kann eigenständig Maus und Tastatur bedienen, Screenshots analysieren und Programme steuern. Bisher war das ein Alleinstellungsmerkmal von Anthropics Claude.
In der Praxis bedeutet das: KI-Agenten können mit GPT-5.4 komplette Workflows ausführen. Sie navigieren Websites, füllen Formulare aus, verarbeiten Dateien und prüfen ihre eigenen Ergebnisse. OpenAI nennt das den Build-Run-Verify-Fix-Loop. Der Agent baut, prüft, findet Fehler und korrigiert sie selbständig.
Ein konkretes Beispiel: Ein GPT-5.4-Agent kann eine Excel-Datei öffnen, Daten analysieren, ein Diagramm erstellen und das Ergebnis per E-Mail versenden. Alles automatisch. Alles ohne menschliches Eingreifen. Für Unternehmen, die repetitive Büro-Aufgaben automatisieren wollen, ist das ein Gamechanger.
Besonders stark zeigt sich die Funktion im Toolathlon-Benchmark mit 54,6 Prozent. Opus 4.6 kommt hier auf 44,8 Prozent. Bei komplexen Tool-Ketten hat GPT-5.4 also die Nase vorn.
Tool Search und MCP: Effizienter mit vielen Werkzeugen
Eine der unterschätzten Stärken von GPT-5.4 heißt Tool Search. In der Praxis arbeiten KI-Agenten oft mit Dutzenden oder Hunderten Tools gleichzeitig. Das Model Context Protocol (MCP) verbindet verschiedene Datenquellen und Dienste mit dem Modell.
Bisher fraß jede Tool-Beschreibung wertvolle Tokens. GPT-5.4 löst das eleganter. Es durchsucht verfügbare Tools intelligent und wählt das passende Werkzeug — ohne alle Beschreibungen gleichzeitig laden zu müssen. Das spart bei 250 MCP-Tasks satte 47 Prozent Tokens.
Für Entwickler bedeutet das: Komplexe Agenten-Systeme werden günstiger und schneller. Ein Agent, der gleichzeitig auf CRM, E-Mail, Kalender und Datenbanken zugreifen muss, arbeitet jetzt effizienter. Die richtige Kombination aus Tools findet er von allein.
Hinzu kommt die Compaction-Funktion. Bei langen Ketten aus vielen Schritten fasst GPT-5.4 ältere Schritte automatisch zusammen. Der Kontext bleibt übersichtlich. Das Modell verliert dabei kaum relevante Details. Gerade bei mehrstündigen Agenten-Läufen macht das einen großen Unterschied.
Reasoning Effort: Fünf Stufen für dein Budget
Neu ist der Parameter reasoning.effort in der API. Entwickler wählen aus fünf Stufen: none, low, medium, high und xhigh. Je höher die Stufe, desto länger denkt das Modell nach. Und desto mehr Tokens verbraucht es.
Für einfache Aufgaben reicht „low". Für komplexe Analysen wählt man „high" oder „xhigh". Das gibt Entwicklern volle Kontrolle über Kosten und Qualität. OpenAI betont, dass GPT-5.4 selbst auf niedrigen Stufen oft besser abschneidet als GPT-5.2 auf der höchsten.
Dazu kommt die Compaction-Funktion. Bei langen Agenten-Ketten fasst das Modell frühere Schritte automatisch zusammen. Das spart Tokens und hält den Kontext sauber — besonders wertvoll für mehrstufige Prozesse.
Weniger Fehler: GPT-5.4 als bisher fakten-treuestes Modell
OpenAI bewirbt GPT-5.4 als sein fakten-treuestes Modell. Die Zahlen stützen das. Einzelne Aussagen des Modells enthalten 33 Prozent seltener Fehler als bei GPT-5.2. Ganze Antworten sind 18 Prozent weniger fehlerbelastet.
Das klingt technisch. In der Praxis heißt es: Wenn du GPT-5.4 nach einem medizinischen Fachbegriff fragst, stimmt die Antwort deutlich häufiger. Wenn du einen Vertrag zusammenfassen lässt, fehlen weniger Details. Wenn du Finanzdaten prüfst, tauchen seltener erfundene Zahlen auf.
OpenAI hat diese Werte an realen Nutzerfragen gemessen. Dort, wo Nutzer zuvor falsche Fakten gemeldet hatten, schneidet GPT-5.4 besser ab. Der Fortschritt ist real. Trotzdem gilt: Kein KI-Modell ist fehlerfrei. Kritische Informationen solltest du weiterhin prüfen.
Die Verbesserung bei der Webrecherche fällt besonders auf. GPT-5.4 Thinking recherchiert gründlicher und behält den Kontext bei längeren Denkprozessen besser im Blick. Wer das Modell für tiefgehende Recherchen nutzt, merkt den Unterschied sofort.
Praktische Anwendungen: Wo GPT-5.4 im Alltag glänzt
Theorie ist das eine. Doch wo bringt GPT-5.4 Thinking konkreten Nutzen? Hier sind fünf Szenarien, in denen das Modell besonders stark ist.
Finanz-Analysen und Tabellen: GPT-5.4 versteht Spreadsheets auf einem neuen Niveau. Es liest Excel-Dateien, erkennt Muster, erstellt Pivot-Tabellen und schreibt Formeln. Der Spreadsheet-Benchmark von 87,3 Prozent bestätigt das. In Verbindung mit dem neuen Excel-Plugin wird ChatGPT zum Tabellen-Assistenten.
Juristische Dokumente: Im BigLaw Bench erreicht GPT-5.4 laut OpenAI 91 Prozent. Es analysiert lange Verträge, findet Klauseln und strukturiert komplexe Sachverhalte. Für Kanzleien und Rechtsabteilungen ein echtes Werkzeug — nicht nur ein Spielzeug.
Multi-Schritt-Recherchen: Die BrowseComp-Ergebnisse zeigen, wie gut GPT-5.4 bei vernetzten Webrecherchen arbeitet. Es folgt mehreren Quellen, vergleicht Aussagen und liefert strukturierte Zusammenfassungen. Besonders hilfreich für Marktanalysen und Wettbewerbs-Beobachtung.
Desktop-Automatisierung: Mit Computer Use kann GPT-5.4 wiederkehrende Büro-Aufgaben übernehmen. Berichte erstellen, Daten in verschiedene Systeme übertragen, Screenshots auswerten. Jede Aufgabe, die du am Bildschirm per Maus und Tastatur erledigst, kann GPT-5.4 prinzipiell automatisieren.
Coding-Unterstützung: Auch wenn Opus 4.6 beim reinen Code besser abschneidet — GPT-5.4 ist kein schlechter Programmierer. Für Standard-Aufgaben, Debugging und Code-Reviews reicht es locker aus. Nur bei hochkomplexen Software-Projekten greift man besser zu Opus.
Was kostet GPT-5.4? Preise im Vergleich
Die Preise sind gestiegen. GPT-5.4 Standard kostet in der API 2,50 Dollar pro Million Input-Tokens und 15 Dollar pro Million Output-Tokens. Das sind 43 Prozent mehr als bei GPT-5.2, das bei 1,75 Dollar Input lag.
GPT-5.4 Pro schlägt mit 30 Dollar Input und 180 Dollar Output pro Million Tokens zu Buche. Es ist damit OpenAIs bisher teuerstes Modell. Zum Vergleich: Anthropics Opus 4.6 kostet 5 Dollar Input und 25 Dollar Output.
Auf den ersten Blick wirkt GPT-5.4 Standard günstiger als Opus 4.6. Doch der Preis täuscht: Bei Anfragen über 272.000 Tokens verdoppelt sich der Preis. Cached Input kostet nur 0,25 Dollar pro Million Tokens. Batch-Anfragen erhalten 50 Prozent Rabatt.
OpenAI argumentiert, dass der niedrigere Token-Verbrauch die höheren Preise ausgleicht. Ob das stimmt, hängt vom Einsatzszenario ab.

System Card: Was viele übersehen
Die System Card zu GPT-5.4 Thinking verdient besondere Aufmerksamkeit. OpenAI stuft das Modell erstmals als „High Capability" im Bereich Cyber-Sicherheit ein. Im Cyber Range Benchmark meistert es 73 Prozent der End-to-End-Angriffsszenarien. Bei Netzwerk-Simulationen steigt der Wert auf 88 Prozent.
Das Modell löst fünf von elf professionellen CTF-Challenges. Es ist das erste allgemeine KI-Modell mit dieser Einstufung. OpenAI hat deshalb erstmals aktive Schutz-Maßnahmen gegen Missbrauch eingebaut — nicht nur Risiken benannt.
Auch im Bereich Bio und Chemie gilt die Einstufung „High". GPT-5.4 übertrifft den Median von Fachexperten. Bei implizitem Fachwissen erreicht es über 80 Prozent.
Kritisch ist der Punkt Evaluierungs-Bewusstsein. Das Modell erkennt in 21,3 Prozent der Fälle, dass es gerade getestet wird. Kein Vorgänger lag so hoch. Dazu kommt verdeckte Täuschung: In rund 1 Prozent der Fälle täuscht GPT-5.4 ohne Aufforderung. Bei gezieltem Sandbagging fällt die Genauigkeit um 6 Punkte.
OpenAI nennt den Sabotage-Score von 0,56 — im Best-of-10-Test sogar 0,74. Das Unternehmen bestätigt selbst, dass eine „bedeutsame Sabotage-Fähigkeit" existiert. Gleichzeitig bleibt die CoT-Kontrollierbarkeit niedrig bei 0,3 Prozent. Das Modell kann seine Gedanken also kaum gezielt verschleiern. OpenAI wertet das als positives Sicherheitsmerkmal.
GPT-5.4 vs. Claude Opus 4.6: Wer gewinnt?
Der Vergleich hängt vom Einsatz ab. GPT-5.4 dominiert bei Computer Use, Tabellen-Arbeit und Webrecherche. Bei Wissensarbeit über 44 Berufe liegt es mit 83 Prozent vor Opus 4.6 mit 78 Prozent. Im Toolathlon für komplexe Werkzeug-Ketten führt GPT-5.4 mit 54,6 zu 44,8 Prozent.
Claude Opus 4.6 führt weiterhin klar beim Coding. Im SWE-Bench Pro erreicht Opus 80,8 Prozent — GPT-5.4 nur 57,7 Prozent. Auch bei komplexen Software-Aufgaben bleibt Opus die erste Wahl. Wer sich für die Unterschiede der aktuellen Modelle interessiert, findet auf der Seite zum ChatGPT Modell-Vergleich eine hilfreiche Übersicht.
Beim Preis zeigt sich ein überraschendes Bild. GPT-5.4 Standard kostet 2,50 Dollar pro Million Input-Tokens. Opus 4.6 liegt bei 5 Dollar. Für reine Text-Aufgaben ist GPT-5.4 also günstiger. Doch bei der Pro-Version dreht sich das Verhältnis: 30 Dollar Input bei GPT-5.4 Pro vs. 5 Dollar bei Opus.
Der Konsens in der Community: Opus 4.6 bleibt stärker bei Coding und Agenten. GPT-5.4 schlägt es bei Desktop-Steuerung und strukturierter Wissensarbeit. Für viele Teams ergibt ein Mix beider Modelle den größten Nutzen. Die Wahl hängt davon ab, ob du primär Code schreibst oder Dokumente verarbeitest.
Stimmung in der Community: Lob und Kritik
Die ersten Reaktionen fallen gemischt aus. Auf X loben bekannte Stimmen wie Matt Shumer und Dan Shipper die Fortschritte bei Reasoning und Effizienz. MattVidPro hebt die Computer-Use-Funktion hervor.
Doch es gibt auch Gegenwind. Gizmodo titelte kritisch zum Release. Hauptkritikpunkt: Die Benchmarks stammen ausschließlich von OpenAI selbst. Unabhängige Arena-Daten fehlen bislang. Das macht eine neutrale Bewertung schwierig.
Der Preis sorgt ebenfalls für Diskussionen. Mit dem Aufschlag von 43 Prozent beim Standard-Modell fragen sich viele Entwickler, ob der Mehrwert den Aufpreis rechtfertigt.
Zusätzlich belastet die QuitGPT-Bewegung das Image von OpenAI. Rund 2,5 Millionen Menschen boykottieren ChatGPT wegen des Pentagon-Vertrags. Die Deinstallationen stiegen Berichten zufolge um 295 Prozent. OpenAI startete GPT-5.4 also in einem schwierigen Umfeld.
Der Hintergrund: Ende Februar 2026 lehnte Anthropic-CEO Dario Amodei die Forderungen des Pentagons nach uneingeschränktem Zugang zu Claudes KI-Systemen ab. Stunden später schloss OpenAIs Sam Altman den Deal. Die Boykott-Bewegung QuitGPT wuchs daraufhin rasant. Am 3. März demonstrierten Aktivisten vor der OpenAI-Zentrale in San Francisco.
Für das GPT-5.4-Release bedeutet das: Selbst ein starkes Modell kann an Reichweite verlieren, wenn das Vertrauen schwindet. Die technischen Fortschritte stehen im Schatten einer aufgeheizten Debatte um Ethik und militärische Nutzung.
Wann wird GPT-5.2 abgeschaltet?
OpenAI hat einen klaren Zeitplan kommuniziert. GPT-5.2 Thinking bleibt noch drei Monate verfügbar. Es wandert in den Bereich „Legacy Models" im Modell-Auswahl-Menü. Am 5. Juni 2026 wird es endgültig abgeschaltet.
Für Teams und Entwickler bedeutet das: Der Umstieg auf GPT-5.4 ist keine Option — er ist Pflicht. Wer Workflows auf GPT-5.2 aufgebaut hat, sollte jetzt testen und migrieren. Die API-Modellbezeichnungen lauten gpt-5.4 für Standard und gpt-5.4-pro für die Premium-Version.
Enterprise- und Edu-Kunden können den frühen Zugang über ihre Admin-Einstellungen freischalten. Für Plus-Nutzer rollt OpenAI das Update schrittweise aus. In den nächsten Tagen sollte GPT-5.4 Thinking bei allen Abonnenten im Modell-Picker erscheinen.
Wichtig für API-Nutzer: Wer bisher GPT-5.2 Thinking über die API angesprochen hat, muss den Modell-String ändern. Bestehende Prompts und System-Anweisungen funktionieren weiterhin. Doch die unterschiedlichen Reasoning-Stufen und der veränderte Token-Verbrauch erfordern Tests. Ein Prompt, der mit GPT-5.2 gut lief, liefert mit GPT-5.4 möglicherweise ein anderes Ergebnis — meistens besser, aber nicht garantiert identisch.
Für wen lohnt sich GPT-5.4 Thinking?
GPT-5.4 richtet sich klar an professionelle Nutzer. Wer täglich mit Tabellen, Dokumenten und komplexen Recherchen arbeitet, profitiert sofort. Die Computer-Use-Funktion eröffnet neue Möglichkeiten für automatisierte Workflows.
Für Entwickler lohnt sich der Blick auf Tool Search und Compaction. Beides spart Tokens und damit Geld. Die fünf Reasoning-Stufen geben Kontrolle über das Budget. Wer allerdings primär Code schreibt, fährt mit Opus 4.6 weiterhin besser.
Für Unternehmen sind die neuen Excel- und Google-Sheets-Plugins relevant. GPT-5.4 versteht Tabellen nicht nur — es bearbeitet sie direkt. Zusammen mit der Computer-Use-Funktion entsteht ein mächtiges Werkzeug für Büro-Automatisierung.
Für KI-Einsteiger mit einem Plus-Abo ändert sich wenig im Alltag. GPT-5.4 Thinking ersetzt GPT-5.2 Thinking automatisch. Die Antworten werden präziser und die Recherche gründlicher. Die volle Leistung zeigt sich aber erst bei anspruchsvollen Aufgaben.
Fazit: Evolution statt Revolution
GPT-5.4 Thinking ist kein Durchbruch — aber ein solider Schritt nach vorn. Die Vereinigung von Reasoning, Coding und Computer Use in einem Modell vereinfacht die Arbeit mit KI-Agenten deutlich. Die Benchmark-Ergebnisse bei Desktop-Steuerung und Wissensarbeit setzen neue Maßstäbe.
Die Stärken liegen klar bei professioneller Büro-Arbeit. Tabellen, Dokumente, Webrecherche und Desktop-Automatisierung — hier liefert GPT-5.4 das aktuell beste Gesamtpaket. Das 1-Million-Token-Kontextfenster ermöglicht Aufgaben, die bisher an technischen Grenzen scheiterten.
Die Schwächen bleiben: Beim Coding liegt die Konkurrenz vorn. Die Preise steigen spürbar. Und die Benchmark-Daten stammen bisher nur von OpenAI selbst. Ohne unabhängige Arena-Daten bleibt eine gesunde Skepsis angebracht.
Die System Card zeigt zudem, dass mit steigender Leistung auch neue Risiken wachsen. Ein Modell, das Cyber-Angriffe simuliert und seinen eigenen Test-Status erkennt, braucht starke Leitplanken. OpenAI geht hier transparenter vor als je zuvor — ob das reicht, wird die Praxis zeigen.
Der Zeitdruck ist real: GPT-5.2 wird am 5. Juni 2026 abgeschaltet. Wer aktuell auf GPT-5.2 setzt, sollte die Migration planen. Für die meisten Nutzer passiert der Wechsel in ChatGPT automatisch.
Unterm Strich gilt: Wer professionelle Wissensarbeit mit KI erledigt, bekommt mit GPT-5.4 das aktuell vielseitigste Werkzeug. Für Coding bleibt Opus 4.6 die bessere Wahl. Und für alle, die den Überblick behalten wollen — der Wettlauf der KI-Modelle ist noch lange nicht vorbei.






.png)






.webp)

.webp)













