OpenAI veröffentlicht mit GPT-5.5 den ersten komplett neu trainierten Pretrain seit GPT-4. Intern trägt das Modell den Codenamen Spud. Es soll nicht nur besser antworten, sondern Aufgaben am Computer eigenständig zu Ende bringen. Dieser Guide erklärt alle Fähigkeiten, Benchmarks, Kosten und für wen sich der Wechsel jetzt wirklich lohnt.
Was ist GPT-5.5 "Spud"?
Spud ist der interne Codename des Modells, das OpenAI offiziell als GPT-5.5 veröffentlicht. In den Wochen vor dem Launch tauchten weitere Codenamen auf: AK9, Glacia Alpha, OAI 2.1. Bestätigt ist nur Spud.
Der entscheidende Unterschied zu allen Modellen seit Anfang 2024: GPT-5.5 ist ein vollständig neuer Pretrain. Die gesamte 5er-Reihe von 5.0 bis 5.4 baute auf derselben Basis wie GPT-4 auf. Updates kamen ausschließlich über Post-Training. Reasoning-Stufen, Codex-Varianten, Fast-Thinking und Pro-Modi waren Erweiterungen einer alten Grundlage.
Spud bricht mit diesem Muster. Der Trainingslauf fand auf einem 100.000er-GB200-Cluster im neuen Stargate-Rechenzentrum in Texas statt. Es ist OpenAIs erster komplett neuer Pretrain seit fast zwei Jahren. Genau deshalb ist die Veröffentlichung so relevant: hier zeigt sich, was die nächste Generation an Basis-Intelligenz wirklich leistet.
OpenAI-Mitgründer Greg Brockman beschreibt den Effekt als "Big Model Smell". Gemeint ist das Gefühl, dass ein Modell deine Frage einfach versteht. Dass es sich an dich anpasst und nicht erst durch lange Reasoning-Ketten zur Antwort stolpert.
Die Benchmarks: Wo Spud wirklich glänzt
OpenAI positioniert GPT-5.5 explizit als Arbeitswerkzeug, nicht als Chatbot. Dazu passen die Benchmark-Ergebnisse.
Auf Terminal Bench 2.0, einem der realitätsnächsten Tests für Coding-Agents, erreicht GPT-5.5 satte 82,7 Prozent. Claude Opus 4.7 liegt bei 69,4 Prozent, Gemini 3.1 Pro bei 86,5 Prozent. Damit holt sich OpenAI die erste klare Coding-Führung gegenüber Anthropic seit Monaten. Wir hatten das Vorgängermodell bereits im Detail beleuchtet, siehe GPT-5.4 Thinking: Alles was du wissen musst.
Auf SWE-Bench Pro und Cyber Gym schlägt Anthropics neues Mythos-Modell den Spud-Wert minimal. Doch laut einem Community-Vergleich landet Mythos als "König der Halluzinationen". GPT-5.5 ist effizienter und vor allem öffentlich verfügbar.
Der wichtigste Durchbruch kommt aber von einem oft übersehenen Test.
Long-Context: Endlich nutzbar bei einer Million Token
Fast alle aktuellen Modelle werben mit einem Kontextfenster von einer Million Token. In der Praxis ist das oft Augenwischerei. Die Modelle vergessen, vermischen oder halluzinieren ab rund 200.000 Token, also etwa 20 Prozent Auslastung.
OpenAIs eigener MRCR-Test macht diese Schwäche sichtbar. Dabei werden acht parallele "Nadeln" in einem 512.000 bis 1 Million Token großen "Heuhaufen" verteilt. Geprüft wird, ob das Modell die Nadeln zuverlässig findet.
Die Ergebnisse:
- GPT-5.5 (Spud): 74 Prozent
- GPT-5.4: 36 Prozent
- Claude Opus 4.7: 32 Prozent
Auf der Graphwalks-Benchmark über denselben 1-Million-Token-Horizont sind es sogar 45,4 Prozent für Spud gegen magere 9,4 Prozent für GPT-5.4.
Was bedeutet das konkret? Du kannst eine komplette Codebase, ein vollständiges Vertragswerk oder Dutzende Dokumente auf einmal einspeisen. Auch eine Information auf Seite 400 taucht im Denkprozess noch auf. Genau hier scheiterten die meisten Modelle bisher.
Computer-Use und Browser-Use als Kernfähigkeit
OpenAI listet bei GPT-5.5 erstmals Computer-Use und Browser-Use als eigene Kernfähigkeiten auf. Das Modell soll fremde Software direkt steuern, ohne API-Schnittstellen zu nutzen.
In der Launch-Box formuliert OpenAI das so: GPT-5.5 ist "eine neue Art, Arbeit auf dem Computer zu erledigen". Spud antwortet nicht nur, sondern bringt Aufgaben selbständig zu Ende.
Praktisch heißt das: das Modell öffnet Programme, klickt durch Menüs, füllt Formulare aus und führt mehrstufige Workflows aus. Für Unternehmen ist das die Grundlage für echte autonome Agenten ohne aufwendige Toolchain-Anbindung.
GPT-5.5 in ChatGPT und der neuen Codex App
Du nutzt Spud auf zwei Wegen.
In ChatGPT findest du in der Modellauswahl unter "Konfigurieren" ab sofort drei neue Modelle:
- GPT-5.5
- GPT-5.5 Fast Thinking
- GPT-5.5 Pro
Für produktive Arbeit empfehlen wir jedoch klar die Codex App. Du verbindest dort lokale Projekte und Ordner direkt. Codex erhält Standard-Berechtigungen für die Aufgabenausführung und arbeitet eigenständig.
Eine konkrete Aufgabe aus unserem Test: "Mach eine Deepdive-Analyse zu GPT-5.5. Recherchiere im Internet. Vergleiche Kosten, Qualität, Zeit, Tokenverbrauch zu Opus 4.7. Erstelle daraus eine PDF."
Spud lieferte ohne Rückfrage eine 27-seitige PDF mit Executive-Takeaway, Kostenrechnung, Qualitätsvergleich und Empfehlungen. Auf Nachfrage baute das Modell zusätzlich eine native PowerPoint-Präsentation mit Charts und Vergleichen. Genau das ist eine der echten Stärken von GPT-5.5: gut designte Office-Outputs ohne Drittanbieter-Tools.
GPT-5.5 vs Claude Opus 4.7: Wer gewinnt in der Praxis?
Wir haben beide Modelle in einer realen Kreativaufgabe verglichen. Aufgabe: ein einminütiges Marketing-Video für die Voice-Dictation-App Voicely, gebaut mit Remotion. Opus 4.7 lief im High Effort, GPT-5.5 im Extra High Effort.
Opus 4.7 war minimal schneller fertig. Wichtiger ist aber das Ergebnis: designtechnisch lieferte Opus den deutlich runderen Output. GPT-5.5 produzierte überflüssige Textelemente und wirkte überladen.
Unsere Einordnung:
- Opus 4.7: stärker bei Marketing-, Design- und Kreativaufgaben.
- GPT-5.5 (Spud): stärker bei strukturierter Recherche, Long-Context, Coding und Office-Outputs.
Die genaue Abgrenzung zwischen den beiden Coding-Welten haben wir im Artikel über die Agentic-Coding-Super-Apps tiefer ausgeleuchtet.
Die Lehre aus dem Vergleich: setze nicht auf ein einzelnes Modell. Spud ist ein scharfes Werkzeug für strukturierte Arbeit, Opus 4.7 bleibt erste Wahl für gestalterische Aufgaben.
Kosten und Token-Effizienz: Spud im Realvergleich
Auf den ersten Blick wirkt GPT-5.5 teuer. Die Listenpreise:
- Input: identisch mit Opus 4.7
- Output: 30 Dollar pro 1 Million Token, also höher als Opus 4.7
Wer nur diese Zahlen vergleicht, übersieht den entscheidenden Faktor: die Token-Effizienz. Reasoning-Token machen mittlerweile den größten Kostenblock aus. Wer schnell viele Token verbraucht, zahlt mehr und stößt schneller an Nutzungslimits.
Der Cost-to-Run-Index von Artificial Analysis zeigt das deutlich. Hier wird gemessen, was es real kostet, den Index einmal komplett zu durchlaufen:
- Opus 4.6: rund 5.000 Dollar
- Opus 4.7: knapp darunter
- GPT-5.5 (Extra High): nur 3.357 Dollar
GPT-5.5 verbraucht bei vergleichbarer Qualität deutlich weniger Reasoning-Token. Wer hohe Volumen fährt, spart hier konkret Geld. Der direkte Vergleich zu Anthropics aktuellem Flaggschiff lohnt sich, gerade vor dem Hintergrund der bestätigten Performance-Probleme. Wir haben sie im versteckten Problem hinter dem Opus 4.7 Update detailliert beleuchtet.
Selbst-Optimierung: 20 Prozent mehr Token-Geschwindigkeit
Eine Detailmeldung verdient Aufmerksamkeit. OpenAI gibt an, dass Spud über die Codex-App wochenlang Produktionsdaten ausgewertet hat. Auf dieser Basis schrieb das Modell neue Heuristiken für die Lastverteilung auf den GPUs.
Das Ergebnis: über 20 Prozent höhere Token-Generierungsgeschwindigkeit. Falls die Angabe stimmt, hat Spud sich selbst um ein Fünftel effizienter gemacht. Das wäre einer der ersten dokumentierten Fälle, in denen ein Frontier-Modell aktiv zur eigenen Infrastruktur-Optimierung beigetragen hat.
Für die Praxis ist relevant: niedrigere Reasoning-Kosten, schnellere Antworten, weniger Druck auf Nutzungslimits. Der Effekt landet direkt bei dir, ohne dass du etwas anpassen musst.
Fazit: Für wen lohnt sich GPT-5.5 "Spud"?
GPT-5.5 ist kein bloßes Update. Es ist der erste neue Pretrain seit GPT-4 und liefert echte Substanz: dramatisch besseres Long-Context-Verhalten, klare Coding-Führung, höhere Token-Effizienz und native Office-Outputs.
Spud lohnt sich besonders, wenn du regelmäßig:
- große Codebases, Vertragswerke oder Dokumente analysierst
- strukturierte Recherchen mit PDF- oder PowerPoint-Output brauchst
- autonome Workflows mit Computer-Use oder Browser-Use baust
- hohe Token-Volumen fährst und auf Effizienz achtest
Für Marketing-, Design- und reine Wissensarbeit bleibt Claude Opus 4.7 unsere Empfehlung. Wer 2026 wettbewerbsfähig bleiben will, baut sein Setup multipolar auf: GPT-5.5 für Strukturarbeit, Opus 4.7 für Gestaltung. Genau in dieser Kombination spielt Spud seine Stärken aus.












































.png)





