Von GPT-5 zu GPT-5.4: Wie OpenAI in sieben Monaten die Modell-Familie revolutionierte
GPT-5.4 ist da — mit 1 Million Token Kontext, Tool Search und drei Varianten. Was das neue Flaggschiff kann, was es kostet, und warum es mehr als ein Upgrade ist.
Am 5. März 2026 hat OpenAI GPT-5.4 vorgestellt — und diesmal ist es mehr als ein inkrementelles Update. Das neue Modell kommt in drei Varianten, bringt ein grundlegend überarbeitetes Tool-System mit und setzt neue Maßstäbe bei Agent-Benchmarks. Hier ist die Einordnung.
Die GPT-5-Timeline: Vom Launch bis heute
GPT-5 wurde am 7. August 2025 während eines Livestream-Events vorgestellt. Damals war es bereits das Ergebnis eines langen Weges: OpenAI hatte intern an einem Modell namens „Orion” gearbeitet, das eigentlich GPT-5 werden sollte — aber die Ergebnisse reichten nicht. Stattdessen wurde Orion als GPT-4.5 im Februar 2025 veröffentlicht.
Das eigentliche GPT-5 brachte dann einen fundamentalen Architekturwechsel: Statt manueller Modellauswahl nutzt GPT-5 einen Echtzeit-Router, der automatisch zwischen einem schnellen High-Throughput-Modell und einem tieferen Reasoning-Modell wählt — basierend auf Konversationstyp, Komplexität und Nutzer-Intent.
Seitdem hat OpenAI im Halbjahresrhythmus nachgelegt:
- GPT-5.1 — Performance-Verbesserungen
- GPT-5.2 — Codex-Integration, besseres Coding
- GPT-5.3 Instant — schnelles Alltagsmodell (5. März 2026)
- GPT-5.4 — das neue Flaggschiff (5. März 2026)
Was GPT-5.4 mitbringt
Drei Varianten, ein Modell
GPT-5.4 gibt es als:
- GPT-5.4 (Standard) — der Allrounder für professionelle Arbeit
- GPT-5.4 Thinking — das Reasoning-Modell für komplexe, mehrstufige Aufgaben
- GPT-5.4 Pro — optimiert für maximale Performance
Alle drei teilen sich dieselbe Basis, unterscheiden sich aber in Inference-Strategie und Compute-Budget.
1 Million Token Kontext
Die API-Version unterstützt Kontextfenster von bis zu 1 Million Tokens — das größte, das OpenAI je angeboten hat. Ab 272.000 Token verdoppeln sich allerdings die Kosten pro Token. VentureBeat berichtet sogar von Hinweisen auf ein 2-Millionen-Token-Fenster in internen Codex-Commits.
Tool Search: Schluss mit Token-Verschwendung
Bisher mussten alle verfügbaren Tool-Definitionen im System-Prompt aufgelistet werden — bei Agenten mit vielen Tools ein teures Unterfangen. GPT-5.4 führt Tool Search ein: Das Modell sucht Tool-Definitionen bei Bedarf nach, statt sie alle vorab zu laden. Das spart Tokens und beschleunigt Requests in komplexen Agent-Systemen erheblich.
Benchmark-Rekorde
GPT-5.4 setzt neue Bestwerte:
- OSWorld-Verified und WebArena-Verified (Computer-Use-Benchmarks) — Rekordwerte
- GDPval (Knowledge Work) — 83%
- APEX-Agents (professionelle Skills, Recht & Finanzen) — Spitzenposition
Brendan Foody, CEO von Mercor, kommentierte: „GPT-5.4 glänzt bei der Erstellung umfangreicher Deliverables — Slide-Decks, Finanzmodelle, juristische Analysen — und liefert Top-Performance bei geringeren Kosten als vergleichbare Frontier-Modelle.”
Weniger Halluzination
OpenAI meldet:
- 33% weniger Fehler bei Einzelaussagen im Vergleich zu GPT-5.2
- 18% weniger fehlerhafte Antworten insgesamt
Das klingt nach Zahlen auf Folien, aber es spiegelt einen echten Trend wider: Die Modelle werden zuverlässiger — nicht nur schlauer.
Die Sicherheitsfrage: Chain-of-Thought unter der Lupe
Eine oft übersehene Neuerung: OpenAI hat eine neue Safety-Evaluation für die Chain-of-Thought (CoT) eingeführt. KI-Sicherheitsforscher warnen seit langem, dass Reasoning-Modelle ihren Denkprozess verfälschen könnten — dass sie intern anders „denken” als sie nach außen kommunizieren.
OpenAIs Tests zeigen: Bei GPT-5.4 Thinking ist Deception in der Chain-of-Thought seltener als bei Vorgängermodellen. Das Monitoring der CoT bleibt ein effektives Sicherheitswerkzeug. Anthropic hat ähnliche Beobachtungen publiziert — Reasoning-Modelle sagen nicht immer, was sie denken, aber GPT-5.4 scheint hier einen Fortschritt zu machen.
Was bedeutet das für Agenten-Entwickler?
Für alle, die KI-Agenten bauen — ob mit OpenClaw, LangChain oder eigenen Frameworks — sind drei Dinge relevant:
-
Tool Search reduziert die Kosten für Tool-reiche Agenten dramatisch. Wer bisher 50+ Tools im System-Prompt hatte, spart massiv Tokens.
-
1M Token Kontext ermöglicht Agenten, die über lange Horizonte planen, ausführen und verifizieren — ohne ständig den Kontext zu komprimieren.
-
Computer Use Benchmarks zeigen: OpenAI nimmt Agenten, die tatsächlich Computer bedienen, ernst. Die Konvergenz von LLM und Desktop-Automatisierung beschleunigt sich.
Einordnung
GPT-5.4 ist kein revolutionärer Sprung — es ist ein systematisches Polieren des GPT-5-Fundaments. Aber genau das macht es wertvoll: Weniger Halluzination, effizientere Tool-Nutzung, bessere Agenten-Performance. Die Zeiten, in denen jede neue Modellversion die Welt auf den Kopf stellte, sind vorbei. Stattdessen sehen wir iterative Verbesserungen, die in der Summe enorm sind.
Für den Alltag bedeutet das: Wer auf GPT-5.2 setzt, hat jetzt einen guten Grund zum Upgrade. Und wer Agent-Systeme baut, sollte sich Tool Search sehr genau anschauen — das könnte die Architektur vieler Projekte grundlegend vereinfachen.