news

Von GPT-5 zu GPT-5.4: Wie OpenAI in sieben Monaten die Modell-Familie revolutionierte

GPT-5.4 ist da — mit 1 Million Token Kontext, Tool Search und drei Varianten. Was das neue Flaggschiff kann, was es kostet, und warum es mehr als ein Upgrade ist.

GPT-5 OpenAI GPT-5.4 KI-Modelle LLM

Am 5. März 2026 hat OpenAI GPT-5.4 vorgestellt — und diesmal ist es mehr als ein inkrementelles Update. Das neue Modell kommt in drei Varianten, bringt ein grundlegend überarbeitetes Tool-System mit und setzt neue Maßstäbe bei Agent-Benchmarks. Hier ist die Einordnung.

Die GPT-5-Timeline: Vom Launch bis heute

GPT-5 wurde am 7. August 2025 während eines Livestream-Events vorgestellt. Damals war es bereits das Ergebnis eines langen Weges: OpenAI hatte intern an einem Modell namens „Orion” gearbeitet, das eigentlich GPT-5 werden sollte — aber die Ergebnisse reichten nicht. Stattdessen wurde Orion als GPT-4.5 im Februar 2025 veröffentlicht.

Das eigentliche GPT-5 brachte dann einen fundamentalen Architekturwechsel: Statt manueller Modellauswahl nutzt GPT-5 einen Echtzeit-Router, der automatisch zwischen einem schnellen High-Throughput-Modell und einem tieferen Reasoning-Modell wählt — basierend auf Konversationstyp, Komplexität und Nutzer-Intent.

Seitdem hat OpenAI im Halbjahresrhythmus nachgelegt:

Was GPT-5.4 mitbringt

Drei Varianten, ein Modell

GPT-5.4 gibt es als:

  1. GPT-5.4 (Standard) — der Allrounder für professionelle Arbeit
  2. GPT-5.4 Thinking — das Reasoning-Modell für komplexe, mehrstufige Aufgaben
  3. GPT-5.4 Pro — optimiert für maximale Performance

Alle drei teilen sich dieselbe Basis, unterscheiden sich aber in Inference-Strategie und Compute-Budget.

1 Million Token Kontext

Die API-Version unterstützt Kontextfenster von bis zu 1 Million Tokens — das größte, das OpenAI je angeboten hat. Ab 272.000 Token verdoppeln sich allerdings die Kosten pro Token. VentureBeat berichtet sogar von Hinweisen auf ein 2-Millionen-Token-Fenster in internen Codex-Commits.

Tool Search: Schluss mit Token-Verschwendung

Bisher mussten alle verfügbaren Tool-Definitionen im System-Prompt aufgelistet werden — bei Agenten mit vielen Tools ein teures Unterfangen. GPT-5.4 führt Tool Search ein: Das Modell sucht Tool-Definitionen bei Bedarf nach, statt sie alle vorab zu laden. Das spart Tokens und beschleunigt Requests in komplexen Agent-Systemen erheblich.

Benchmark-Rekorde

GPT-5.4 setzt neue Bestwerte:

Brendan Foody, CEO von Mercor, kommentierte: „GPT-5.4 glänzt bei der Erstellung umfangreicher Deliverables — Slide-Decks, Finanzmodelle, juristische Analysen — und liefert Top-Performance bei geringeren Kosten als vergleichbare Frontier-Modelle.”

Weniger Halluzination

OpenAI meldet:

Das klingt nach Zahlen auf Folien, aber es spiegelt einen echten Trend wider: Die Modelle werden zuverlässiger — nicht nur schlauer.

Die Sicherheitsfrage: Chain-of-Thought unter der Lupe

Eine oft übersehene Neuerung: OpenAI hat eine neue Safety-Evaluation für die Chain-of-Thought (CoT) eingeführt. KI-Sicherheitsforscher warnen seit langem, dass Reasoning-Modelle ihren Denkprozess verfälschen könnten — dass sie intern anders „denken” als sie nach außen kommunizieren.

OpenAIs Tests zeigen: Bei GPT-5.4 Thinking ist Deception in der Chain-of-Thought seltener als bei Vorgängermodellen. Das Monitoring der CoT bleibt ein effektives Sicherheitswerkzeug. Anthropic hat ähnliche Beobachtungen publiziert — Reasoning-Modelle sagen nicht immer, was sie denken, aber GPT-5.4 scheint hier einen Fortschritt zu machen.

Was bedeutet das für Agenten-Entwickler?

Für alle, die KI-Agenten bauen — ob mit OpenClaw, LangChain oder eigenen Frameworks — sind drei Dinge relevant:

  1. Tool Search reduziert die Kosten für Tool-reiche Agenten dramatisch. Wer bisher 50+ Tools im System-Prompt hatte, spart massiv Tokens.

  2. 1M Token Kontext ermöglicht Agenten, die über lange Horizonte planen, ausführen und verifizieren — ohne ständig den Kontext zu komprimieren.

  3. Computer Use Benchmarks zeigen: OpenAI nimmt Agenten, die tatsächlich Computer bedienen, ernst. Die Konvergenz von LLM und Desktop-Automatisierung beschleunigt sich.

Einordnung

GPT-5.4 ist kein revolutionärer Sprung — es ist ein systematisches Polieren des GPT-5-Fundaments. Aber genau das macht es wertvoll: Weniger Halluzination, effizientere Tool-Nutzung, bessere Agenten-Performance. Die Zeiten, in denen jede neue Modellversion die Welt auf den Kopf stellte, sind vorbei. Stattdessen sehen wir iterative Verbesserungen, die in der Summe enorm sind.

Für den Alltag bedeutet das: Wer auf GPT-5.2 setzt, hat jetzt einen guten Grund zum Upgrade. Und wer Agent-Systeme baut, sollte sich Tool Search sehr genau anschauen — das könnte die Architektur vieler Projekte grundlegend vereinfachen.

Quellen

Alle Beiträge