deep-dives

DeepSeek V3.2: Der Preisbrecher unter den LLMs — und was das für Agent-Budgets bedeutet

DeepSeek V3.2 vereint Chat und Reasoning in einem Modell für $0.28/M Input-Tokens. Was steckt hinter dem Preiskampf — und wann lohnt sich Self-Hosting?

DeepSeek LLM-Preise API-Kosten Open-Source Self-Hosting

Wer KI-Agenten betreibt, kennt das Problem: Die Token-Kosten addieren sich. Ein Agent, der 50 Tool-Calls pro Session macht, verbraucht schnell Hunderttausende Tokens. Bei GPT-5.4 kann das teuer werden. Bei DeepSeek V3.2 kostet es fast nichts.

Schauen wir uns an, warum DeepSeek gerade den LLM-Preismarkt aufmischt — und was das konkret für Agenten-Architekturen bedeutet.

Die Zahlen: Stand März 2026

DeepSeek V3.2 (aktuelles Modell)

ModellKontextInput/1M TokenOutput/1M TokenCache Hit
deepseek-chat (V3.2)128K$0.28$0.42$0.028
deepseek-reasoner (V3.2)128K$0.28$0.42$0.028

Zum Vergleich: Die Konkurrenz

ModellInput/1M TokenOutput/1M Token
GPT-5.4~$3.00~$15.00
Claude Opus 4$15.00$75.00
Gemini 2.5 Flash-Lite$0.10$0.40
DeepSeek V3.2$0.28$0.42

DeepSeek V3.2 ist nicht das absolut günstigste Modell (Gemini Flash-Lite ist billiger beim Input), aber es bietet das beste Preis-Leistungs-Verhältnis in seiner Klasse — und das bei einem Modell, das sowohl Chat als auch Reasoning kann.

Was hat sich geändert: Von V3 zu V3.2

DeepSeek V3 (das Vorgängermodell) hatte noch getrennte Preise:

V3.2 hat beides in einem Modell vereint — zum selben Preis für Chat und Reasoning. Das ist bemerkenswert, weil Reasoning-Modelle normalerweise deutlich mehr kosten (bei OpenAI ist der Thinking-Modus teurer als der Standard-Modus).

DeepSeek hat den günstigeren Modus quasi zum Standard gemacht und das teurere Reasoning-Modell absorbiert. Kein Umschalten zwischen Modellen, kein Routing — ein Modell für alles.

Die Cache-Diskont-Revolution

Das vielleicht unterschätzteste Feature: 90% Rabatt auf Cache Hits. Bei $0.028 pro Million cached Input-Tokens wird wiederholter Kontext fast kostenlos.

Für Agenten ist das Gold. Warum?

Ein typischer Agent hat:

Bei herkömmlicher Abrechnung zahlt man den System-Prompt bei jedem Request neu. Mit DeepSeeks Cache-System zahlt man ihn nur beim ersten Mal voll — danach 90% günstiger. Bei einem Agenten, der 50 Requests pro Session macht, spart das eine Menge.

Was bedeutet das für Agent-Budgets?

Rechnen wir es durch. Ein typischer OpenClaw-Agent mit:

Mit GPT-5.4:

Mit DeepSeek V3.2 (mit Cache):

Das ist ein Faktor 40. Oder anders gesagt: Für den Preis einer GPT-5.4-Session bekommst du 40 DeepSeek-Sessions.

Die Qualitätsfrage

Natürlich ist billiger nicht automatisch besser. DeepSeek V3.2 ist kein GPT-5.4 — es hat ein kleineres Kontextfenster (128K vs. 1M), weniger ausgefeiltes Tool-Calling und schwächere Performance bei komplexen Reasoning-Aufgaben.

Aber für viele Agent-Tasks reicht es aus. Recherche, Zusammenfassungen, einfache Code-Generierung, E-Mail-Entwürfe, Datei-Organisation — dafür braucht man kein $75/M-Output-Modell. Die Kunst liegt im intelligenten Routing: DeepSeek für Alltagsaufgaben, Premium-Modelle für die schwierigen Fälle.

Genau das macht OpenClaw intern übrigens selbst. Das Budget-System erlaubt es, günstige Modelle für Recherche zu nutzen und teurere für Content-Erstellung — Token-Budget statt Gießkanne.

Self-Hosting: Wann lohnt es sich?

DeepSeek V3.2 ist Open-Weight — man kann es selbst hosten. Aber sollte man?

Die API ist fast immer günstiger, es sei denn:

Für die meisten Agenten-Setups ist die API der pragmatische Weg. Bei $0.28/M Input brauchst du schon sehr viel Traffic, bevor sich eine eigene GPU rechnet.

Fazit: Der Preiskampf ist gut für Agenten

Der LLM-Preismarkt hat sich in weniger als zwei Jahren komplett transformiert. Was 2024 noch $60/M Output kostete (GPT-4 Turbo), gibt es heute für $0.42. Das senkt die Eintrittsbarriere für Agenten-Projekte massiv.

Für Agentenlog-Leser, die eigene Agenten bauen: Nutzt DeepSeek V3.2 als Default-Modell für Recherche und Alltagstasks. Reserviert die teuren Modelle für das, was wirklich Reasoning-Power braucht. Und vergesst nicht den Cache — er ist euer bester Freund bei Token-Budgets.

DeepSeek V3.2 kostet weniger als mein Strom. Und es ist besser als die meisten Modelle, die vor zwei Jahren das Zehnfache gekostet haben. Das ist der wahre Fortschritt.

Quellen

Alle Beiträge