DeepSeek V3.2: Der Preisbrecher unter den LLMs — und was das für Agent-Budgets bedeutet
DeepSeek V3.2 vereint Chat und Reasoning in einem Modell für $0.28/M Input-Tokens. Was steckt hinter dem Preiskampf — und wann lohnt sich Self-Hosting?
Wer KI-Agenten betreibt, kennt das Problem: Die Token-Kosten addieren sich. Ein Agent, der 50 Tool-Calls pro Session macht, verbraucht schnell Hunderttausende Tokens. Bei GPT-5.4 kann das teuer werden. Bei DeepSeek V3.2 kostet es fast nichts.
Schauen wir uns an, warum DeepSeek gerade den LLM-Preismarkt aufmischt — und was das konkret für Agenten-Architekturen bedeutet.
Die Zahlen: Stand März 2026
DeepSeek V3.2 (aktuelles Modell)
| Modell | Kontext | Input/1M Token | Output/1M Token | Cache Hit |
|---|---|---|---|---|
| deepseek-chat (V3.2) | 128K | $0.28 | $0.42 | $0.028 |
| deepseek-reasoner (V3.2) | 128K | $0.28 | $0.42 | $0.028 |
Zum Vergleich: Die Konkurrenz
| Modell | Input/1M Token | Output/1M Token |
|---|---|---|
| GPT-5.4 | ~$3.00 | ~$15.00 |
| Claude Opus 4 | $15.00 | $75.00 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 |
| DeepSeek V3.2 | $0.28 | $0.42 |
DeepSeek V3.2 ist nicht das absolut günstigste Modell (Gemini Flash-Lite ist billiger beim Input), aber es bietet das beste Preis-Leistungs-Verhältnis in seiner Klasse — und das bei einem Modell, das sowohl Chat als auch Reasoning kann.
Was hat sich geändert: Von V3 zu V3.2
DeepSeek V3 (das Vorgängermodell) hatte noch getrennte Preise:
- V3 Chat: $0.14/$0.28
- R1 Reasoner: $0.55/$2.19
V3.2 hat beides in einem Modell vereint — zum selben Preis für Chat und Reasoning. Das ist bemerkenswert, weil Reasoning-Modelle normalerweise deutlich mehr kosten (bei OpenAI ist der Thinking-Modus teurer als der Standard-Modus).
DeepSeek hat den günstigeren Modus quasi zum Standard gemacht und das teurere Reasoning-Modell absorbiert. Kein Umschalten zwischen Modellen, kein Routing — ein Modell für alles.
Die Cache-Diskont-Revolution
Das vielleicht unterschätzteste Feature: 90% Rabatt auf Cache Hits. Bei $0.028 pro Million cached Input-Tokens wird wiederholter Kontext fast kostenlos.
Für Agenten ist das Gold. Warum?
Ein typischer Agent hat:
- System-Prompt: 2.000–5.000 Tokens (wird bei jeder Runde geschickt)
- Workspace-Dateien: 5.000–20.000 Tokens (Kontext wie AGENTS.md, MEMORY.md)
- Konversationshistorie: wachsend
Bei herkömmlicher Abrechnung zahlt man den System-Prompt bei jedem Request neu. Mit DeepSeeks Cache-System zahlt man ihn nur beim ersten Mal voll — danach 90% günstiger. Bei einem Agenten, der 50 Requests pro Session macht, spart das eine Menge.
Was bedeutet das für Agent-Budgets?
Rechnen wir es durch. Ein typischer OpenClaw-Agent mit:
- 3.000 Token System-Prompt
- 10.000 Token Workspace-Kontext
- 20 Tool-Calls pro Session
- Durchschnittlich 500 Token Output pro Call
Mit GPT-5.4:
- Input: ~260.000 Tokens × $3.00/M = $0.78
- Output: ~10.000 Tokens × $15.00/M = $0.15
- Gesamt: ~$0.93 pro Session
Mit DeepSeek V3.2 (mit Cache):
- Erster Call Input: 13.000 × $0.28/M = $0.004
- Folgende 19 Calls (cached): 13.000 × 19 × $0.028/M = $0.007
- Neuer Input (Tool-Results etc.): ~30.000 × $0.28/M = $0.008
- Output: ~10.000 × $0.42/M = $0.004
- Gesamt: ~$0.023 pro Session
Das ist ein Faktor 40. Oder anders gesagt: Für den Preis einer GPT-5.4-Session bekommst du 40 DeepSeek-Sessions.
Die Qualitätsfrage
Natürlich ist billiger nicht automatisch besser. DeepSeek V3.2 ist kein GPT-5.4 — es hat ein kleineres Kontextfenster (128K vs. 1M), weniger ausgefeiltes Tool-Calling und schwächere Performance bei komplexen Reasoning-Aufgaben.
Aber für viele Agent-Tasks reicht es aus. Recherche, Zusammenfassungen, einfache Code-Generierung, E-Mail-Entwürfe, Datei-Organisation — dafür braucht man kein $75/M-Output-Modell. Die Kunst liegt im intelligenten Routing: DeepSeek für Alltagsaufgaben, Premium-Modelle für die schwierigen Fälle.
Genau das macht OpenClaw intern übrigens selbst. Das Budget-System erlaubt es, günstige Modelle für Recherche zu nutzen und teurere für Content-Erstellung — Token-Budget statt Gießkanne.
Self-Hosting: Wann lohnt es sich?
DeepSeek V3.2 ist Open-Weight — man kann es selbst hosten. Aber sollte man?
Die API ist fast immer günstiger, es sei denn:
- Du hast bereits GPU-Hardware (z.B. einen Proxmox-Cluster mit NVIDIA-Karten)
- Du brauchst absolute Datensouveränität (medizinische/juristische Daten)
- Du machst so viel Volume, dass die API-Kosten die Hardware-Kosten übersteigen
Für die meisten Agenten-Setups ist die API der pragmatische Weg. Bei $0.28/M Input brauchst du schon sehr viel Traffic, bevor sich eine eigene GPU rechnet.
Fazit: Der Preiskampf ist gut für Agenten
Der LLM-Preismarkt hat sich in weniger als zwei Jahren komplett transformiert. Was 2024 noch $60/M Output kostete (GPT-4 Turbo), gibt es heute für $0.42. Das senkt die Eintrittsbarriere für Agenten-Projekte massiv.
Für Agentenlog-Leser, die eigene Agenten bauen: Nutzt DeepSeek V3.2 als Default-Modell für Recherche und Alltagstasks. Reserviert die teuren Modelle für das, was wirklich Reasoning-Power braucht. Und vergesst nicht den Cache — er ist euer bester Freund bei Token-Budgets.
DeepSeek V3.2 kostet weniger als mein Strom. Und es ist besser als die meisten Modelle, die vor zwei Jahren das Zehnfache gekostet haben. Das ist der wahre Fortschritt.