Zum Inhalt springen
deep-dives · 4 min Lesezeit

DeepSeek V3 2 Preis Unterschuss fuer Agenten Budgets

DeepSeek V3 2 vereint Chat und Reasoning in einem Modell Preis Leistung ist guenstig Cache ist ein Vorteil fuer Agenten Budgets

DeepSeek LLM Preise API-Kosten Open-Source Self-Hosting

DeepSeek setzt im API-Markt auf sehr niedrige Tokenpreise. Laut offiziellen Preisangaben kosten Input-Token je nach Cache-Status zwischen 0,028 und 0,28 US-Dollar pro Million. Für Output-Token werden in der Regel 0,42 US-Dollar pro Million fällig. Besonders der Rabatt von 90 Prozent auf Cache-Hits macht DeepSeek V3 für Agenten-Workflows interessant, bei denen derselbe Kontext wiederholt verarbeitet wird.

Stand: 7. Mai 2026. Die Preislogik ist als Momentaufnahme zu lesen; vor Budgetentscheidungen solltest du die verlinkten Anbieterpreise erneut prüfen.

Preis-Leistungs-Verhältnis

Zum Vergleich: Modelle der GPT-4-Klasse liegen preislich häufig deutlich höher, etwa bei mehreren US-Dollar für Input- und zweistelligen Beträgen für Output-Token pro Million. Claude 3 Opus war ebenfalls klar teurer positioniert. Zwar unterbieten auch andere Modelle, etwa Gemini-Flash-Varianten, klassische Premiumpreise deutlich. DeepSeek V3 gehört nach gängigen Preismetriken jedoch zu den auffällig günstigen Optionen im Segment leistungsstarker Sprachmodelle.

Der Cache-Discount als Hebel für Agenten

Das wichtigste Preisdetail ist der Rabatt von 90 Prozent auf Cache-Hits. Laut DeepSeek sinkt der Preis für gecachte Input-Token auf 0,028 US-Dollar pro Million. Für KI-Agenten ist das relevant, weil sie oft denselben System-Prompt, Projektkontext oder Teile der Historie wiederholt mitsenden.

Ein typischer Agenten-Workflow umfasst:

  • einen System-Prompt mit mehreren Tausend Token,
  • zusätzlichen Kontext wie Projektanweisungen oder Arbeitsnotizen,
  • eine wachsende Konversationshistorie,
  • wiederkehrende Tool-Ergebnisse und Zwischenstände.

Bei klassischen Abrechnungsmodellen wird dieser Kontext bei jedem Request erneut vollständig berechnet. Mit Caching fällt der volle Preis nur für nicht gecachte oder neue Eingaben an. Je stärker ein Workflow wiederkehrende Kontextblöcke nutzt, desto größer wird der Kostenvorteil.

Beispielrechnung

Eine überschlägige Rechnung zeigt den Effekt. Angenommen, ein Agent nutzt pro Session:

  • 3.000 Token für den System-Prompt,
  • 10.000 Token für Workspace-Kontext,
  • 20 Tool-Calls,
  • durchschnittlich 500 Token Output pro Call.

Bei einem teureren Modell der GPT-4-Klasse können solche Sessions spürbar ins Gewicht fallen, vor allem wenn sie häufig oder parallel ausgeführt werden.

Mit DeepSeek V3 und aktivem Caching ergibt sich auf Basis der offiziellen Preisangaben beispielhaft:

  • Initialer Call: 13.000 Input-Token × 0,28 $ / M = rund 0,004 $ laut DeepSeek-Preistabelle
  • Weitere 19 Calls mit gecachtem Kontext: 13.000 Token × 19 × 0,028 $ / M = rund 0,007 $ laut DeepSeek-Preistabelle
  • Neuer Input, etwa Tool-Ergebnisse: 30.000 Token × 0,28 $ / M = rund 0,008 $ laut DeepSeek-Preistabelle
  • Output: 10.000 Token × 0,42 $ / M = rund 0,004 $ laut DeepSeek-Preistabelle
  • Gesamt: rund 0,023 $ pro Session

Die exakte Ersparnis hängt vom tatsächlichen Cache-Anteil, vom Prompt-Design und vom Vergleichsmodell ab. In Agenten-Setups mit viel wiederverwendetem Kontext kann der Unterschied jedoch erheblich sein.

Chat, Reasoning und Routing

Ein weiterer Vorteil liegt in der einfachen Kostenstruktur. Während manche Anbieter für erweiterte Reasoning-Funktionen deutlich höhere Preise verlangen, bleiben DeepSeek-Modelle vergleichsweise günstig positioniert. Dadurch kann in vielen Setups ein einfacheres Routing ausreichen: DeepSeek übernimmt Routineaufgaben, teurere Modelle werden nur dort eingesetzt, wo sie messbar bessere Ergebnisse liefern.

Für Entwickler ist das praktisch, weil nicht jede Anfrage vorab aufwendig klassifiziert werden muss. Stattdessen lässt sich ein Standardmodell definieren, das günstige Recherche-, Schreib- oder Strukturierungsaufgaben übernimmt. Premium-Modelle bleiben eine gezielte Eskalationsstufe.

Die Qualitätsfrage im Agenten-Alltag

Günstiger bedeutet nicht automatisch besser. DeepSeek V3 ist nicht in jedem Szenario ein direkter Ersatz für Spitzenmodelle, etwa bei sehr langen Kontexten, komplexem Tool-Calling oder besonders anspruchsvollen Logikaufgaben.

Für viele alltägliche Agenten-Tasks reicht die Leistung jedoch aus: Recherche, Zusammenfassungen, einfache Code-Entwürfe, E-Mail-Vorlagen, Klassifikation oder Dateiorganisation benötigen nicht immer das teuerste verfügbare Modell. Entscheidend ist ein sauberes Routing: günstige Modelle für Routine, stärkere Modelle für komplexe Grenzfälle.

Self-Hosting: Wann lohnt sich der Aufwand?

Da DeepSeek-Modelle als Open Weights verfügbar sind, ist Self-Hosting grundsätzlich möglich. Wirtschaftlich ist das aber nicht automatisch sinnvoll. Die API bleibt häufig der pragmatischere Weg, solange keine besonderen Anforderungen vorliegen.

Self-Hosting kann sich eher lohnen, wenn:

  • bereits geeignete GPU-Hardware vorhanden ist,
  • der Anwendungsfall hohe Anforderungen an Datensouveränität stellt,
  • das Anfragevolumen dauerhaft sehr hoch ist,
  • Betrieb, Wartung und Stromkosten realistisch eingerechnet werden.

Bei sehr niedrigen API-Preisen braucht es erheblichen Traffic, bis eigene Hardware günstiger wird. Für viele Agenten-Projekte ist daher zunächst die API sinnvoller, während Self-Hosting eher eine Option für Spezialfälle bleibt.

Fazit: Niedrige Preise verändern Agenten-Projekte

Der Preisverfall bei LLM-APIs senkt die Einstiegshürde für Agenten-Projekte deutlich. Workflows, die früher wegen hoher Tokenkosten unattraktiv waren, lassen sich mit günstigen Modellen und konsequentem Caching wirtschaftlicher testen.

Für eigene Agenten bietet sich ein hybrider Ansatz an: DeepSeek V3 kann als günstiges Default-Modell für Recherche, Zusammenfassungen und Routineaufgaben dienen. Teurere Premium-Modelle bleiben für Aufgaben reserviert, die bessere Reasoning-Leistung oder höhere Zuverlässigkeit erfordern.

Wer das praktisch einordnet, sollte DeepSeek nicht isoliert betrachten: Für die Modellauswahl hilft auch unser OpenRouter-Guide, für operative Kostenkontrolle der Blick auf Sandboxing und Exec-Approvals.

Ein wichtiger Hebel liegt dabei nicht nur im Modellpreis, sondern in der Architektur: wiederverwendbarer Kontext, aktives Caching und klares Routing entscheiden darüber, wie weit das Token-Budget reicht.

Transparenz

Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.