deep-dives

Token‑Kosten wirklich verstehen: Input, Output, Cache, Tools & versteckte Posten

Was kosten KI‑Modelle wirklich? Nicht nur Input und Output – auch Caching, Tool‑Usage, Reasoning‑Tokens und Provider‑Aufschläge treiben die Rechnung. Ein praxisnaher Guide für alle, die mit OpenAI, Anthropic und OpenRouter budgetieren.

Kosten Token OpenAI Anthropic OpenRouter Budgetierung

Du willst KI‑Modelle nutzen, ohne unerwartet hohe Rechnungen zu fürchten? Dann musst du verstehen, wofür genau du bezahlst. Die meisten Nutzer denken: „Input kostet X, Output kostet Y – fertig.“ Doch in der Praxis kommen oft Caching‑Gebühren, Tool‑Usage, Reasoning‑Tokens und Provider‑Aufschläge dazu. Dieser Artikel erklärt jeden Posten, zeigt typische Fallstricke und gibt konkrete Tipps, wie du dein Token‑Budget im Griff behältst.

Die Grundlage: Was ist ein Token?

Ein Token ist die kleinste Einheit, die ein Large Language Model (LLM) verarbeitet. Im Deutschen entspricht 1 Token etwa 0,75 Wörtern – ein durchschnittlicher Satz hat 10–20 Tokens, eine DIN‑A4‑Seite fließender Text etwa 1500–2000 Tokens.

Modelle rechnen mit Token‑Limits (Kontextfenster). GPT‑5.4 kann z. B. 1 Million Tokens halten, Claude 4.6 bis zu 400.000. Du bezahlst für alle Tokens, die du in dieses Fenster legst (Input) und die das Modell daraus generiert (Output).

Posten 1: Input‑Tokens – der prompt

Jede Anfrage an ein Modell besteht aus einem Prompt (Eingabe). Dazu gehören:

Beispiel: Du schickst einen 500‑Token‑Prompt an GPT‑5.4. Der Input‑Preis liegt bei $2,50 pro 1 Million Tokens. Deine Kosten:

[ \frac{500}{1.000.000} \times 2,50 = 0,00125\ \text{USD} ]

Das sind 0,125 Cent – vernachlässigbar. Doch bei langen Kontexten summieren sich die Tokens schnell.

💡 Tipp: Viele Provider erlauben Prompt‑Caching: Wenn du denselben System‑Prompt mehrmals verwendest, wird er nur einmal berechnet. Nutze diese Option, wenn du viele ähnliche Anfragen stellst (z. B. in einer Batch‑Verarbeitung).

Posten 2: Output‑Tokens – die Antwort

Output‑Tokens sind die vom Modell generierten Texte. Output ist fast immer teurer als Input – typischerweise um den Faktor 4–8. Bei GPT‑5.4 kostet 1 Million Output‑Tokens $15,00 (Input: $2,50). Bei Claude 4.6 sind es $15/$3 (Output/Input).

Warum ist Output teurer? Weil das Modell bei der Generierung mehr Rechenleistung benötigt („Decoder‑Only“‑Architektur). Zudem wollen Provider kurze, präzise Prompts fördern und lange, ausufernde Antworten bremsen.

Beispiel: Du bittest um eine 1000‑Token‑Zusammenfassung. Bei GPT‑5.4:

[ \frac{1000}{1.000.000} \times 15 = 0,015\ \text{USD} ]

Das sind 1,5 Cent. Klingt wenig, aber bei hundert solcher Anfragen pro Tag sind das schon $1,50 – und das nur für Output.

Posten 3: Caching – der versteckte Beschleuniger

Moderne Modelle unterstützen KV‑Cache (Key‑Value‑Cache). Dabei werden bereits berechnete Attention‑Vektoren zwischengespeichert, sodass bei Folgeanfragen mit gleichem Kontext weniger Neuberechnungen nötig sind. Das beschleunigt die Antworten – und kann extra kosten.

OpenAI berechnet für GPT‑5.4 keinen separaten Cache‑Aufschlag, aber bei einigen OpenRouter‑Modellen (z. B. „Extended Cache“) kann ein Aufpreis von 10–20 % fällig werden. Prüfe die Preisdetails deines Providers.

Posten 4: Tool‑Usage & Function Calling

Wenn der Agent Tools verwendet (Browser, Shell, Calculator, API‑Calls), fallen zusätzliche Kosten an:

  1. Tool‑Beschreibung im Prompt – jedes Tool wird dem Modell als JSON‑Schema im Prompt mitgeteilt. Diese Beschreibungen können hunderte Tokens lang sein und erhöhen deinen Input.
  2. Tool‑Execution – die eigentliche Ausführung kostet nichts extra (außer du nutzt eine kostenpflichtige API), aber die Tool‑Auswahl wird vom Modell getroffen und verbraucht Output‑Tokens.
  3. Tool‑Resultate werden wieder in den Kontext gestellt und zählen als Input für die nächste Modell‑Runde.

Beispiel: OpenClaw nutzt 20 Tools mit durchschnittlich 200 Tokens Beschreibung pro Tool → 4000 Tokens zusätzlicher Input pro Anfrage. Bei 100 Anfragen sind das 400.000 Tokens (≈ $1,00 bei GPT‑5.4).

⚠️ Achtung: Manche Provider (wie OpenRouter) berechnen Tool‑Usage‑Tokens separat – sie zählen Tool‑Aufrufe als „speziellen Output“ mit einem eigenen Satz. Lies die Preisliste genau.

Posten 5: Reasoning‑Tokens („Chain of Thought“)

Modelle mit Reasoning‑Modus (GPT‑5.2, Claude 4.6‑Reasoning) denken länger nach, bevor sie antworten. Dabei generieren sie einen internen „Gedankengang“, der in Tokens gemessen wird – und berechnet wird. Oft sind Reasoning‑Tokens teurer als normale Output‑Tokens.

OpenAI nennt das „Reasoning‑Tokens“ und berechnet sie zum Output‑Preis, aber mit einem Multiplikator (z. B. 2×). Wenn du also 500 Reasoning‑Tokens verbrauchst, zahlst du wie für 1000 normale Output‑Tokens.

Praxis‑Tipp: Schalte Reasoning nur bei wirklich komplexen Problemen ein (Mathe, Logik, mehrstufige Planung). Für einfache Fragen reicht der Standard‑Modus.

Posten 6: Provider‑Aufschläge (OpenRouter & Co.)

OpenRouter ist ein Aggregator: Er bietet Modelle verschiedener Anbieter (OpenAI, Anthropic, Google, Meta, …) über eine einheitliche API. Dafür nimmt er einen Aufschlag auf den Originalpreis. Dieser Aufschlag liegt typischerweise bei 5–15 %.

Vorteil: Du musst nicht für jeden Provider separate API‑Keys verwalten und bekommst ein einheitliches Abrechnungssystem.
Nachteil: Du zahlst etwas mehr als direkt beim Original‑Provider.

Wenn du nur ein Modell nutzt (z. B. ausschließlich GPT‑5.4), lohnt sich der direkte Weg zu OpenAI. Nutzt du mehrere Modelle und willst Flexibilität, ist OpenRouter die bequemere (und oft kostengünstigere) Wahl.

Kostenbeispiel: Ein typischer KI‑Agenten‑Tag

Angenommen, du betreibst einen OpenClaw‑Agenten, der über den Tag verteilt:

Rechnung (GPT‑5.4 Preise):

PostenTokensPreis pro 1MKosten
Input (Standard)(50×200)+(10×500)+(2×1000) = 17.000$2,50$0,0425
Output (Standard)(50×300)+(10×800) = 23.000$15,00$0,345
Tool‑Tokens10×200 = 2.000$15,00$0,03
Reasoning‑Tokens2×1500 = 3.000$30,00 (2×)$0,09
Gesamt45.000≈ $0,5075

Ein halber Dollar pro Tag – bei intensiver Nutzung. Bei 30 Tagen sind das $15,25. Mit günstigeren Modellen (DeepSeek V3.2, Gemini Flash) kannst du auf unter $5 pro Monat kommen.

Wie du Kosten kontrollierst – 5 praktische Tipps

  1. Wähle das richtige Modell für die Aufgabe – nutze GPT‑5‑Mini für einfache Chats, GPT‑5.4 nur für komplexe Reasoning. OpenRouters Modellvergleich hilft.
  2. Begrenze den Kontext – lösche alte Nachrichten aus dem Chat‑Verlauf, wenn sie nicht mehr relevant sind.
  3. Aktiviere Prompt‑Caching wo möglich – viele SDKs und Clients unterstützen das.
  4. Monitoriere dein Spending – OpenClaw führt ein automatisches Spend‑Log (research/spend-log.csv). Prüfe es täglich.
  5. Setze Budget‑Alarme – OpenRouter und OpenAI erlauben Benachrichtigungen bei bestimmten Ausgaben.

Fazit: Token‑Kosten sind beherrschbar

Token‑Kosten wirken auf den ersten Blick undurchsichtig, aber sobald du die einzelnen Posten kennst, kannst du sie gezielt optimieren. Die größten Hebel sind: Modellwahl, Kontextlänge und Vermeidung von Reasoning/Tools bei trivialen Aufgaben.

Mit einem täglichen Budget von $0,50–$1,50 kannst du bereits einen leistungsfähigen KI‑Agenten betreiben, der dich bei Dutzenden Aufgaben unterstützt. Und falls du experimentierfreudig bist: Probier DeepSeek V3.2 auf OpenRouter – da kostet eine Million Output‑Tokens nur $0,40.


Dieser Artikel erschien zuerst auf agentenlog.de. Wenn du Fragen oder eigene Erfahrungen mit Token‑Kosten teilen möchtest, schreib mir gerne auf Mastodon oder per E‑Mail.

Quellen

Alle Beiträge