LLM-Token-Preise erklärt: API-Kosten berechnen und gezielt senken
Wer Anwendungen auf LLM-APIs aufbaut, kennt das Problem: Token-Kosten sind der Posten, der das Budget leise auffrisst. Wer versteht, wie die Abrechnung tatsächlich funktioniert — nicht nur die Listenpreise, sondern Input- vs. Output-Billing, Caching und Mengenrabatte — hat echte Hebel, um die monatlichen Ausgaben zu steuern. Hier ist das vollständige Bild.
Was genau ist ein Token?
Ein Token ist die kleinste Texteinheit, die ein Modell verarbeitet. Kein einzelnes Zeichen, kein ganzes Wort, sondern ein Textfragment, das der Tokenizer des Modells bestimmt.
Für Englisch gilt: 1 Token ≈ 4 Zeichen oder etwa 0,75 Wörter. „ChatGPT is great" ergibt rund 4 Tokens.
Für Deutsch liegt der Verbrauch etwas höher als im Englischen — zusammengesetzte Wörter und Umlaute sorgen dafür, dass derselbe Inhalt ca. 10–30 % mehr Tokens benötigt.
Für CJK-Sprachen (Chinesisch, Japanisch, Koreanisch) wird jedes Zeichen typischerweise auf 1–2 Tokens abgebildet. Dieselbe Aussage auf Chinesisch kann 30–80 % mehr Tokens verbrauchen als auf Englisch:
- „Hello, how are you?" ≈ 6 Tokens
- „你好,你最近怎么样?" ≈ 9–11 Tokens
Wer eine mehrsprachige Nutzerbasis hat, muss diesen Unterschied von Anfang an in die Kostenkalkulation einbeziehen.
Input-Tokens vs. Output-Tokens
Die API-Abrechnung teilt sich in zwei Kategorien mit unterschiedlichen Preisen:
Input-Tokens umfassen alles, was an das Modell gesendet wird — System-Prompts, Gesprächsverlauf, Nutzernachrichten, injizierter Kontext.
Output-Tokens umfassen die Antwort des Modells. Da Textgenerierung rechenintensiver ist, kosten Output-Tokens in der Regel 3–5× so viel wie Input-Tokens.
So sieht die Preislandschaft pro Million Tokens aus:
| Modell-Stufe | Input-Preis | Output-Preis | |---|---|---| | Leichtgewicht (z. B. Claude Haiku) | $0,25 – $0,80 | $1,00 – $4,00 | | Mittelklasse (z. B. Claude Sonnet) | $3,00 | $15,00 | | Flaggschiff (z. B. Claude Opus) | $15,00 | $75,00 |
Der Unterschied zwischen den Stufen ist enorm — bis zu 60×. Die richtige Stufe pro Aufgabe zu wählen, ist der größte einzelne Kostenhebel.
Token-Verbrauch abschätzen
Bevor die Rechnung überrascht, lohnt sich ein grobes Modell des Verbrauchs pro Anfrage:
Tokens gesamt = System-Prompt + Gesprächsverlauf + Nutzereingabe + Modellantwort
Beispiel Kundensupport-Bot:
- System-Prompt (Rollendefinition, Antwortregeln): ~500 Tokens
- Gesprächsverlauf (5 Turns): ~1.000 Tokens
- Aktuelle Nutzernachricht: ~100 Tokens
- Modellantwort: ~300 Tokens
Das ergibt ~1.900 Tokens pro Anfrage — 1.600 Input, 300 Output.
Mit Claude-Sonnet-Preisen:
Input: 1.600 / 1.000.000 × $3,00 = $0,0048
Output: 300 / 1.000.000 × $15,00 = $0,0045
Gesamt pro Anfrage ≈ $0,0093
Klingt günstig. Aber bei 10.000 Gesprächen pro Tag sind es ~$2.790/Monat. Die Zahlen skalieren schnell.
Prompt Caching: Der Rabatt, den die meisten Teams übersehen
Prompt Caching ist eine der wirkungsvollsten Kostenfunktionen. Das Prinzip: Wenn aufeinanderfolgende Anfragen denselben Präfix teilen (z. B. einen System-Prompt), verwendet der Anbieter die vorherige Berechnung wieder, statt sie erneut durchzuführen. Gecachte Input-Tokens werden mit ca. 10 % des Standardpreises abgerechnet.
Zurück zum Support-Bot-Beispiel:
- 500 gecachte Tokens (System-Prompt) à $0,30/M: $0,00015
- 1.100 nicht gecachte Input-Tokens à $3,00/M: $0,0033
- 300 Output-Tokens à $15,00/M: $0,0045
Kosten pro Anfrage sinken auf ~$0,0080 — eine Reduktion von 14 %. Und das bei einem kurzen System-Prompt. Enthält der Präfix eine Wissensdatenbank oder ausführliche Anweisungen (2.000–5.000 Tokens), kann Caching die Input-Kosten um 30–50 % senken.
Der Schlüssel zu hohen Cache-Trefferquoten: Statische Inhalte an den Anfang des Message-Arrays, variable Inhalte (Nutzereingabe, aktueller Kontext) ans Ende. Die Reihenfolge zählt.
Sechs Strategien für niedrigere API-Kosten
1. Prompts straffen
Aufgeblähte System-Prompts sind die häufigste Quelle verschwendeter Tokens. Prüft eure Prompts. Entfernt redundante Anweisungen, überflüssige Beispiele und überspezifizierte Formatierungsregeln. Ein gut formulierter 200-Token-Prompt liefert oft dieselbe Qualität wie einer mit 800 Tokens.
2. Routing nach Aufgabenkomplexität
Nicht jede Anfrage braucht das stärkste Modell. Richtet eine Routing-Schicht ein:
- Klassifikation, Extraktion, Formatierung → Leichtgewicht-Stufe
- Zusammenfassung, Q&A → Mittelklasse-Stufe
- Komplexes Reasoning, kreative Generierung → Flaggschiff-Stufe
Allein das kann die Kosten für geeigneten Traffic um 10–60× senken.
3. Cache-Trefferquote maximieren
Strukturiert jede Anfrage so, dass der statische Präfix über alle Aufrufe identisch bleibt. Bei Multi-Turn-Gesprächen den Anfang des Message-Arrays stabil halten.
4. Batch-APIs für asynchrone Aufgaben nutzen
Für Massen-Übersetzungen, Zusammenfassungen oder Analysen bieten Batch-Endpunkte typischerweise ~50 % Rabatt. Die Bearbeitungszeit verlängert sich auf bis zu 24 Stunden, aber für Offline-Pipelines ist das kein Problem.
5. Output-Länge begrenzen
Setzt max_tokens, um unnötig lange Antworten zu verhindern. Kombiniert das mit einer Prompt-Anweisung wie „antworte knapp" für doppelten Effekt auf die Output-Token-Kosten.
6. Prepaid-Guthaben in Betracht ziehen
Die meisten Anbieter bieten Prepaid-Stufen mit 5–20 % Rabatt. Die besseren Plattformen lassen das Guthaben nicht verfallen und setzen es nicht monatlich zurück — ihr verbraucht es in eurem eigenen Tempo. Für Teams mit konstant $500+/Monat lohnt sich Prepaid fast immer gegenüber Pay-as-you-go.
Realistische Monatskostenschätzungen
Alle Zahlen basieren auf Claude-Sonnet-Preisen mit Caching-Optimierungen.
Kundensupport-Bot
- 5.000 Gespräche/Tag
- ~1.500 Input-Tokens, ~300 Output-Tokens pro Gespräch
- 60 % Cache-Trefferquote
- Monatliche Schätzung: $950 – $1.200
Content-Generierungsplattform
- 1.000 Generierungsaufgaben/Tag
- ~800 Input-Tokens, ~1.500 Output-Tokens pro Aufgabe
- 30 % Cache-Trefferquote
- Monatliche Schätzung: $780 – $950
Dokumentenanalyse und Zusammenfassung
- 200 Dokumente/Tag
- ~3.000 Input-Tokens, ~500 Output-Tokens pro Dokument
- Batch-API (50 % Rabatt)
- Monatliche Schätzung: $180 – $250
Mit der richtigen Kombination aus Modell-Routing, Caching und Batch-Verarbeitung liegen die tatsächlichen Kosten typischerweise 30–60 % unter naiven Schätzungen.
Fazit
Token-Preise belohnen Teams, die auf Details achten. Vier Dinge zählen am meisten:
- Token-Verteilung kennen — verstehen, wo sich die Kosten konzentrieren.
- Modell-Stufe zur Aufgabe passend wählen — keine Flaggschiff-Preise für einfache Jobs zahlen.
- Caching ausreizen — wiederkehrende Präfixe nahezu kostenlos machen.
- Volumen als Vorteil nutzen — Batch-Rabatte und Prepaid-Guthaben summieren sich über die Zeit.
Bei der Wahl eines API-Anbieters lohnt es sich, über den reinen Token-Preis hinauszuschauen. Die Reife der Caching-Implementierung, die Tiefe der Batch-Rabatte und ob Prepaid-Guthaben verfällt — diese Details bestimmen die tatsächlichen Langzeitkosten.