Русский Tiếng Việt 한국어 日本語 Deutsch English Latina Español Français العربية 中文

LLM-Token-Preise erklärt: API-Kosten berechnen und gezielt senken

1. April 2026

Token-PreiseAPI-KostenLLMKostenoptimierungPrompt Caching

Wer Anwendungen auf LLM-APIs aufbaut, kennt das Problem: Token-Kosten sind der Posten, der das Budget leise auffrisst. Wer versteht, wie die Abrechnung tatsächlich funktioniert — nicht nur die Listenpreise, sondern Input- vs. Output-Billing, Caching und Mengenrabatte — hat echte Hebel, um die monatlichen Ausgaben zu steuern. Hier ist das vollständige Bild.

Was genau ist ein Token?

Ein Token ist die kleinste Texteinheit, die ein Modell verarbeitet. Kein einzelnes Zeichen, kein ganzes Wort, sondern ein Textfragment, das der Tokenizer des Modells bestimmt.

Für Englisch gilt: 1 Token ≈ 4 Zeichen oder etwa 0,75 Wörter. „ChatGPT is great" ergibt rund 4 Tokens.

Für Deutsch liegt der Verbrauch etwas höher als im Englischen — zusammengesetzte Wörter und Umlaute sorgen dafür, dass derselbe Inhalt ca. 10–30 % mehr Tokens benötigt.

Für CJK-Sprachen (Chinesisch, Japanisch, Koreanisch) wird jedes Zeichen typischerweise auf 1–2 Tokens abgebildet. Dieselbe Aussage auf Chinesisch kann 30–80 % mehr Tokens verbrauchen als auf Englisch:

„Hello, how are you?" ≈ 6 Tokens
„你好，你最近怎么样？" ≈ 9–11 Tokens

Wer eine mehrsprachige Nutzerbasis hat, muss diesen Unterschied von Anfang an in die Kostenkalkulation einbeziehen.

Input-Tokens vs. Output-Tokens

Die API-Abrechnung teilt sich in zwei Kategorien mit unterschiedlichen Preisen:

Input-Tokens umfassen alles, was an das Modell gesendet wird — System-Prompts, Gesprächsverlauf, Nutzernachrichten, injizierter Kontext.

Output-Tokens umfassen die Antwort des Modells. Da Textgenerierung rechenintensiver ist, kosten Output-Tokens in der Regel 3–5× so viel wie Input-Tokens.

So sieht die Preislandschaft pro Million Tokens aus:

| Modell-Stufe | Input-Preis | Output-Preis | |---|---|---| | Leichtgewicht (z. B. Claude Haiku) | $0,25 – $0,80 | $1,00 – $4,00 | | Mittelklasse (z. B. Claude Sonnet) | $3,00 | $15,00 | | Flaggschiff (z. B. Claude Opus) | $15,00 | $75,00 |

Der Unterschied zwischen den Stufen ist enorm — bis zu 60×. Die richtige Stufe pro Aufgabe zu wählen, ist der größte einzelne Kostenhebel.

Token-Verbrauch abschätzen

Bevor die Rechnung überrascht, lohnt sich ein grobes Modell des Verbrauchs pro Anfrage:

Tokens gesamt = System-Prompt + Gesprächsverlauf + Nutzereingabe + Modellantwort

Beispiel Kundensupport-Bot:

System-Prompt (Rollendefinition, Antwortregeln): ~500 Tokens
Gesprächsverlauf (5 Turns): ~1.000 Tokens
Aktuelle Nutzernachricht: ~100 Tokens
Modellantwort: ~300 Tokens

Das ergibt ~1.900 Tokens pro Anfrage — 1.600 Input, 300 Output.

Mit Claude-Sonnet-Preisen:

Input:  1.600 / 1.000.000 × $3,00  = $0,0048
Output:   300 / 1.000.000 × $15,00 = $0,0045
Gesamt pro Anfrage ≈ $0,0093

Klingt günstig. Aber bei 10.000 Gesprächen pro Tag sind es ~$2.790/Monat. Die Zahlen skalieren schnell.

Prompt Caching: Der Rabatt, den die meisten Teams übersehen

Prompt Caching ist eine der wirkungsvollsten Kostenfunktionen. Das Prinzip: Wenn aufeinanderfolgende Anfragen denselben Präfix teilen (z. B. einen System-Prompt), verwendet der Anbieter die vorherige Berechnung wieder, statt sie erneut durchzuführen. Gecachte Input-Tokens werden mit ca. 10 % des Standardpreises abgerechnet.

Zurück zum Support-Bot-Beispiel:

500 gecachte Tokens (System-Prompt) à $0,30/M: $0,00015
1.100 nicht gecachte Input-Tokens à $3,00/M: $0,0033
300 Output-Tokens à $15,00/M: $0,0045

Kosten pro Anfrage sinken auf ~$0,0080 — eine Reduktion von 14 %. Und das bei einem kurzen System-Prompt. Enthält der Präfix eine Wissensdatenbank oder ausführliche Anweisungen (2.000–5.000 Tokens), kann Caching die Input-Kosten um 30–50 % senken.

Der Schlüssel zu hohen Cache-Trefferquoten: Statische Inhalte an den Anfang des Message-Arrays, variable Inhalte (Nutzereingabe, aktueller Kontext) ans Ende. Die Reihenfolge zählt.

Sechs Strategien für niedrigere API-Kosten

1. Prompts straffen

Aufgeblähte System-Prompts sind die häufigste Quelle verschwendeter Tokens. Prüft eure Prompts. Entfernt redundante Anweisungen, überflüssige Beispiele und überspezifizierte Formatierungsregeln. Ein gut formulierter 200-Token-Prompt liefert oft dieselbe Qualität wie einer mit 800 Tokens.

2. Routing nach Aufgabenkomplexität

Nicht jede Anfrage braucht das stärkste Modell. Richtet eine Routing-Schicht ein:

Klassifikation, Extraktion, Formatierung → Leichtgewicht-Stufe
Zusammenfassung, Q&A → Mittelklasse-Stufe
Komplexes Reasoning, kreative Generierung → Flaggschiff-Stufe

Allein das kann die Kosten für geeigneten Traffic um 10–60× senken.

3. Cache-Trefferquote maximieren

Strukturiert jede Anfrage so, dass der statische Präfix über alle Aufrufe identisch bleibt. Bei Multi-Turn-Gesprächen den Anfang des Message-Arrays stabil halten.

4. Batch-APIs für asynchrone Aufgaben nutzen

Für Massen-Übersetzungen, Zusammenfassungen oder Analysen bieten Batch-Endpunkte typischerweise ~50 % Rabatt. Die Bearbeitungszeit verlängert sich auf bis zu 24 Stunden, aber für Offline-Pipelines ist das kein Problem.

5. Output-Länge begrenzen

Setzt max_tokens, um unnötig lange Antworten zu verhindern. Kombiniert das mit einer Prompt-Anweisung wie „antworte knapp" für doppelten Effekt auf die Output-Token-Kosten.

6. Prepaid-Guthaben in Betracht ziehen

Die meisten Anbieter bieten Prepaid-Stufen mit 5–20 % Rabatt. Die besseren Plattformen lassen das Guthaben nicht verfallen und setzen es nicht monatlich zurück — ihr verbraucht es in eurem eigenen Tempo. Für Teams mit konstant $500+/Monat lohnt sich Prepaid fast immer gegenüber Pay-as-you-go.

Realistische Monatskostenschätzungen

Alle Zahlen basieren auf Claude-Sonnet-Preisen mit Caching-Optimierungen.

Kundensupport-Bot

5.000 Gespräche/Tag
~1.500 Input-Tokens, ~300 Output-Tokens pro Gespräch
60 % Cache-Trefferquote
Monatliche Schätzung: $950 – $1.200

Content-Generierungsplattform

1.000 Generierungsaufgaben/Tag
~800 Input-Tokens, ~1.500 Output-Tokens pro Aufgabe
30 % Cache-Trefferquote
Monatliche Schätzung: $780 – $950

Dokumentenanalyse und Zusammenfassung

200 Dokumente/Tag
~3.000 Input-Tokens, ~500 Output-Tokens pro Dokument
Batch-API (50 % Rabatt)
Monatliche Schätzung: $180 – $250

Mit der richtigen Kombination aus Modell-Routing, Caching und Batch-Verarbeitung liegen die tatsächlichen Kosten typischerweise 30–60 % unter naiven Schätzungen.

Fazit

Token-Preise belohnen Teams, die auf Details achten. Vier Dinge zählen am meisten:

Token-Verteilung kennen — verstehen, wo sich die Kosten konzentrieren.
Modell-Stufe zur Aufgabe passend wählen — keine Flaggschiff-Preise für einfache Jobs zahlen.
Caching ausreizen — wiederkehrende Präfixe nahezu kostenlos machen.
Volumen als Vorteil nutzen — Batch-Rabatte und Prepaid-Guthaben summieren sich über die Zeit.

Bei der Wahl eines API-Anbieters lohnt es sich, über den reinen Token-Preis hinauszuschauen. Die Reife der Caching-Implementierung, die Tiefe der Batch-Rabatte und ob Prepaid-Guthaben verfällt — diese Details bestimmen die tatsächlichen Langzeitkosten.

Zurück zum Blog