Tarification des tokens LLM : comment calculer et réduire vos coûts d'API
Si vous développez par-dessus des API de LLM, la tarification par token est le poste de dépense qui grignote votre budget en silence. Comprendre son fonctionnement réel — pas seulement les tarifs affichés, mais la mécanique de facturation input/output, le cache et les remises par volume — vous donne un vrai levier sur votre facture mensuelle. Voici le tableau complet.
Qu'est-ce qu'un token, concrètement ?
Un token est la plus petite unité de texte traitée par un modèle. Voyez-le comme un fragment de mot : ni tout à fait un caractère, ni tout à fait un mot, mais un morceau découpé par le tokenizer du modèle.
En anglais, 1 token ≈ 4 caractères, soit environ 0,75 mot. « ChatGPT is great » représente à peu près 4 tokens.
En français, le ratio est légèrement moins favorable qu'en anglais à cause des accents, des mots plus longs et de la morphologie plus riche. Comptez environ 1 token pour 3 à 3,5 caractères. Une phrase française consomme en moyenne 10 % à 20 % de tokens de plus que son équivalent anglais.
Pour les langues CJK (chinois, japonais, coréen), chaque caractère correspond généralement à 1–2 tokens. Le même sens exprimé en chinois peut consommer 30 % à 80 % de tokens supplémentaires par rapport à l'anglais :
- « Hello, how are you? » ≈ 6 tokens
- « 你好,你最近怎么样?» ≈ 9–11 tokens
Cet écart compte. Si votre base d'utilisateurs est majoritairement non anglophone, vos projections de coûts doivent en tenir compte dès le départ.
Tokens d'entrée vs. tokens de sortie
La facturation API se divise en deux catégories, chacune avec son propre tarif :
Les tokens d'entrée couvrent tout ce que vous envoyez au modèle — prompt système, historique de conversation, message utilisateur, contexte injecté.
Les tokens de sortie couvrent ce que le modèle génère. La génération de texte étant plus coûteuse en calcul, les tokens de sortie coûtent généralement 3 à 5 fois plus cher que les tokens d'entrée.
Voici un aperçu des tarifs par million de tokens :
| Gamme de modèle | Prix input | Prix output | |---|---|---| | Léger (ex. Claude Haiku) | 0,25 – 0,80 $ | 1,00 – 4,00 $ | | Intermédiaire (ex. Claude Sonnet) | 3,00 $ | 15,00 $ | | Haut de gamme (ex. Claude Opus) | 15,00 $ | 75,00 $ |
L'écart entre les gammes est considérable — jusqu'à 60×. Choisir la bonne gamme pour chaque tâche est le levier de coût le plus puissant dont vous disposez.
Estimer sa consommation de tokens
Avant de recevoir une facture surprise, construisez un modèle approximatif de votre consommation par requête :
Total tokens = prompt système + historique de conversation + message utilisateur + réponse du modèle
Prenons l'exemple d'un chatbot de support client :
- Prompt système (définition du rôle, règles de réponse) : ~500 tokens
- Historique récent (5 échanges) : ~1 000 tokens
- Message utilisateur courant : ~100 tokens
- Réponse du modèle : ~300 tokens
Soit ~1 900 tokens par requête — 1 600 en entrée, 300 en sortie.
Avec les tarifs Claude Sonnet :
Entrée : 1 600 / 1 000 000 × 3,00 $ = 0,0048 $
Sortie : 300 / 1 000 000 × 15,00 $ = 0,0045 $
Total par requête ≈ 0,0093 $
Ça paraît dérisoire. Mais à 10 000 conversations par jour, vous atteignez ~2 790 $/mois. Les chiffres s'accumulent vite.
Cache de prompts : la remise que la plupart des équipes ignorent
Le cache de prompts est l'une des fonctionnalités les plus rentables disponibles aujourd'hui. Le principe est simple : quand des requêtes consécutives partagent le même préfixe (comme un prompt système), le fournisseur réutilise le calcul précédent au lieu de tout retraiter. Les tokens d'entrée en cache sont facturés à environ 10 % du tarif standard.
Reprenons l'exemple du bot de support :
- 500 tokens en cache (prompt système) à 0,30 $/M : 0,00015 $
- 1 100 tokens d'entrée non cachés à 3,00 $/M : 0,0033 $
- 300 tokens de sortie à 15,00 $/M : 0,0045 $
Le coût par requête tombe à ~0,0080 $ — une réduction de 14 %. Et c'est avec un prompt système court. Si votre préfixe inclut une base de connaissances ou des instructions longues (2 000–5 000 tokens), le cache peut réduire les coûts d'entrée de 30 % à 50 %.
La clé pour maximiser le taux de cache : placez tout le contenu statique en tête de votre tableau de messages, et tout le contenu variable (message utilisateur, contexte récent) à la fin. L'ordre compte.
Six tactiques pour réduire votre facture API
1. Allégez vos prompts
Les prompts système surchargés sont la source la plus courante de tokens gaspillés. Auditez les vôtres. Supprimez les instructions redondantes, les exemples superflus et les règles de formatage trop détaillées. Un prompt bien conçu de 200 tokens fait souvent aussi bien qu'un prompt de 800 tokens.
2. Routez selon la complexité de la tâche
Chaque requête n'a pas besoin de votre modèle le plus puissant. Mettez en place une couche de routage :
- Classification, extraction, formatage → gamme légère
- Résumé, questions-réponses → gamme intermédiaire
- Raisonnement complexe, génération créative → gamme haut de gamme
Cela seul peut réduire les coûts de 10 à 60× sur le trafic éligible.
3. Maximisez les hits de cache
Structurez chaque requête pour que le préfixe statique soit identique d'un appel à l'autre. Pour les conversations multi-tours, gardez le début du tableau de messages stable.
4. Utilisez les API batch pour le travail asynchrone
Si vous faites de la traduction, du résumé ou de l'analyse en masse, les endpoints batch offrent généralement ~50 % de remise. Le délai de traitement s'étend à 24 heures, mais pour les pipelines hors ligne, ce n'est pas un problème.
5. Plafonnez la longueur de sortie
Définissez max_tokens pour empêcher le modèle de générer des réponses inutilement longues. Combinez avec une instruction dans le prompt du type « répondez de manière concise » pour un double effet sur la consommation de tokens de sortie.
6. Envisagez les crédits prépayés
La plupart des fournisseurs proposent des formules prépayées avec 5 % à 20 % de remise. Les meilleures plateformes n'expirent pas votre solde et ne le réinitialisent pas chaque mois — vous le consommez à votre rythme. Pour les équipes qui dépensent régulièrement plus de 500 $/mois, le prépayé est presque toujours plus avantageux que le paiement à l'usage.
Estimations de coûts mensuels en conditions réelles
Tous les chiffres ci-dessous supposent une tarification de type Claude Sonnet avec optimisations de cache appliquées.
Chatbot de support client
- 5 000 conversations/jour
- ~1 500 tokens d'entrée, ~300 tokens de sortie par conversation
- Taux de cache de 60 %
- Estimation mensuelle : 950 – 1 200 $
Plateforme de génération de contenu
- 1 000 tâches de génération/jour
- ~800 tokens d'entrée, ~1 500 tokens de sortie par tâche
- Taux de cache de 30 %
- Estimation mensuelle : 780 – 950 $
Analyse et résumé de documents
- 200 documents/jour
- ~3 000 tokens d'entrée, ~500 tokens de sortie par document
- API batch (remise de 50 %)
- Estimation mensuelle : 180 – 250 $
Avec la bonne combinaison de routage de modèles, de cache et de traitement par lots, les coûts réels se situent généralement 30 % à 60 % en dessous des estimations naïves.
L'essentiel à retenir
La tarification par token récompense les équipes qui soignent les détails. Quatre choses comptent vraiment :
- Connaissez votre répartition de tokens — identifiez où se concentre la dépense.
- Adaptez la gamme du modèle à la tâche — ne payez pas le tarif haut de gamme pour des tâches simples.
- Exploitez le cache — rendez les préfixes répétés quasiment gratuits.
- Jouez sur le volume — les remises batch et les crédits prépayés se cumulent dans le temps.
Quand vous évaluez un fournisseur d'API, regardez au-delà du tarif par token affiché. La maturité de leur implémentation du cache, la profondeur des remises batch et l'expiration ou non des crédits prépayés — ce sont ces détails qui déterminent votre coût réel à long terme.