Tarificación de Tokens en LLMs: Cómo Calcular y Optimizar los Costos de tu API
Cuando construyes aplicaciones sobre APIs de modelos de lenguaje, la facturación por tokens es el factor que define tu estructura de costos. Entender cómo funciona no solo te permite estimar presupuestos con precisión, sino tomar mejores decisiones de arquitectura desde el día uno. Esta guía cubre el modelo de facturación completo y las técnicas que realmente mueven la aguja en tu gasto mensual.
Qué es un token (y por qué no es lo que crees)
Un token es la unidad mínima que el modelo procesa al leer y generar texto. No equivale a una palabra ni a un carácter — su tamaño depende del idioma y del algoritmo de tokenización.
En inglés, 1 token ≈ 4 caracteres o 0.75 palabras. "ChatGPT is great" son aproximadamente 4 tokens.
En español, la situación es similar al inglés en muchos casos, aunque palabras más largas o con acentos pueden consumir más tokens. En chino, por ejemplo, un solo carácter puede ocupar 1-2 tokens, lo que incrementa el consumo entre un 30% y un 80% respecto al inglés para el mismo contenido semántico.
Esta diferencia importa cuando estimas costos para aplicaciones multilingües. Si tu producto atiende usuarios en varios idiomas, necesitas contemplar esta variación en tu presupuesto.
Modelo de facturación: tokens de entrada vs. tokens de salida
Las APIs de LLMs cobran por separado los tokens de entrada (input) y los de salida (output), con precios distintos.
Tokens de entrada: todo lo que envías al modelo — system prompt, mensajes del usuario, historial de conversación, contexto adicional.
Tokens de salida: la respuesta que genera el modelo. Como la generación de texto es computacionalmente más costosa, el precio por token de salida suele ser entre 3x y 5x mayor que el de entrada.
Rangos de precio típicos por millón de tokens:
| Nivel de modelo | Entrada | Salida | |----------------|---------|--------| | Ligero (ej. Claude Haiku) | $0.25 – $0.80 | $1.00 – $4.00 | | Estándar (ej. Claude Sonnet) | $3.00 | $15.00 | | Flagship (ej. Claude Opus) | $15.00 | $75.00 |
La diferencia entre niveles puede ser de decenas de veces. Elegir el modelo adecuado para cada tarea es el primer paso para controlar costos.
Cómo estimar el consumo de tokens
Estimar con precisión te evita sorpresas en la factura. Aquí tienes un marco simple:
Composición de tokens por solicitud:
Total = System prompt + Historial de mensajes + Input del usuario + Respuesta del modelo
Ejemplo práctico — un chatbot de atención al cliente:
- System prompt: ~500 tokens (definición de rol, reglas de respuesta)
- Historial de conversación (últimas 5 rondas): ~1,000 tokens
- Input actual del usuario: ~100 tokens
- Respuesta del modelo: ~300 tokens
Total por solicitud: ~1,900 tokens (1,600 de entrada, 300 de salida).
Con Claude Sonnet, el costo unitario sería:
Entrada: 1,600 / 1,000,000 × $3.00 = $0.0048
Salida: 300 / 1,000,000 × $15.00 = $0.0045
Total por solicitud ≈ $0.0093
Parece poco. Pero a 10,000 conversaciones diarias, el costo mensual alcanza ~$2,790.
Prompt Caching: la optimización que más impacta
Prompt Caching es una funcionalidad que ofrecen las principales plataformas y que puede reducir drásticamente tus costos de entrada. La idea es directa: si múltiples solicitudes comparten el mismo prefijo (por ejemplo, el system prompt), el modelo reutiliza el cómputo previo en lugar de reprocesarlo.
Cuando hay cache hit, los tokens cacheados se facturan a ~10% del precio original.
Retomando el ejemplo del chatbot:
- 500 tokens del system prompt con cache hit → $0.30/M tokens
- Costo cacheado: 500 / 1,000,000 × $0.30 = $0.00015
- Costo no cacheado: 1,100 / 1,000,000 × $3.00 = $0.0033
- Salida sin cambios: $0.0045
Total por solicitud: ~$0.0080, un ahorro del 14%. Cuando el system prompt es más extenso (2,000–5,000 tokens, incluyendo bases de conocimiento), el ahorro puede llegar al 30%–50%.
La clave para maximizar el cache hit rate: coloca el contenido estático (system prompt, contexto fijo) al inicio de la lista de mensajes, y el contenido variable (input del usuario) al final.
Técnicas de optimización de costos
Estas estrategias reducen tu factura sin sacrificar calidad de respuesta.
1. Recorta tu prompt
Los system prompts inflados son la fuente más común de desperdicio. Elimina instrucciones redundantes, ejemplos innecesarios y especificaciones de formato excesivas. Un prompt bien diseñado de 200 tokens puede rendir igual que uno de 800.
2. Usa el modelo correcto para cada tarea
No toda tarea necesita un modelo flagship. Clasificación, extracción de datos, conversión de formatos — un modelo ligero lo resuelve igual de bien, a una fracción del costo (10x–60x más barato). Estrategia por niveles:
- Tareas simples (clasificación, extracción) → nivel Haiku
- Tareas estándar (resúmenes, Q&A) → nivel Sonnet
- Tareas complejas (razonamiento, generación creativa) → nivel Opus
3. Maximiza el cache hit
Estructura tus solicitudes para que el prefijo sea consistente entre llamadas. En conversaciones multi-turno, mantén el orden de mensajes estable.
4. Procesamiento por lotes (Batch API)
Si tienes tareas masivas similares (traducción en lote, resúmenes masivos), las Batch APIs ofrecen descuentos de ~50%. El trade-off es latencia (hasta 24 horas), pero para flujos no interactivos es una ganancia neta.
5. Controla la longitud de salida
Usa el parámetro max_tokens para limitar la extensión de las respuestas. Complementa con instrucciones explícitas en el prompt ("responde de forma concisa") para reducir tokens de salida innecesarios.
Prepago vs. pago por uso
Las dos modalidades principales de facturación:
Pago por uso (pay-as-you-go): flexible, pagas exactamente lo que consumes. Ideal para proyectos en fase de exploración o con demanda variable. Desventaja: precio unitario más alto, sin tope de gasto garantizado.
Prepago (créditos anticipados): compras un saldo por adelantado, generalmente con descuento. Ventajas concretas:
- Precio unitario menor: descuentos del 5%–20% por volumen
- Sin vencimiento: en plataformas serias, el saldo no caduca ni se reinicia a fin de mes
- Presupuesto predecible: facilita la planificación financiera
Para equipos con un gasto estable por encima de $500/mes, el prepago suele ser la opción más rentable.
Casos reales: estimación de costos mensuales
Tres escenarios típicos con Claude Sonnet, incluyendo optimización de caché:
Chatbot de atención al cliente
- 5,000 conversaciones/día
- ~1,500 tokens de entrada, ~300 de salida por conversación
- Cache hit rate: 60%
- Costo mensual estimado: $950 – $1,200
Plataforma de generación de contenido
- 1,000 tareas de generación/día
- ~800 tokens de entrada, ~1,500 de salida por tarea
- Cache hit rate: 30%
- Costo mensual estimado: $780 – $950
Análisis y resumen de documentos
- 200 documentos/día
- ~3,000 tokens de entrada, ~500 de salida por documento
- Batch API (descuento del 50%)
- Costo mensual estimado: $180 – $250
Con la combinación correcta de modelo, caché y procesamiento por lotes, el costo real queda entre un 30% y un 60% por debajo del cálculo "bruto".
Conclusión
La facturación por tokens tiene más margen de optimización del que parece a primera vista. Las palancas clave:
- Conoce tu composición de tokens — identifica dónde se va el gasto
- Selecciona el modelo por tarea — no pagues precio flagship por tareas simples
- Maximiza el cache hit — que el contenido repetido solo se facture una vez
- Aprovecha lotes y prepago — el volumen reduce el precio unitario
Si estás evaluando plataformas de API, presta atención a tres factores que definen el costo real a largo plazo: madurez del sistema de caché, descuentos en procesamiento por lotes, y si los créditos prepagados tienen fecha de vencimiento o no.