Cómo integrar APIs de LLMs chinos en tu aplicación global
Cómo integrar APIs de LLMs chinos en tu aplicación global
Ya sabes que las APIs de LLMs chinos ofrecen un ahorro considerable en costes. Ahora quieres conectarlas a tu aplicación. Esta guía cubre todo el proceso — desde obtener tu clave API hasta código listo para producción — con ejemplos concretos en curl, Python y Node.js.
La buena noticia: si tu aplicación ya funciona con la API de OpenAI o Anthropic, la integración es un cambio de configuración, no una reescritura.
Panorama general: acceder a LLMs chinos desde fuera de China
La integración de APIs de LLMs chinos para usuarios internacionales funciona a través de plataformas de agregación que se sitúan entre tu aplicación y los proveedores chinos. Estas plataformas exponen protocolos API estándar en endpoints accesibles globalmente, así que no necesitas VPN, número de teléfono chino ni ninguna configuración de red especial.
La arquitectura típica es la siguiente:
Tu aplicación → Plataforma de agregación (endpoint global) → Proveedor LLM chino
La plataforma de agregación gestiona la autenticación con el proveedor, el enrutamiento de peticiones, el balanceo de carga y la facturación. Desde la perspectiva de tu aplicación, se ve y se comporta exactamente igual que llamar a OpenAI o Anthropic directamente.
Protocolos soportados:
- Compatible con OpenAI:
/v1/chat/completions— funciona con cualquier cliente del SDK de OpenAI - Nativo de Claude:
/v1/messages— funciona con el SDK de Anthropic - API de Responses:
/v1/responses— soporta el formato más reciente de agentes de OpenAI
URL base: https://gpt-agent.cc/v1
Todos los ejemplos de esta guía usan este endpoint. Sustitúyelo por la URL de tu plataforma si es diferente.
Paso 1: Obtener una clave API
El proceso de compra es directo:
- Ve al sitio web de la plataforma de agregación (por ejemplo,
https://gpt-agent.cc). - Crea una cuenta con tu correo electrónico.
- Navega a la página de facturación o compra de tokens.
- Selecciona un paquete de tokens. Empieza con algo pequeño ($10-$20) para pruebas.
- Paga con tarjeta de crédito internacional, PayPal o USDT.
- Copia tu clave API desde el panel de control. Está disponible inmediatamente tras el pago.
Tu clave API funciona con todos los modelos soportados. No necesitas claves separadas para distintos proveedores.
Paso 2: Configurar tu cliente
Claude Code
Si usas Claude Code como asistente de desarrollo, configura el endpoint API en tu configuración:
{
"apiBaseUrl": "https://gpt-agent.cc",
"apiKey": "tu-clave-api"
}
Claude Code enrutará todas las peticiones a través de la plataforma de agregación, dándote acceso a modelos Claude con tarifas de tokens reducidas.
Cursor
En los ajustes de Cursor, ve a la sección de configuración de IA y establece:
- API Base URL:
https://gpt-agent.cc/v1 - API Key: tu clave del panel de control
VS Code (con Continue u extensiones similares)
La mayoría de extensiones de VS Code compatibles con OpenAI permiten establecer una URL base personalizada. Actualiza los ajustes de la extensión:
{
"openai.baseUrl": "https://gpt-agent.cc/v1",
"openai.apiKey": "tu-clave-api"
}
Aplicaciones propias
Para tus propias aplicaciones, la configuración depende del SDK que uses. Consulta los ejemplos de código a continuación.
Paso 3: Ejemplos de código
curl
La forma más sencilla de probar tu conexión:
curl https://gpt-agent.cc/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer tu-clave-api" \
-d '{
"model": "gpt-4o",
"messages": [
{"role": "user", "content": "Explica la computación cuántica en un párrafo."}
]
}'
Para usar un modelo chino, cambia el parámetro model:
curl https://gpt-agent.cc/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer tu-clave-api" \
-d '{
"model": "deepseek-r1",
"messages": [
{"role": "user", "content": "Resuelve paso a paso: ¿Cuánto es 23! / 20!?"}
]
}'
Python (SDK de OpenAI)
Instala el paquete de Python de OpenAI si aún no lo tienes:
pip install openai
Completado básico:
from openai import OpenAI
client = OpenAI(
base_url="https://gpt-agent.cc/v1",
api_key="tu-clave-api"
)
response = client.chat.completions.create(
model="qwen-max",
messages=[
{"role": "system", "content": "Eres un asistente útil."},
{"role": "user", "content": "¿Cuáles son las principales exportaciones de Vietnam?"}
],
temperature=0.7,
max_tokens=1024
)
print(response.choices[0].message.content)
Python (SDK de Anthropic — protocolo nativo de Claude)
pip install anthropic
import anthropic
client = anthropic.Anthropic(
base_url="https://gpt-agent.cc",
api_key="tu-clave-api"
)
message = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
messages=[
{"role": "user", "content": "Escribe una función en Python para fusionar dos listas ordenadas."}
]
)
print(message.content[0].text)
Node.js (SDK de OpenAI)
npm install openai
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://gpt-agent.cc/v1",
apiKey: "tu-clave-api",
});
async function main() {
const response = await client.chat.completions.create({
model: "deepseek-v3",
messages: [
{ role: "user", content: "Explica la diferencia entre REST y GraphQL." },
],
temperature: 0.7,
});
console.log(response.choices[0].message.content);
}
main();
Soporte de streaming
Todos los endpoints soportan respuestas en streaming, algo fundamental para aplicaciones de cara al usuario donde la latencia percibida importa.
Ejemplo de streaming en Python:
from openai import OpenAI
client = OpenAI(
base_url="https://gpt-agent.cc/v1",
api_key="tu-clave-api"
)
stream = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "Escribe un cuento corto sobre un robot."}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="", flush=True)
Ejemplo de streaming en Node.js:
const stream = await client.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: "Escribe un cuento corto sobre un robot." }],
stream: true,
});
for await (const chunk of stream) {
const content = chunk.choices[0]?.delta?.content || "";
process.stdout.write(content);
}
El streaming funciona de forma idéntica a las APIs oficiales de OpenAI y Anthropic. No se necesita ninguna configuración especial.
Manejo de errores y resolución de problemas
Problemas comunes y cómo resolverlos:
401 Unauthorized Tu clave API es inválida o ha expirado. Verifica la clave en tu panel de control. Asegúrate de que no haya espacios ni saltos de línea al final.
402 Payment Required / Saldo insuficiente Tu saldo de tokens prepagados se ha agotado. Recarga tu cuenta desde el panel de la plataforma.
429 Too Many Requests Has alcanzado el límite de peticiones. La mayoría de plataformas de agregación permiten mayor concurrencia que las APIs directas de los proveedores, pero los límites existen. Implementa backoff exponencial en tu cliente:
import time
from openai import OpenAI, RateLimitError
client = OpenAI(base_url="https://gpt-agent.cc/v1", api_key="tu-clave-api")
def call_with_retry(messages, model="gpt-4o", max_retries=3):
for attempt in range(max_retries):
try:
return client.chat.completions.create(model=model, messages=messages)
except RateLimitError:
wait = 2 ** attempt
time.sleep(wait)
raise Exception("Número máximo de reintentos superado")
Errores 500 / 502 / 503 Problemas temporales del proveedor. La plataforma de agregación suele recuperarse automáticamente. Reintenta tras una breve pausa. Si los errores persisten más de unos minutos, consulta la página de estado de la plataforma.
Errores de timeout Para completados de larga duración (max_tokens elevado o modelos de razonamiento complejo como DeepSeek-R1), aumenta el timeout de tu cliente:
client = OpenAI(
base_url="https://gpt-agent.cc/v1",
api_key="tu-clave-api",
timeout=120.0 # segundos
)
Consejos de rendimiento
Elige el modelo adecuado para cada tarea. No uses GPT-4o para tareas simples de clasificación donde GLM-4-Flash o Qwen-Turbo bastarían a 1/50 del coste. Ajusta la capacidad del modelo a la complejidad de la tarea.
Aprovecha la caché. Si tu aplicación envía prompts similares repetidamente (por ejemplo, plantillas de atención al cliente), el mecanismo de caché de la plataforma reducirá tus costes automáticamente. Estructura tus prompts con un mensaje de sistema estable y un input de usuario variable para maximizar los aciertos de caché.
Usa streaming en aplicaciones de cara al usuario. El streaming reduce la latencia percibida de forma significativa. El primer token llega mucho antes que esperar a la respuesta completa.
Optimiza la longitud de los prompts. Los tokens de entrada también cuestan. Mantén los prompts de sistema concisos. Evita meter contexto innecesario en cada petición.
Agrupa peticiones no urgentes. Si tienes cargas de trabajo que no son sensibles al tiempo (por ejemplo, procesamiento nocturno de datos), agrúpalas en horas de menor tráfico cuando la plataforma puede tener menor latencia.
Modelos soportados y sus puntos fuertes
Referencia rápida para elegir el modelo adecuado:
| Modelo | Ideal para | Ventana de contexto | Coste relativo | |---|---|---|---| | GPT-4o | Propósito general, razonamiento complejo | 128K | Medio-Alto | | Claude 3.5 Sonnet | Código, análisis, documentos largos | 200K | Medio-Alto | | DeepSeek-R1 | Matemáticas, lógica, razonamiento paso a paso | 64K | Medio | | DeepSeek-V3 | Propósito general, buena relación calidad-precio | 128K | Bajo-Medio | | Qwen-Max | Multilingüe, código, razonamiento | 128K | Medio | | Qwen-Plus | Equilibrio entre rendimiento y coste | 128K | Bajo-Medio | | Qwen-Turbo | Tareas rápidas y sencillas | 128K | Bajo | | Kimi (Moonshot) | Documentos muy largos, investigación | 200K | Medio | | GLM-4 | Tareas bilingües, propósito general | 128K | Bajo-Medio | | GLM-4-Flash | Alto volumen, sensible al coste | 128K | Muy Bajo | | MiniMax | IA conversacional, chatbots | 64K | Bajo |
Conclusión
Integrar APIs de LLMs chinos no es complicado. Si puedes llamar a la API de OpenAI, puedes llamar a un LLM chino a través de una plataforma de agregación. El protocolo es el mismo, los SDKs son los mismos, y los cambios de código son mínimos — normalmente solo un cambio de URL base y clave API.
La ventaja real es el acceso: una sola clave API te da acceso global a decenas de modelos tanto de proveedores occidentales como chinos, todo a precios significativamente más bajos que yendo directo. Para equipos en Latinoamérica, Europa o cualquier otra región que busquen optimizar su gasto en IA, este es el camino más práctico disponible hoy.
Empieza con un saldo de prueba pequeño, verifica que los modelos cumplen tus requisitos de calidad, y escala desde ahí.