Skip to main content
PromptQuorumPromptQuorum
Inicio/Prompt Engineering/Tokens, costes y límites: La economía del prompting de IA en 2026
Fundamentals

Tokens, costes y límites: La economía del prompting de IA en 2026

·13 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Cada llamada a la API de IA se mide y factura en tokens — la unidad que controla tanto lo que el modelo puede procesar como cuánto pagas. Entender los tokens es la base del prompting eficiente y rentable.

Puntos clave

  • Los tokens son la unidad de coste y procesamiento de la IA. Aproximadamente 3–4 caracteres = 1 token en inglés; otros idiomas requieren más tokens.
  • Pagas por separado los tokens de input y de output — los tokens de output cuestan típicamente 2–5× más.
  • El conteo de tokens incluye los system prompts, el historial completo de conversación, los archivos adjuntos y las imágenes — no solo tu último mensaje.
  • Los límites de tasa existen para prevenir el abuso y garantizar una asignación justa de recursos.
  • Usar el modelo correcto para la tarea reduce el coste en 10–50×.
  • Los LLMs locales mediante Ollama o LM Studio tienen coste cero de API por token pero requieren inversión en VRAM.

Resumen visual: Tokens, costes y límites: La economía del prompting de IA en 2026

¿Prefieres slides a la lectura? Navega por esta presentación interactiva con todos los conceptos clave, ajustes y casos de uso — y guárdala como PDF de referencia.

El deck cubre: precios de tokens, límites de tasa, selección de modelos y estrategias de reducción de costes. Descarga el PDF como tarjeta de referencia de economía de tokens de IA.

Download Tokens, costes y límites: La economía del prompting de IA en 2026 Reference Card (PDF)

¿Qué es un token?

Un token es la unidad de texto más pequeña que procesa un modelo de IA, aproximadamente 3–4 caracteres o ¾ de una palabra en inglés. En texto inglés, "ChatGPT" cuenta como 2 tokens, y "Hello, how are you?" son aproximadamente 5–6 tokens. Otros idiomas tokenizan menos eficientemente — la misma frase en alemán o japonés puede consumir un 20–40% más de tokens. Se te cobra por cada token de tu prompt (input) y por cada token que el modelo produce.

Los modelos no "piensan" en palabras o caracteres. Internamente, convierten tu texto en IDs de token y los procesan numéricamente.

En una oración: un token es la unidad de texto más pequeña que procesa un modelo de IA, aproximadamente 3–4 caracteres o ¾ de una palabra en inglés, y se te cobra por cada token de entrada y cada token de salida.

Cómo funciona el conteo de tokens en la práctica

Cada elemento de tu llamada a la API — system prompt, historial de conversación, nuevo mensaje, archivos y el propio output del modelo — consume tokens de tu cuota.

  • System prompt: Contado una vez por mensaje. Un system prompt de 200 palabras = ~250 tokens en cada llamada a la API.
  • Historial completo de conversación: Incluido en cada solicitud a menos que se resuma o descarte explícitamente.
  • Tu mensaje de input: Contado tal cual.
  • Archivos o imágenes adjuntas: Las imágenes consumen 100–2.000 tokens según el tamaño y la resolución.
  • Output del modelo: La respuesta generada se cuenta íntegramente a tasas de tokens de output (generalmente 2–5× más altas que las tasas de input).
  • Ejemplo práctico: System prompt (300) + Pregunta 1 (150) + Respuesta 1 (200) + Pregunta 2 (200) + Respuesta 2 (300) + Pregunta 3 (100) = 1.250 tokens. Cuando envías la pregunta 3, pagas de nuevo por todo el historial más el output de la respuesta 3.

¿Cuánto cuestan GPT-4o, Claude y Gemini por millón de tokens en 2026?

Los precios varían drásticamente según la capacidad del modelo. Todos los valores a continuación son precios públicos a partir de abril de 2026.

Precios a partir de abril de 2026. Verifica las tasas actuales: Precios OpenAI · Precios Anthropic · Precios Google

ModeloInput (por 1M tokens)Output (por 1M tokens)
OpenAI GPT-4o$5.00$15.00
Anthropic Claude Opus 4.7$3.00$15.00
Google Gemini 1.5 Pro$3.50$10.50
OpenAI GPT-4o mini$0.15$0.60
Anthropic Claude 4.5 Haiku$0.25$1.25
Google Gemini 1.5 Flash$0.075$0.30

¿Qué son los límites de tasa y por qué existen?

Los límites de tasa son topes en cuántas solicitudes puedes hacer por minuto (RPM), cuántos tokens puedes procesar por minuto (TPM) o cuántos tokens por día (TPD).

  • Solicitudes por minuto (RPM): El número de llamadas a la API que puedes hacer en una ventana de 60 segundos.
  • Tokens por minuto (TPM): El rendimiento total de tokens. Un solo prompt grande puede consumir toda tu cuota de TPM en segundos.
  • Escenarios comunes donde alcanzas los límites: Pipelines automatizados, grandes trabajos de procesamiento por lotes, o usuarios del nivel gratuito en situaciones de pico.
  • Límites típicos: Nivel gratuito: 3–15 RPM, 40k–100k TPM. Nivel de pago 1: 500 RPM, 200k–500k TPM. Empresa: 3.000+ RPM, millones de TPM.
  • Estrategias de solución: Agrupa tareas pequeñas en solicitudes más grandes, añade retrasos entre solicitudes, o actualiza a una cuenta de nivel superior.

¿Cómo puedo reducir mis costes de API LLM un 30–50×?

Cada token innecesario en tu prompt desperdicia dinero. Reducir un system prompt de 500 tokens a 300 tokens ahorra $0.001 por llamada, pero a 1.000 llamadas al día, eso es $1/día o $365/año.

  • Recorta el contexto agresivamente: No repitas lo que el modelo ya sabe.
  • Usa restricciones de longitud explícitas: "Responde en 3 puntos" o "Máximo 100 palabras" fuerza la brevedad.
  • Evita el relleno en los system prompts: Cada palabra de relleno cuesta dinero.

Cómo reducir los costes de API de LLM en 5 pasos

  1. 1
    Ajusta el modelo a la complejidad de la tarea: usa GPT-4o mini o Claude 4.5 Haiku para clasificación simple y Q&A — 33× más barato que los modelos frontier
  2. 2
    Resume el historial de conversación cada 5 turnos: evita que el historial completo se vuelva a cobrar en cada llamada
  3. 3
    Limita la longitud del output explícitamente: "Responde en 3 puntos" o "Máximo 100 palabras" evita respuestas verbosas
  4. 4
    Recorta los system prompts a lo esencial: elimina las frases de relleno
  5. 5
    Prueba los LLMs locales mediante Ollama para flujos de trabajo privados de alto volumen: coste cero de API por token

Elegir el modelo correcto para la tarea correcta

No toda tarea requiere OpenAI GPT-4o o Anthropic Claude Opus.

Tipo de tareaModelo recomendadoCoste vs GPT-4o
Clasificación simple / Sí-NoGPT-4o mini, Claude Haiku 4.5 o Gemini Flash33× más barato
Q&A factual cortoGPT-4o mini o Claude Haiku 4.510–33× más barato
Análisis complejo o códigoGPT-4o o Claude Opus 4.7Referencia
Escritura creativa largaClaude Opus 4.7 o GPT-4oReferencia
Flujos de trabajo privados de alto volumenModelo local mediante OllamaCoste de API cero

¿Cuáles son los trade-offs entre LLMs locales (Ollama) y APIs cloud?

Los modelos locales mediante Ollama o LM Studio tienen coste cero de API por token — solo pagas por el hardware (VRAM y electricidad).

  • Costes de hardware: LLaMA 3.1 7B requiere ~8 GB VRAM, modelos 13B necesitan ~16 GB, modelos 70B necesitan 40 GB+.
  • Trade-off de capacidad: Los modelos locales son excelentes para clasificación, resumen y tareas repetitivas. Tienen dificultades con el razonamiento de varios pasos.
  • Trade-off de latencia: Los modelos cloud responden en 500ms–2s. Los modelos locales en hardware de consumo: 2–10s.
  • Cuándo usar local: Automatización de alto volumen, datos sensibles al RGPD, o flujos de trabajo críticos.
  • Cuándo usar cloud: Aplicaciones sensibles a la latencia o análisis únicos donde el coste de la API es insignificante.

Recetas de costes de tokens — Escenarios comunes

Usa estas plantillas como puntos de partida para optimizar los costes en flujos de trabajo específicos.

  • "Búsqueda rápida / Tarea Sí-No": Usa GPT-4o mini o Haiku. System prompt mínimo (≤50 tokens). Sin historial. Coste total por tarea: ~$0.00001–0.0001.
  • "Tarea de investigación larga (5–10 turnos)": Usa Claude Opus 4.7. Después de cada 5 turnos, resume el historial (reduce los tokens en un 70%). Costes: ~$0.01–0.05 por sesión.
  • "Pipeline automatizado / Procesamiento por lotes": Usa GPT-4o mini para filtrado (33× más barato). Escala a GPT-4o solo para síntesis final.
  • "Flujo de trabajo sensible a la privacidad": Dirige a Ollama local. Coste de API cero.
  • "Comparación de outputs en modelos": Envía a GPT-4o, Claude Opus 4.7 y Claude Haiku 4.5 simultáneamente. Elige el más barato que cumpla tu umbral de calidad.

Errores comunes que disparan tu factura de tokens

Evita estos patrones de desperdicio de tokens.

  • Enviar el historial completo de conversación en cada llamada: Resume cada 5 turnos o usa caché de prompts.
  • Usar un modelo de alta capacidad para tareas simples: Diferencia de coste: 33× en tareas simples.
  • No restringir la longitud del output: "Resume en 50 palabras" cuesta 8× menos que "cuéntame sobre X".
  • Repetir los system prompts largos en cada llamada: Usa caché de prompts si la API lo admite.
  • Olvidar los tokens de imagen: Una imagen de alta resolución puede consumir 500–2.000 tokens.

FAQ

¿Cuántos tokens tiene un artículo o informe típico?

Un artículo de 1.000 palabras ≈ 1.200–1.500 tokens. Un PDF de 10 páginas ≈ 4.000–6.000 tokens. Una imagen de alta resolución ≈ 500–2.000 tokens.

¿Por qué mi factura de API es más alta de lo esperado, incluso con prompts cortos?

Tres causas comunes: (1) Envías el historial completo en cada llamada. (2) Tu system prompt es largo. (3) Usas un modelo de alta capacidad para tareas simples.

¿Un system prompt más largo siempre significa un mejor output?

No. Un system prompt bien diseñado de 100 tokens a menudo supera a un prompt verboso de 500 tokens. La calidad gana a la cantidad.

¿Puedo cachear mi system prompt para ahorrar costes?

Sí. OpenAI y Anthropic ofrecen caché de prompts. OpenAI cobra un descuento del 90% en los tokens cacheados; Anthropic cobra un descuento del 10%.

¿Los LLMs locales realmente tienen coste cero?

Coste de API cero por token, sí. Pero el hardware cuesta dinero. Para 1.000+ solicitudes al día, los modelos locales se amortizan rápidamente.

¿Cómo estimo los costes antes de ejecutar un lote grande?

Estima: (tokens promedio por prompt × número de prompts) × (coste de input por 1M + coste de output por 1M).

¿Vale la pena GPT-4o frente a GPT-4o mini en coste?

Para la mayoría de tareas, GPT-4o mini es la mejor elección: 33× más barato con precisión comparable en clasificación, Q&A corto y extracción de datos.

¿Cómo se comparan los costes de tokens de Claude y GPT-4o?

A partir de marzo de 2026: Claude Opus 4.7 es un 40% más barato en input. Para flujos de trabajo con mucho input, Claude tiene ventaja de coste.

Lecturas relacionadas

Aplica estas técnicas en más de 25 modelos de IA simultáneamente con PromptQuorum.

Prueba PromptQuorum gratis →

← Volver a Prompt Engineering

Costes y límites de tokens de IA explicados 2026