¿Odias los anuncios? Ir Sin publicidad Hoy 

Calculadora de Costo de API de LLM

DatosDesarrolladorMatemáticas

ANUNCIO · ¿ELIMINAR?

APORTE

Proceso automático

Solicitud

Tokens de entrada

Tokens enviados al modelo por llamada (prompt + contexto).

Tokens de salida

Tokens que el modelo devuelve por llamada (compleción).

Llamadas al día

Cuántas solicitudes realizas cada día. Se utiliza para proyecciones diarias y mensuales.

Modelo y modo de precios

Modelo

Precios en tiempo real

Precios en lote (50% off, donde esté disponible)

PROD.

Lado cliente

ANUNCIO · ¿ELIMINAR?

Guía

Calculadora de Costo de API de LLM

Estima el costo real de una llamada a una API de LLM antes de desplegarla. Ingresa los tokens de entrada, tokens de salida y tu volumen diario de llamadas, elige un modelo y esta herramienta te muestra el gasto por llamada, por día, por mes y por año en modelos de OpenAI, Anthropic, Google y Meta — utilizando los precios listados publicados por millón de tokens. Ideal para verificar una cotización, comparar proveedores o planificar un presupuesto de lanzamiento.

Cómo Usar

Ingresa el promedio Tokens de entrada por solicitud (tu prompt más cualquier contexto que pases).
Ingresa el promedio Tokens de salida que esperas que el modelo devuelva.
Introduce el número de Llamadas al día que esperas realizar en producción.
Elige un Modelo del menú desplegable (OpenAI, Anthropic, Google o Meta / Llama).
Alternar entre Precios en tiempo real y Precios en lote para ver el descuento 50% en lote donde los proveedores lo soporten.
Lee el resumen de costo por llamada, por día, por mes y por año, luego desplázate a la tabla de comparación para ver cuánto costaría la misma carga en cada otro modelo.

Características

Precios de múltiples proveedores — modelos de OpenAI, Anthropic, Google y Meta / Llama en una tabla.
Alternancia entre precios en tiempo real y en lote — ve el descuento 50% en lote para OpenAI, Anthropic y Google, y una clara "n/a" donde un proveedor no tenga un nivel de lote.
Proyecciones por llamada, diaria, mensual y anual — las proyecciones utilizan el promedio mensual de 30.44 días para un ritmo realista.
Tabla de comparación lado a lado del modelo — ve cuánto costaría la misma carga en cada modelo disponible, con el modelo seleccionado resaltado.
Precios separados para entrada y salida — porque los tokens de salida suelen ser 2 a 5 veces más caros que los tokens de entrada.
Sin servidor, sin seguimiento — todos los cálculos de precios se realizan en el cliente. Tus conteos y volúmenes de tokens nunca abandonan tu navegador.

 Preguntas frecuentes

¿Qué es un token y por qué los LLMs cobran por token?

Un token es un fragmento de texto que el modelo lee y escribe — aproximadamente una palabra, un sub-fragmento o un marcador de puntuación. El texto en inglés promedia aproximadamente cuatro caracteres por token. Los LLMs cobran por token porque el costo de cómputo aumenta con el número de tokens procesados: cada token de entrada debe ser atendido, y cada token de salida se genera paso a paso. El precio por token proporciona un modelo de costo lineal y predecible que se alinea directamente con el trabajo que realiza realmente la GPU.
¿Por qué los tokens de salida suelen ser más caros que los de entrada?

Los tokens de entrada se procesan en una sola pasada paralela: el modelo lee todo el prompt de una sola vez. Los tokens de salida, por otro lado, se generan de forma autoregresiva — cada nuevo token requiere otra pasada hacia adelante sobre el contexto creciente. Esa generación paso a paso es más costosa por token, lo que es la razón por la que los proveedores suelen cobrar entre 2 y 5 veces más por los tokens de salida que por los de entrada.
¿Qué es el precio en lote y en qué casos es adecuado?

El precio en lote te permite enviar muchas solicitudes juntas y recibir los resultados dentro de un periodo especificado por el proveedor — típicamente 24 horas en OpenAI, Anthropic y Google. Dado que estos trabajos pueden programarse en capacidad fuera de pico, los proveedores ofrecen un descuento de 50% tanto para tokens de entrada como de salida. El precio en lote es ideal para cargas of-line como enriquecimiento de documentos, ejecuciones de evaluación, rellenos de embeddings y informes nocturnos. No es adecuado para nada que un usuario esté esperando, como chat o búsqueda interactiva.
¿Por qué el mismo número de tokens cuesta más en modelos más grandes?

Los modelos más grandes tienen más parámetros, lo que significa que cada pasada hacia adelante requiere más cómputo y más ancho de banda de memoria. Un modelo de 405 mil millones de parámetros simplemente realiza más cálculos por token que uno de 8 mil millones. Los proveedores transfieren ese costo como un precio por token más alto. Es también por eso que un modelo más pequeño y rápido suele ser la respuesta adecuada para tareas simples de clasificación o extracción — pagas menos y obtienes una respuesta más rápidamente.
¿Los precios listados reflejan realmente lo que pagaré?

No siempre. Los precios listados son el punto de partida, pero la mayoría de los proveedores ofrecen descuentos por uso comprometido, contratos empresariales, créditos prepagados y niveles de volumen que reducen el precio efectivo por token. Además, las promesas almacenadas, funciones de compresión de prompts y almacenamiento de contexto específicos de proveedor pueden reducir significativamente los costos de entrada para cargas repetitivas. Trata los calculadores de precios listados como un límite superior para la planificación, y luego añade tus descuentos contractuales encima.