¿Odias los anuncios? Ir Sin publicidad Hoy 

Estimador de conteo de tokens de LLM

DatosDesarrolladorTexto

ANUNCIO · ¿ELIMINAR?

APORTE

Proceso automático

PROD.

Lado cliente

ANUNCIO · ¿ELIMINAR?

Guía

Estimador de conteo de tokens de LLM

Pega cualquier prompt, documento o fragmento de código y ve inmediatamente una estimación del número de tokens para GPT-4o, GPT-4 Turbo, GPT-3.5, los modelos o1 de razonamiento, Claude 3.x, y Gemini 1.5. La herramienta funciona completamente en el navegador, se actualiza en tiempo real mientras escribes y combina la cuenta con figuras de costo por millón de tokens y una barra de uso del contexto en tiempo real para que puedas ver rápidamente si estás cerca del límite de un modelo.

Cómo Usar

Pega o escribe tu texto en el área de entrada. La herramienta procesa cada cambio instantáneamente sin necesidad de presionar un botón.
Elige un modelo de destino desde el menú desplegable. Por defecto, se selecciona GPT-4o.
Opcionalmente establece un número esperado de tokens de salida para que el estimador de costo incluya el costo de generación, no solo el costo de entrada.
Lee la estimación de tokens, la relación de caracteres por token y la barra de uso del contexto para evaluar el tamaño del prompt antes de enviarlo.
Compara el costo de entrada, salida y total en todas las versiones de los modelos disponibles en la tabla de precios.
Revisa la visualización de tokens para ver dónde caen aproximadamente los límites de tokens. Los tokens adyacentes cambian de color para que cada unidad sea visualmente distinta.

Características

Doce modelos al lado – GPT-4o, GPT-4o mini, GPT-4 Turbo, GPT-4, GPT-3.5 Turbo, o1, o1-mini, Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku, Gemini 1.5 Pro y Gemini 1.5 Flash comparados todos en una tabla.
Barra de uso del contexto – Muestra tu conteo de tokens como porcentaje del tamaño del contexto seleccionado, con colores de advertencia y peligro cuando superas los 70% y 90%.
Estimación de costo con tokens de salida – Se aplican los precios por millón de tokens de entrada y salida a tu tamaño real de entrada más una longitud configurable esperada de respuesta.
Visualización de tokens – Los bloques alternantes muestran dónde caen aproximadamente los límites de token en estilo BPE, con espacios en blanco al principio unidos al bloque siguiente y la puntuación conservada como unidad independiente.
Panel de estadísticas en tiempo real – Número estimado de tokens, conteo de palabras, conteo de caracteres, caracteres sin espacios, tokens por palabra y caracteres por token.
Funciona completamente en el lado del cliente – Nada se sube. Tu prompt permanece en tu máquina.
Heurística consciente del código – Cuando el texto parece código, la relación de estimación se ajusta hacia abajo para reflejar que el BPE divide el código de manera más agresiva que el texto narrativo.

 Preguntas frecuentes

¿Qué es un token en un modelo de lenguaje grande?

Un token es la unidad básica que lee y genera un modelo. Los tokens se producen mediante un codificador de pares de bytes (BPE) o un similar, que aprende las secuencias de caracteres más frecuentes en los datos de entrenamiento y los almacena como un vocabulario compartido. Un solo token puede ser una palabra completa, un prefijo o sufijo común, una parte de una palabra rara, un emoji o un marcador de puntuación. Para el texto en inglés, un token promedio tiene aproximadamente cuatro caracteres o tres cuartos de una palabra. El código, las URLs, JSON y los scripts no latinos tienden a producir más tokens por carácter porque sus secuencias de caracteres son menos comunes en el vocabulario del codificador.
¿Por qué diferentes modelos reportan diferentes conteos de tokens para el mismo texto?

Cada familia de modelos se entrena con su propio codificador y vocabulario. GPT-3.5 y GPT-4 de OpenAI usan el codificador cl100k_base, mientras que GPT-4o y la serie o1 usan el nuevo codificador o200k_base. Los modelos Claude de Anthropic usan un codificador propietario de Anthropic, y los modelos Gemini de Google usan un codificador SentencePiece. Dado que los vocabularios difieren, el mismo texto puede codificarse a diferentes conteos de tokens en diferentes modelos, típicamente dentro del rango de un 10% a un 20% para el texto en inglés, pero más divergente en el código o en textos no en inglés.
¿Qué es un contexto de ventana y por qué importa?

La ventana de contexto es el número máximo de tokens que un modelo puede leer y generar en una sola solicitud. Incluye el prompt de sistema, el prompt del usuario, la historia completa de la conversación y la respuesta. Cuando se supera la ventana, el contexto antiguo se trunca, lo que puede eliminar silenciosamente instrucciones o hechos que el modelo necesitaba. Una ventana grande permite documentos y conversaciones largas, pero el retraso y el costo aumentan con el número de tokens procesados, por lo que incluso con una ventana de dos millones de tokens, normalmente es más barato y más rápido mantener los prompts compactos.
¿Cómo se calcula generalmente el precio de las APIs de modelos de lenguaje grande?

La mayoría de los proveedores preciosan los tokens de entrada y salida por separado y citan la tasa por millón de tokens. Los tokens de entrada son todo lo que envías al modelo, incluyendo prompts de sistema y la historia de conversación. Los tokens de salida son todo lo que genera el modelo. La salida es casi siempre más cara que la entrada porque la generación es limitada por el procesamiento. Algunos proveedores también descuentan los tokens de entrada almacenados o reutilizados. Para estimar el costo total de una llamada, multiplica tus tokens de entrada por la tasa de entrada y tus tokens de salida esperados por la tasa de salida, divide cada uno por un millón y suma los dos valores.
¿Por qué mi conteo de tokens es solo una estimación en lugar del número exacto de tiktoken?

Producir un conteo exacto de BPE requiere enviar el vocabulario completo del codificador al navegador, que puede ser varios megabytes de pesos por codificación. Esta herramienta utiliza una heurística de caracteres por token calibrada para cada familia de modelos, que da un conteo dentro de un porcentaje pequeño del número real de tiktoken o SentencePiece para el texto en inglés típico y es lo suficientemente precisa para la estimación de costos y planificación del contexto de ventana. Si necesitas el conteo exacto para reconciliación de facturas, ejecuta el codificador oficial del proveedor contra tu prompt final antes de enviarlo.