Anúncios incomodam? Ir Sem anúncios Hoje 

Estimador de Contagem de Tokens de LLM

DadosDesenvolvedorTexto

ANUNCIADO Remover?

ENTRADA

Processo Automático

SAÍDA

Lado cliente

ANUNCIADO Remover?

Guia

Estimador de Contagem de Tokens de LLM

Cole qualquer prompt, documento ou trecho de código e veja instantaneamente uma estimativa de contagem de tokens para GPT-4o, GPT-4 Turbo, GPT-3.5, os modelos de raciocínio o1, Claude 3.x e Gemini 1.5. A ferramenta funciona totalmente no navegador, atualiza em tempo real enquanto você digita e associa a contagem com valores de custo por milhão de tokens e uma barra de uso da janela de contexto, para que você possa ver de imediato se está próximo do limite de um modelo.

Como usar

Cole ou digite seu texto no área de entrada. A ferramenta processa cada mudança instantaneamente sem necessidade de pressionar um botão.
Escolha um modelo-alvo no menu suspenso. O GPT-4o é selecionado por padrão.
Defina opcionalmente a contagem esperada de tokens de saída para que a estimativa de custo inclua o custo de geração, e não apenas o custo de entrada.
Leia a estimativa de tokens, a razão de caracteres por token e a barra de uso da janela de contexto para avaliar o tamanho do prompt antes de enviá-lo.
Compare o custo de entrada, saída e total em todas as modelos suportadas na tabela de preços.
Analise a visualização de tokens para ver onde as bordas aproximadas dos tokens estão. Os tokens adjacentes alternam cores para que cada unidade seja visualmente distinta.

Características

Doze modelos ao lado – GPT-4o, GPT-4o mini, GPT-4 Turbo, GPT-4, GPT-3.5 Turbo, o1, o1-mini, Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku, Gemini 1.5 Pro e Gemini 1.5 Flash comparados em uma única tabela.
Barra de uso da janela de contexto – Mostra a contagem de seus tokens como porcentagem da janela do modelo selecionado, com cores de aviso e perigo quando você ultrapassa 70% e 90% da janela.
Estimativa de custo com tokens de saída – Os preços por milhão de tokens de entrada e saída são aplicados ao seu tamanho real de entrada mais uma quantidade configurável de resposta esperada.
Visualização de tokens – Blocos alternados mostram onde as bordas aproximadas dos tokens em estilo BPE estão, com espaços em branco iniciais colados ao bloco seguinte e pontuação mantida como unidade separada.
Painel de estatísticas em tempo real – Estimativa de tokens, contagem de palavras, contagem de caracteres, caracteres sem espaços, tokens por palavra e caracteres por token.
Executa totalmente no lado do cliente – Nada é enviado. Seu prompt permanece na sua máquina.
Heurística consciente de código – Quando o texto parece código, a proporção da estimativa é ajustada para refletir que o BPE divide o código de forma mais agressiva do que o texto narrativo.

 Perguntas frequentes

O que é um token em um modelo de linguagem grande?

Um token é a unidade básica que um modelo lê e gera. Os tokens são produzidos por um tokenizador de subpalavras (como BPE) que aprende as sequências de caracteres mais frequentes no conjunto de dados de treinamento e os armazena como um vocabulário compartilhado. Um único token pode ser uma palavra completa, um prefixo ou sufixo comum, uma parte de uma palavra rara, um único emoji ou um marcador de pontuação. Para o texto em inglês, um token tem em média cerca de quatro caracteres ou cerca de três quartos de uma palavra. Códigos, URLs, JSON e scripts não latinos tendem a gerar mais tokens por caractere porque suas sequências de caracteres são menos comuns no vocabulário do tokenizador.
Por que modelos diferentes reportam contagens diferentes de tokens para o mesmo texto?

Cada família de modelo é treinada com seu próprio tokenizador e vocabulário. O GPT-3.5 e o GPT-4 da OpenAI usam a codificação cl100k_base, enquanto o GPT-4o e a série o1 usam a nova codificação o200k_base. Os modelos Claude da Anthropic usam um tokenizador proprietário, e os modelos Gemini da Google usam um tokenizador SentencePiece. Como os vocabulários diferem, o mesmo texto pode ser codificado em contagens diferentes de tokens em diferentes modelos, geralmente dentro de 10% a 20% para o texto em inglês, mas com maior divergência para códigos ou textos em idiomas diferentes.
O que é uma janela de contexto e por que isso importa?

A janela de contexto é o número máximo de tokens que um modelo pode ler e gerar em uma única solicitação. Ela inclui o prompt de sistema, o prompt do usuário, a história completa da conversa e a resposta. Quando você excede a janela, o contexto antigo é truncado, o que pode silenciosamente remover instruções ou fatos que o modelo precisava. Uma janela grande dá espaço para documentos longos e conversas longas, mas o atraso e o custo aumentam com o número de tokens processados, então mesmo com uma janela de dois milhões de tokens, geralmente é mais barato e mais rápido manter os prompts compactos.
Como o preço dos APIs de modelos de linguagem grande é geralmente calculado?

A maioria dos fornecedores cobra tokens de entrada e saída separadamente e cita a taxa por milhão de tokens. Os tokens de entrada são tudo que você envia ao modelo, incluindo prompts de sistema e histórico de conversa. Os tokens de saída são tudo que o modelo gera. A saída é quase sempre mais cara do que a entrada porque a geração é limitada por processamento. Alguns fornecedores também oferecem descontos para tokens de entrada armazenados ou reutilizados. Para estimar o custo total de uma chamada, multiplique os seus tokens de entrada pela taxa de entrada e os seus tokens de saída esperados pela taxa de saída, divida cada um por um milhão e some os dois valores.
Por que minha contagem de tokens é apenas uma estimativa e não o número exato de tiktoken?

Produzir um número exato de BPE de tokens exige enviar o vocabulário completo do tokenizador ao navegador, que pode ser de vários megabytes de pesos por codificação. Esta ferramenta usa uma heurística de caracteres por token calibrada para cada família de modelo, que fornece uma contagem dentro de alguns porcentos do número real de tiktoken ou SentencePiece para textos em inglês típicos e é suficientemente precisa para estimativas de custo e planejamento de janela de contexto. Se você precisar do número exato para reconciliação de faturamento, execute o tokenizador oficial do fornecedor contra seu prompt final antes de enviá-lo.