Anúncios incomodam? Ir Sem anúncios Hoje 

Calculadora de Custo da API LLM

DadosDesenvolvedorMatemática

ANUNCIADO Remover?

ENTRADA

Processo Automático

Solicitação

Tokens de entrada

Tokens enviados ao modelo por chamada (prompt + contexto).

Tokens de saída

Tokens retornados pelo modelo por chamada (completamento).

Chamadas por dia

Quantas solicitações você faz por dia. Utilizada para projeções diárias e mensais.

Modelo & Modo de Preço

Modelo

Preço em tempo real

Preço em lote (50% off, onde suportado)

SAÍDA

Lado cliente

ANUNCIADO Remover?

Guia

Calculadora de Custo da API LLM

Estime o custo real de uma chamada de API de LLM antes de implantá-la. Insira os tokens de entrada, os tokens de saída e o volume diário de chamadas, escolha um modelo e esta ferramenta mostra o gasto por chamada, por dia, por mês e por ano em modelos de OpenAI, Anthropic, Google e Meta — usando os preços listados publicados por milhão de tokens. Ótimo para verificar uma cotação, comparar fornecedores ou planejar um orçamento de lançamento.

Como usar

Insira o valor médio Tokens de entrada por solicitação (seu prompt mais qualquer contexto que você passe).
Insira o valor médio Tokens de saída que você espera que o modelo retorne.
Insira o número de Chamadas por dia que você espera fazer em produção.
Escolha um Modelo a partir do dropdown (OpenAI, Anthropic, Google ou Meta / Llama).
Mude entre Preço em tempo real e Preço em lote para ver o desconto de 50% em lote onde os provedores o suportam.
Leia o resumo do custo por chamada, por dia, por mês e por ano, depois role para a tabela de comparação para ver o que o mesmo trabalho custaria em todos os outros modelos.

Características

Preço de múltiplos provedores — modelos OpenAI, Anthropic, Google e Meta / Llama em uma tabela.
Alternância entre preço em tempo real e em lote — veja o desconto de 50% em lote para OpenAI, Anthropic e Google, e uma clara “n/a” onde um provedor não tem um nível de lote.
Projeções por chamada, por dia, por mês e por ano — as projeções usam a média mensal de 30,44 dias para um ritmo realista.
Tabela de comparação lado a lado dos modelos — veja o que custa o mesmo trabalho em todos os modelos suportados, com o modelo selecionado destacado.
Preço separado para entrada e saída — porque os tokens de saída são geralmente 2x a 5x mais caros que os tokens de entrada.
Sem servidor, sem rastreamento — todos os cálculos de preço são feitos no lado do cliente. Seus contadores de tokens e volumes nunca deixam seu navegador.

 Perguntas frequentes

O que é um token e por que os LLMs cobram por token?

Um token é um trecho de texto que o modelo lê e escreve — aproximadamente uma palavra, um sub-termo ou um marcador de pontuação. O texto em inglês tem cerca de quatro caracteres por token. Os LLMs cobram por token porque o custo de computação aumenta com o número de tokens processados: cada token de entrada precisa ser atendido e cada token de saída é gerado passo a passo. O preço por token oferece um modelo de custo linear e previsível que se alinha diretamente ao trabalho que o GPU realmente realiza.
Por que os tokens de saída são geralmente mais caros que os tokens de entrada?

Os tokens de entrada são processados em uma única passagem paralela: o modelo lê todo o prompt de uma só vez. Os tokens de saída, por outro lado, são gerados de forma autoregressiva — cada novo token exige outra passagem para o contexto crescente. Esse processo de geração passo a passo é mais caro por token, o que é a razão pela qual os provedores geralmente cobram 2x a 5x mais pelos tokens de saída do que pelos de entrada.
O que é preço em lote e em que situações faz sentido?

O preço em lote permite que você envie muitas solicitações juntas e receba os resultados dentro de um intervalo especificado pelo provedor — geralmente 24 horas em OpenAI, Anthropic e Google. Como essas tarefas podem ser agendadas em capacidades fora do horário de pico, os provedores oferecem um desconto de 50% tanto para tokens de entrada quanto para saída. O lote é ideal para cargas de trabalho off-line, como enriquecimento de documentos, execuções de avaliação, preenchimentos de embeddings e relatórios noturnos. Não é adequado para qualquer coisa que um usuário esteja esperando, como chat ou busca interativa.
Por que o mesmo número de tokens custa mais em modelos maiores?

Modelos maiores têm mais parâmetros, o que significa que cada passagem requer mais computação e mais largura de banda de memória. Um modelo de 405 bilhões de parâmetros simplesmente realiza mais cálculos por token do que um modelo de 8 bilhões. Os provedores passam esse custo como um preço maior por token. É também por isso que um modelo menor e mais rápido é muitas vezes a resposta certa para tarefas simples de classificação ou extração — você paga menos e recebe uma resposta mais rapidamente.
Os preços listados refletem o que eu realmente pagarei?

Não sempre. Os preços listados são apenas um ponto de partida, mas a maioria dos provedores oferece descontos de uso comprometido, contratos empresariais, créditos pré-pagos e níveis de volume que reduzem a taxa efetiva por token. Além disso, prompts armazenados, funcionalidades de compressão de prompts e armazenamento de contexto específicos dos provedores podem reduzir significativamente os custos de entrada para cargas de trabalho repetitivas. Trate os calculadores de preços listados como um limite superior para planejamento, e adicione os descontos contratualmente acordados em cima.