Anúncios incomodam? Ir Sem anúncios Hoje

Calculadora de Custo da API LLM

DadosDesenvolvedorMatemática
ANUNCIADO Remover?

Solicitação

Tokens enviados ao modelo por chamada (prompt + contexto).
Tokens retornados pelo modelo por chamada (completamento).
Quantas solicitações você faz por dia. Utilizada para projeções diárias e mensais.

Modelo & Modo de Preço

Custo para o Modelo Selecionado

Comparação lado a lado do Modelo

Notas

O preço é baseado nos preços listados publicados por milhão de tokens e pode diferir do seu preço empresarial. O preço em lote aplica o desconto padrão de 50% do fornecedor (OpenAI, Anthropic, Google). As APIs do Meta / Llama são comercializadas por provedores comuns e geralmente não oferecem um nível de lote.
ANUNCIADO Remover?

Guia

Calculadora de Custo de API de LLM

Calculadora de Custo da API LLM

Estime o custo real de uma chamada de API de LLM antes de implantá-la. Insira os tokens de entrada, os tokens de saída e o volume diário de chamadas, escolha um modelo e esta ferramenta mostra o gasto por chamada, por dia, por mês e por ano em modelos de OpenAI, Anthropic, Google e Meta — usando os preços listados publicados por milhão de tokens. Ótimo para verificar uma cotação, comparar fornecedores ou planejar um orçamento de lançamento.

Como usar

  1. Insira o valor médio Tokens de entrada por solicitação (seu prompt mais qualquer contexto que você passe).
  2. Insira o valor médio Tokens de saída que você espera que o modelo retorne.
  3. Insira o número de Chamadas por dia que você espera fazer em produção.
  4. Escolha um Modelo a partir do dropdown (OpenAI, Anthropic, Google ou Meta / Llama).
  5. Mude entre Preço em tempo real e Preço em lote para ver o desconto de 50% em lote onde os provedores o suportam.
  6. Leia o resumo do custo por chamada, por dia, por mês e por ano, depois role para a tabela de comparação para ver o que o mesmo trabalho custaria em todos os outros modelos.

Características

  • Preço de múltiplos provedores — modelos OpenAI, Anthropic, Google e Meta / Llama em uma tabela.
  • Alternância entre preço em tempo real e em lote — veja o desconto de 50% em lote para OpenAI, Anthropic e Google, e uma clara “n/a” onde um provedor não tem um nível de lote.
  • Projeções por chamada, por dia, por mês e por ano — as projeções usam a média mensal de 30,44 dias para um ritmo realista.
  • Tabela de comparação lado a lado dos modelos — veja o que custa o mesmo trabalho em todos os modelos suportados, com o modelo selecionado destacado.
  • Preço separado para entrada e saída — porque os tokens de saída são geralmente 2x a 5x mais caros que os tokens de entrada.
  • Sem servidor, sem rastreamento — todos os cálculos de preço são feitos no lado do cliente. Seus contadores de tokens e volumes nunca deixam seu navegador.

Perguntas frequentes

  1. O que é um token e por que os LLMs cobram por token?

    Um token é um trecho de texto que o modelo lê e escreve — aproximadamente uma palavra, um sub-termo ou um marcador de pontuação. O texto em inglês tem cerca de quatro caracteres por token. Os LLMs cobram por token porque o custo de computação aumenta com o número de tokens processados: cada token de entrada precisa ser atendido e cada token de saída é gerado passo a passo. O preço por token oferece um modelo de custo linear e previsível que se alinha diretamente ao trabalho que o GPU realmente realiza.

  2. Por que os tokens de saída são geralmente mais caros que os tokens de entrada?

    Os tokens de entrada são processados em uma única passagem paralela: o modelo lê todo o prompt de uma só vez. Os tokens de saída, por outro lado, são gerados de forma autoregressiva — cada novo token exige outra passagem para o contexto crescente. Esse processo de geração passo a passo é mais caro por token, o que é a razão pela qual os provedores geralmente cobram 2x a 5x mais pelos tokens de saída do que pelos de entrada.

  3. O que é preço em lote e em que situações faz sentido?

    O preço em lote permite que você envie muitas solicitações juntas e receba os resultados dentro de um intervalo especificado pelo provedor — geralmente 24 horas em OpenAI, Anthropic e Google. Como essas tarefas podem ser agendadas em capacidades fora do horário de pico, os provedores oferecem um desconto de 50% tanto para tokens de entrada quanto para saída. O lote é ideal para cargas de trabalho off-line, como enriquecimento de documentos, execuções de avaliação, preenchimentos de embeddings e relatórios noturnos. Não é adequado para qualquer coisa que um usuário esteja esperando, como chat ou busca interativa.

  4. Por que o mesmo número de tokens custa mais em modelos maiores?

    Modelos maiores têm mais parâmetros, o que significa que cada passagem requer mais computação e mais largura de banda de memória. Um modelo de 405 bilhões de parâmetros simplesmente realiza mais cálculos por token do que um modelo de 8 bilhões. Os provedores passam esse custo como um preço maior por token. É também por isso que um modelo menor e mais rápido é muitas vezes a resposta certa para tarefas simples de classificação ou extração — você paga menos e recebe uma resposta mais rapidamente.

  5. Os preços listados refletem o que eu realmente pagarei?

    Não sempre. Os preços listados são apenas um ponto de partida, mas a maioria dos provedores oferece descontos de uso comprometido, contratos empresariais, créditos pré-pagos e níveis de volume que reduzem a taxa efetiva por token. Além disso, prompts armazenados, funcionalidades de compressão de prompts e armazenamento de contexto específicos dos provedores podem reduzir significativamente os custos de entrada para cargas de trabalho repetitivas. Trate os calculadores de preços listados como um limite superior para planejamento, e adicione os descontos contratualmente acordados em cima.

Quer eliminar anúncios? Fique sem anúncios hoje mesmo

Instale nossas extensões

Adicione ferramentas de IO ao seu navegador favorito para acesso instantâneo e pesquisa mais rápida

Ao Extensão do Chrome Ao Extensão de Borda Ao Extensão Firefox Ao Extensão Opera

O placar chegou!

Placar é uma forma divertida de acompanhar seus jogos, todos os dados são armazenados em seu navegador. Mais recursos serão lançados em breve!

ANUNCIADO Remover?
ANUNCIADO Remover?
ANUNCIADO Remover?

Notícias com destaques técnicos

Envolver-se

Ajude-nos a continuar fornecendo ferramentas gratuitas valiosas

Compre-me um café
ANUNCIADO Remover?