Calculadora de VRAM da GPU
Guia
Calculadora de VRAM da GPU
Estime quantas memórias GPU um modelo de transformador precisa para inferência ou treinamento. Insira os parâmetros, precisão, tamanho do lote e comprimento da sequência, e o calculador retornará o total de VRAM juntamente com uma divisão dos pesos, gradientes, estado do otimizador, cache KV e ativações. Também compara o resultado com GPUs comuns (RTX 4090, A100, H100, H200, B200), para que você possa ver de imediato qual delas é adequada.
Como usar
- Escolha um preset (Llama 3 8B, Mistral 7B, Llama 3 70B, etc.) ou escolha Personalizado e insira seus próprios parâmetros, dimensão oculta e número de camadas.
- Selecione Inferência ou Treinamento. O treinamento revela opções de otimizador, precisão mista e checkpointing de gradiente.
- Escolha uma precisão: float32, float16/bfloat16, int8 ou int4.
- Insira o tamanho do lote e o comprimento da sequência. O cache KV e as ativações escalam com os dois.
- Leia os totais no topo, a tabela de divisão de cada componente e a tabela de adequação ao GPU para ver quais GPUs suportam a carga de trabalho.
Características
- Predefinições de modelo – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B e Llama 3.1 405B com dimensões ocultas e contagens de camadas precisas.
- Modos de inferência e treinamento – Alternância entre cálculos com pesos + cache KV e a equação completa de treinamento com gradientes, estado do otimizador e ativações.
- Opções de precisão – float32, float16/bfloat16, int8 e int4 para modelar o impacto da quantização.
- Escolhas de otimizador – Adam/AdamW (8 bytes/parâmetro), SGD com momento (4 bytes/parâmetro) ou SGD puro (0 bytes/parâmetro).
- Suporte a precisão mista – Adiciona a cópia em fp32 dos pesos principais usada por Apex, FSDP e DeepSpeed.
- Checkpointing de gradiente – Aplica a redução padrão de raiz quadrada do número de camadas para a memória de ativações.
- Tabela de adequação ao GPU – Mostra a utilização em relação ao RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 e B200, além de quantos GPUs são necessários para acomodar a carga de trabalho.
- Somente no lado do cliente – Os cálculos são executados no navegador, portanto, os detalhes do modelo nunca saem da sua máquina.
Quando usar esta ferramenta
- Escolher o tipo certo de instância de GPU antes de pagar por uma A100 ou H100.
- Decidir se quantizar um modelo para int4/int8 para que ele quebre em uma placa de consumidor.
- Dimensionar o comprimento do contexto e o tamanho do lote para uma carga de trabalho de serviço para prever o crescimento do cache KV.
- Planejar uma execução de fine-tuning com Adam versus SGD, precisão mista ou checkpointing de gradiente.
- Validar estratégias de particionamento de tensores ou de modelo para modelos muito grandes.
Perguntas frequentes
-
O que significa VRAM para modelos de linguagem grandes?
A VRAM é a memória dedicada a um GPU. Para executar um modelo de transformador, o GPU deve armazenar os pesos do modelo, as ativações usadas durante inferência ou treinamento e qualquer cache KV para atenção. Se a soma desses elementos exceder a VRAM, a carga de trabalho falhará ou será transferida para memória mais lenta e será drasticamente lenta.
-
Por que o treinamento usa tanto mais memória do que a inferência?
A inferência precisa apenas dos pesos do modelo e do cache KV para o lote atual. O treinamento também mantém gradientes (uma cópia extra dos parâmetros), estados do otimizador (Adam/AdamW armazena momento e variância em float32, adicionando oito bytes por parâmetro) e ativações de todas as camadas para a passagem de volta. Para um modelo treinado com Adam, o estado do otimizador é aproximadamente duas vezes o tamanho dos pesos em float32.
-
Como a precisão afeta a memória?
Cada parâmetro ocupa quatro bytes em float32, dois bytes em float16/bfloat16, um byte em int8 e meio byte em int4. Mudar de float32 para float16 reduz a memória de pesos pela metade. A quantização em int4 reduz isso oito vezes, o que é o motivo pelo qual modelos quantizados cabem em GPUs de consumidores que não conseguem armazenar a versão em precisão completa.
-
O que é o cache KV e por que ele cresce com o comprimento do contexto?
O cache KV armazena os tensores de chave e valor calculados pela atenção, para que eles não sejam recalculados em cada passo. Seu tamanho é duas vezes (K e V) o tamanho do lote vezes o comprimento da sequência vezes a dimensão oculta vezes o número de camadas, em qualquer precisão que o cache usa. Contextos longos podem tornar o cache KV rival ou superior ao tamanho dos pesos.
-
Qual é o trade-off do checkpointing de gradiente?
O checkpointing de gradiente armazena apenas ativações em alguns pontos durante a passagem direta e recalcula o restante durante a passagem de volta. Ele reduz a memória de ativações em aproximadamente a raiz quadrada do número de camadas, em troca de cerca de uma passagem adicional de cálculo por passo.
Instale nossas extensões
Adicione ferramentas de IO ao seu navegador favorito para acesso instantâneo e pesquisa mais rápida
恵 O placar chegou!
Placar é uma forma divertida de acompanhar seus jogos, todos os dados são armazenados em seu navegador. Mais recursos serão lançados em breve!
Ferramentas essenciais
Ver tudo Novas chegadas
Ver tudoAtualizar: Nosso ferramenta mais recente Foi adicionado em 15 de junho de 2026
