Anúncios incomodam? Ir Sem anúncios Hoje 

Calculadora de VRAM da GPU

DadosDesenvolvedorMatemática

ANUNCIADO Remover?

ENTRADA

Processo Automático

Modelo

Model Preset

Parâmetros (B)

Total de parâmetros do modelo em bilhões (por exemplo, 7 para um modelo de 7B).

Dimensão Oculta

Dimensão oculta do modelo (usada para ativações e cache KV).

Camadas

Número de camadas do transformador.

Carga de trabalho

Inferência

Treinamento

Precisão

Tamanho do lote

Comprimento da sequência

Tokens por sequência (comprimento do contexto).

Opções de treinamento

Otimizador

Adam/AdamW armazena o momento e a variância em fp32 (8 bytes/parâmetro). SGD com momento armazena 4 bytes/parâmetro. SGD puro armazena nenhum.

SAÍDA

Lado cliente

ANUNCIADO Remover?

Guia

Calculadora de VRAM da GPU

Estime quantas memórias GPU um modelo de transformador precisa para inferência ou treinamento. Insira os parâmetros, precisão, tamanho do lote e comprimento da sequência, e o calculador retornará o total de VRAM juntamente com uma divisão dos pesos, gradientes, estado do otimizador, cache KV e ativações. Também compara o resultado com GPUs comuns (RTX 4090, A100, H100, H200, B200), para que você possa ver de imediato qual delas é adequada.

Como usar

Escolha um preset (Llama 3 8B, Mistral 7B, Llama 3 70B, etc.) ou escolha Personalizado e insira seus próprios parâmetros, dimensão oculta e número de camadas.
Selecione Inferência ou Treinamento. O treinamento revela opções de otimizador, precisão mista e checkpointing de gradiente.
Escolha uma precisão: float32, float16/bfloat16, int8 ou int4.
Insira o tamanho do lote e o comprimento da sequência. O cache KV e as ativações escalam com os dois.
Leia os totais no topo, a tabela de divisão de cada componente e a tabela de adequação ao GPU para ver quais GPUs suportam a carga de trabalho.

Características

Predefinições de modelo – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B e Llama 3.1 405B com dimensões ocultas e contagens de camadas precisas.
Modos de inferência e treinamento – Alternância entre cálculos com pesos + cache KV e a equação completa de treinamento com gradientes, estado do otimizador e ativações.
Opções de precisão – float32, float16/bfloat16, int8 e int4 para modelar o impacto da quantização.
Escolhas de otimizador – Adam/AdamW (8 bytes/parâmetro), SGD com momento (4 bytes/parâmetro) ou SGD puro (0 bytes/parâmetro).
Suporte a precisão mista – Adiciona a cópia em fp32 dos pesos principais usada por Apex, FSDP e DeepSpeed.
Checkpointing de gradiente – Aplica a redução padrão de raiz quadrada do número de camadas para a memória de ativações.
Tabela de adequação ao GPU – Mostra a utilização em relação ao RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 e B200, além de quantos GPUs são necessários para acomodar a carga de trabalho.
Somente no lado do cliente – Os cálculos são executados no navegador, portanto, os detalhes do modelo nunca saem da sua máquina.

Quando usar esta ferramenta

Escolher o tipo certo de instância de GPU antes de pagar por uma A100 ou H100.
Decidir se quantizar um modelo para int4/int8 para que ele quebre em uma placa de consumidor.
Dimensionar o comprimento do contexto e o tamanho do lote para uma carga de trabalho de serviço para prever o crescimento do cache KV.
Planejar uma execução de fine-tuning com Adam versus SGD, precisão mista ou checkpointing de gradiente.
Validar estratégias de particionamento de tensores ou de modelo para modelos muito grandes.

 Perguntas frequentes

O que significa VRAM para modelos de linguagem grandes?

A VRAM é a memória dedicada a um GPU. Para executar um modelo de transformador, o GPU deve armazenar os pesos do modelo, as ativações usadas durante inferência ou treinamento e qualquer cache KV para atenção. Se a soma desses elementos exceder a VRAM, a carga de trabalho falhará ou será transferida para memória mais lenta e será drasticamente lenta.
Por que o treinamento usa tanto mais memória do que a inferência?

A inferência precisa apenas dos pesos do modelo e do cache KV para o lote atual. O treinamento também mantém gradientes (uma cópia extra dos parâmetros), estados do otimizador (Adam/AdamW armazena momento e variância em float32, adicionando oito bytes por parâmetro) e ativações de todas as camadas para a passagem de volta. Para um modelo treinado com Adam, o estado do otimizador é aproximadamente duas vezes o tamanho dos pesos em float32.
Como a precisão afeta a memória?

Cada parâmetro ocupa quatro bytes em float32, dois bytes em float16/bfloat16, um byte em int8 e meio byte em int4. Mudar de float32 para float16 reduz a memória de pesos pela metade. A quantização em int4 reduz isso oito vezes, o que é o motivo pelo qual modelos quantizados cabem em GPUs de consumidores que não conseguem armazenar a versão em precisão completa.
O que é o cache KV e por que ele cresce com o comprimento do contexto?

O cache KV armazena os tensores de chave e valor calculados pela atenção, para que eles não sejam recalculados em cada passo. Seu tamanho é duas vezes (K e V) o tamanho do lote vezes o comprimento da sequência vezes a dimensão oculta vezes o número de camadas, em qualquer precisão que o cache usa. Contextos longos podem tornar o cache KV rival ou superior ao tamanho dos pesos.
Qual é o trade-off do checkpointing de gradiente?

O checkpointing de gradiente armazena apenas ativações em alguns pontos durante a passagem direta e recalcula o restante durante a passagem de volta. Ele reduz a memória de ativações em aproximadamente a raiz quadrada do número de camadas, em troca de cerca de uma passagem adicional de cálculo por passo.