¿Odias los anuncios? Ir Sin publicidad Hoy 

Calculadora de VRAM de GPU

DatosDesarrolladorMatemáticas

ANUNCIO · ¿ELIMINAR?

APORTE

Proceso automático

Modelo

Preset de modelo

Parámetros (B)

Parámetros totales del modelo en billones (por ejemplo, 7 para un modelo de 7B).

Dimensión oculta

Dimensión oculta del modelo (utilizada para las activaciones y el caché KV).

Capas

Número de capas del transformador.

Carga de trabajo

Inferencia

Entrenamiento

Precisión

Tamaño del lote

Longitud de secuencia

Tokens por secuencia (longitud de contexto).

Opciones de entrenamiento

Optimizador

Adam/AdamW almacena el momentum y la varianza en fp32 (8 bytes/parámetro). SGD con momentum almacena 4 bytes/parámetro. SGD puro no almacena nada.

PROD.

Lado cliente

ANUNCIO · ¿ELIMINAR?

Guía

Calculadora de VRAM de GPU

Estime cuánta memoria GPU necesita un modelo de transformador para inferencia o entrenamiento. Ingrese parámetros, precisión, tamaño del lote y longitud de secuencia, y el calculador devolverá el VRAM total junto con un desglose de pesos, gradientes, estado del optimizador, caché KV y activaciones. También compara el resultado con GPUs comunes (RTX 4090, A100, H100, H200, B200) para que pueda ver rápidamente cuál es adecuado.

Cómo Usar

Elige un preset (Llama 3 8B, Mistral 7B, Llama 3 70B, etc.) o elige Personalizado y ingresa tus propios parámetros, dimensión oculta y número de capas.
Selecciona Inferencia o Entrenamiento. El entrenamiento revela opciones de optimizador, precisión mixta y checkpointing de gradientes.
Elige una precisión: float32, float16/bfloat16, int8 o int4.
Ingresa el tamaño del lote y la longitud de secuencia. El caché KV y las activaciones se escalan con ambos.
Lee los totales en la parte superior, la tabla de desglose de cada componente y la tabla de ajuste en GPU para ver qué GPUs pueden soportar la carga de trabajo.

Características

Prestados de modelo – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B y Llama 3.1 405B con dimensiones ocultas y número de capas precisas.
Modos de inferencia y entrenamiento – Cambia entre el cálculo de pesos + caché KV y la ecuación completa de entrenamiento con gradientes, estado del optimizador y activaciones.
Opciones de precisión – float32, float16/bfloat16, int8 y int4 para modelar el impacto de la cuantización.
Opciones de optimizador – Adam/AdamW (8 bytes/parámetro), SGD con momentum (4 bytes/parámetro) o SGD puro (0 bytes/parámetro).
Soporte de precisión mixta – Añade la copia en fp32 de los pesos principales utilizada por Apex, FSDP y DeepSpeed.
Checkpointing de gradientes – Aplica la reducción estándar de raíz cuadrada del número de capas para la memoria de activaciones.
Tabla de ajuste en GPU – Muestra el uso frente a RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 y B200, además de cuántos GPUs se necesitan para ajustar la carga de trabajo.
Solo del lado del cliente – Los cálculos se realizan en el navegador, así que los detalles de tu modelo nunca abandonan tu máquina.

Cuándo utilizar esta herramienta

Elegir el tipo adecuado de GPU antes de pagar por una A100 o H100.
Decidir si cuantizar un modelo a int4/int8 para que encaje en una tarjeta de consumer.
Determinar el tamaño de la longitud de contexto y el tamaño del lote para una carga de trabajo de servicio para predecir el crecimiento del caché KV.
Planificar una ejecución de fine-tuning con Adam frente a SGD, precisión mixta o checkpointing de gradientes.
Validar estrategias de partición tensor-paralela o model-paralela para modelos muy grandes.

 Preguntas frecuentes

¿Qué significa VRAM para modelos de lenguaje grandes?

VRAM es la memoria dedicada en una GPU. Para ejecutar un modelo de transformador, la GPU debe mantener los pesos del modelo, las activaciones utilizadas durante inferencia o entrenamiento, y cualquier caché KV para atención. Si la suma de esos elementos excede el VRAM, la carga de trabajo falla o se desborda en memoria más lenta y se ralentiza drásticamente.
¿Por qué el entrenamiento utiliza tanto más memoria que la inferencia?

La inferencia solo necesita los pesos del modelo más el caché KV para el lote actual. El entrenamiento también mantiene gradientes (una copia adicional de los parámetros), estados del optimizador (Adam/AdamW almacena momentum y varianza en float32, añadiendo ocho bytes por parámetro) y activaciones de cada capa para el paso hacia atrás. Para un modelo entrenado con Adam, el estado del optimizador en sí es aproximadamente dos veces el tamaño de los pesos en float32.
¿Cómo afecta la precisión la memoria?

Cada parámetro ocupa cuatro bytes en float32, dos bytes en float16/bfloat16, uno byte en int8 y medio byte en int4. Cambiar de float32 a float16 reduce la memoria de los pesos a la mitad. La cuantización a int4 reduce la memoria en ocho veces, lo que explica por qué los modelos cuantizados encajan en tarjetas de consumer que no pueden contener la versión en precisión completa.
¿Qué es el caché KV y por qué crece con la longitud de contexto?

El caché KV almacena los tensores de clave y valor calculados por atención para que no se recomputen en cada paso. Su tamaño es dos (K y V) veces el tamaño del lote por la longitud de secuencia por la dimensión oculta por el número de capas, en cualquier precisión que use el caché. Contextos largos pueden hacer que el caché KV rivalice o supere en tamaño los pesos.
¿Qué compensación ofrece el checkpointing de gradientes?

El checkpointing de gradientes solo almacena activaciones en unos pocos puntos durante el paso hacia adelante y los recomputa durante el paso hacia atrás. Reduce la memoria de activaciones en aproximadamente la raíz cuadrada del número de capas, a cambio de aproximadamente un paso adicional de cálculo por paso.