Calculadora de VRAM de GPU
Guía
Calculadora de VRAM de GPU
Estime cuánta memoria GPU necesita un modelo de transformador para inferencia o entrenamiento. Ingrese parámetros, precisión, tamaño del lote y longitud de secuencia, y el calculador devolverá el VRAM total junto con un desglose de pesos, gradientes, estado del optimizador, caché KV y activaciones. También compara el resultado con GPUs comunes (RTX 4090, A100, H100, H200, B200) para que pueda ver rápidamente cuál es adecuado.
Cómo Usar
- Elige un preset (Llama 3 8B, Mistral 7B, Llama 3 70B, etc.) o elige Personalizado y ingresa tus propios parámetros, dimensión oculta y número de capas.
- Selecciona Inferencia o Entrenamiento. El entrenamiento revela opciones de optimizador, precisión mixta y checkpointing de gradientes.
- Elige una precisión: float32, float16/bfloat16, int8 o int4.
- Ingresa el tamaño del lote y la longitud de secuencia. El caché KV y las activaciones se escalan con ambos.
- Lee los totales en la parte superior, la tabla de desglose de cada componente y la tabla de ajuste en GPU para ver qué GPUs pueden soportar la carga de trabajo.
Características
- Prestados de modelo – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B y Llama 3.1 405B con dimensiones ocultas y número de capas precisas.
- Modos de inferencia y entrenamiento – Cambia entre el cálculo de pesos + caché KV y la ecuación completa de entrenamiento con gradientes, estado del optimizador y activaciones.
- Opciones de precisión – float32, float16/bfloat16, int8 y int4 para modelar el impacto de la cuantización.
- Opciones de optimizador – Adam/AdamW (8 bytes/parámetro), SGD con momentum (4 bytes/parámetro) o SGD puro (0 bytes/parámetro).
- Soporte de precisión mixta – Añade la copia en fp32 de los pesos principales utilizada por Apex, FSDP y DeepSpeed.
- Checkpointing de gradientes – Aplica la reducción estándar de raíz cuadrada del número de capas para la memoria de activaciones.
- Tabla de ajuste en GPU – Muestra el uso frente a RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 y B200, además de cuántos GPUs se necesitan para ajustar la carga de trabajo.
- Solo del lado del cliente – Los cálculos se realizan en el navegador, así que los detalles de tu modelo nunca abandonan tu máquina.
Cuándo utilizar esta herramienta
- Elegir el tipo adecuado de GPU antes de pagar por una A100 o H100.
- Decidir si cuantizar un modelo a int4/int8 para que encaje en una tarjeta de consumer.
- Determinar el tamaño de la longitud de contexto y el tamaño del lote para una carga de trabajo de servicio para predecir el crecimiento del caché KV.
- Planificar una ejecución de fine-tuning con Adam frente a SGD, precisión mixta o checkpointing de gradientes.
- Validar estrategias de partición tensor-paralela o model-paralela para modelos muy grandes.
Preguntas frecuentes
-
¿Qué significa VRAM para modelos de lenguaje grandes?
VRAM es la memoria dedicada en una GPU. Para ejecutar un modelo de transformador, la GPU debe mantener los pesos del modelo, las activaciones utilizadas durante inferencia o entrenamiento, y cualquier caché KV para atención. Si la suma de esos elementos excede el VRAM, la carga de trabajo falla o se desborda en memoria más lenta y se ralentiza drásticamente.
-
¿Por qué el entrenamiento utiliza tanto más memoria que la inferencia?
La inferencia solo necesita los pesos del modelo más el caché KV para el lote actual. El entrenamiento también mantiene gradientes (una copia adicional de los parámetros), estados del optimizador (Adam/AdamW almacena momentum y varianza en float32, añadiendo ocho bytes por parámetro) y activaciones de cada capa para el paso hacia atrás. Para un modelo entrenado con Adam, el estado del optimizador en sí es aproximadamente dos veces el tamaño de los pesos en float32.
-
¿Cómo afecta la precisión la memoria?
Cada parámetro ocupa cuatro bytes en float32, dos bytes en float16/bfloat16, uno byte en int8 y medio byte en int4. Cambiar de float32 a float16 reduce la memoria de los pesos a la mitad. La cuantización a int4 reduce la memoria en ocho veces, lo que explica por qué los modelos cuantizados encajan en tarjetas de consumer que no pueden contener la versión en precisión completa.
-
¿Qué es el caché KV y por qué crece con la longitud de contexto?
El caché KV almacena los tensores de clave y valor calculados por atención para que no se recomputen en cada paso. Su tamaño es dos (K y V) veces el tamaño del lote por la longitud de secuencia por la dimensión oculta por el número de capas, en cualquier precisión que use el caché. Contextos largos pueden hacer que el caché KV rivalice o supere en tamaño los pesos.
-
¿Qué compensación ofrece el checkpointing de gradientes?
El checkpointing de gradientes solo almacena activaciones en unos pocos puntos durante el paso hacia adelante y los recomputa durante el paso hacia atrás. Reduce la memoria de activaciones en aproximadamente la raíz cuadrada del número de capas, a cambio de aproximadamente un paso adicional de cálculo por paso.
Instalar extensiones
Agregue herramientas IO a su navegador favorito para obtener acceso instantáneo y búsquedas más rápidas
恵 ¡El marcador ha llegado!
Marcador es una forma divertida de llevar un registro de tus juegos, todos los datos se almacenan en tu navegador. ¡Próximamente habrá más funciones!
Herramientas clave
Ver todo Los recién llegados
Ver todoActualizar: Nuestro última herramienta fue agregado el 19 de junio de 2026
