Calculateur de VRAM GPU
Guide
Calculateur de VRAM GPU
Estimez la quantité de mémoire GPU nécessaire pour une inférence ou une formation d'un modèle de transformateur. Entrez les paramètres, la précision, la taille du batch et la longueur de séquence, et le calculateur retourne la VRAM totale ainsi qu'une analyse détaillée des poids, des gradients, de l'état de l'optimiseur, du cache KV et des activations. Il compare également le résultat avec des GPU courants (RTX 4090, A100, H100, H200, B200) afin que vous puissiez voir rapidement quel GPU convient.
Comment utiliser
- Choisissez une préférence de modèle (Llama 3 8B, Mistral 7B, Llama 3 70B, etc.) ou sélectionnez Personnalisé et entrez vos propres paramètres, dimension cachée et nombre de couches.
- Sélectionnez Inférence ou Formation. La formation révèle les options d'optimiseur, de précision mixte et de checkpointing des gradients.
- Choisissez une précision : float32, float16/bfloat16, int8 ou int4.
- Entrez la taille du batch et la longueur de séquence. Le cache KV et les activations augmentent en fonction des deux paramètres.
- Lisez les totaux en haut, le tableau détaillé de chaque composant et le tableau d'adaptation des GPU pour voir quelles GPU peuvent accueillir la charge de travail.
Caractéristiques
- Préférences de modèles – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B et Llama 3.1 405B avec des dimensions cachées et des nombres de couches précis.
- Modes d'inférence et de formation – Commute entre les calculs des poids + cache KV et l'équation complète de formation avec gradients, état de l'optimiseur et activations.
- Options de précision – float32, float16/bfloat16, int8 et int4 pour modéliser l'impact de la quantification.
- Choix de l'optimiseur – Adam/AdamW (8 octets/paramètre), SGD avec moment (4 octets/paramètre) ou SGD pur (0 octets/paramètre).
- Support de la précision mixte – Ajoute la copie en fp32 des poids principaux utilisée par Apex, FSDP et DeepSpeed.
- Checkpointing des gradients – Applique une réduction standard de la racine carrée du nombre de couches pour la mémoire des activations.
- Tableau d'adaptation du GPU – Affiche l'utilisation par rapport à RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 et B200, ainsi que le nombre de GPU nécessaires pour accueillir la charge de travail.
- Côté client uniquement – Les calculs sont effectués dans le navigateur, donc vos détails de modèle ne quittent jamais votre machine.
Quand utiliser cet outil
- Choisir le bon type d'instance de GPU avant de payer pour un A100 ou un H100.
- Décider si quantifier un modèle en int4/int8 afin qu'il s'inscrive sur une carte consommateur.
- Dimensionner la longueur de contexte et la taille du batch pour une charge de travail de service afin de prédire la croissance du cache KV.
- Planifier une session de fine-tuning avec Adam contre SGD, précision mixte ou checkpointing des gradients.
- Valider des stratégies de partage tensoriel ou modèle pour des modèles très grands.
FAQ
-
Qu'est-ce que la VRAM signifie pour les grands modèles de langage ?
La VRAM est la mémoire dédiée à un GPU. Pour exécuter un modèle de transformateur, le GPU doit contenir les poids du modèle, les activations utilisées pendant l'inférence ou la formation, et tout cache KV nécessaire pour l'attention. Si la somme de ces éléments dépasse la VRAM, la charge de travail échoue soit ou est déplacée vers une mémoire plus lente et ralentit considérablement.
-
Pourquoi la formation utilise-t-elle tant plus de mémoire que l'inférence ?
L'inférence n'a besoin que des poids du modèle et du cache KV pour le batch actuel. La formation conserve également les gradients (une copie supplémentaire des paramètres), les états de l'optimiseur (Adam/AdamW stocke le moment et la variance en fp32, ajoutant huit octets par paramètre), et les activations de chaque couche pour le passage en sens inverse. Pour un modèle entraîné avec Adam, l'état de l'optimiseur seul représente environ deux fois les poids en fp32.
-
Comment la précision influence-t-elle la mémoire ?
Chaque paramètre prend 4 octets en float32, 2 octets en float16/bfloat16, 1 octet en int8 et 0,5 octet en int4. Passer de float32 à float16 réduit la mémoire des poids la moitié. La quantification en int4 réduit cela de huit fois, ce qui explique pourquoi les modèles quantifiés s'inscrivent sur des cartes consommateurs qui ne peuvent pas accueillir la version à précision complète.
-
Qu'est-ce que le cache KV et pourquoi sa taille augmente avec la longueur de contexte ?
Le cache KV stocke les tenseurs clés et valeurs calculés par l'attention afin qu'ils ne soient pas recalculés à chaque étape. Sa taille est de deux fois (K et V) la taille du batch, la longueur de séquence, la dimension cachée et le nombre de couches, selon la précision utilisée par le cache. Des contextes longs peuvent faire évoluer le cache KV à la taille ou même au-delà des poids.
-
Quel est le compromis du checkpointing des gradients ?
Le checkpointing des gradients ne stocke que les activations à quelques points de contrôle pendant le passage en sens direct et les recalculer pendant le passage en sens inverse. Il réduit la mémoire des activations d'environ la racine carrée du nombre de couches, en échange d'une passe supplémentaire de calcul par étape.
Installez nos extensions
Ajoutez des outils IO à votre navigateur préféré pour un accès instantané et une recherche plus rapide
恵 Le Tableau de Bord Est Arrivé !
Tableau de Bord est une façon amusante de suivre vos jeux, toutes les données sont stockées dans votre navigateur. D'autres fonctionnalités arrivent bientôt !
Outils essentiels
Tout voir Nouveautés
Tout voirMise à jour: Notre dernier outil a été ajouté le 17 juin 2026
