不喜欢广告？去无广告今天 

GPU 显存计算器

数据开发人员数学

广告移除？

输入

自动处理

型号

模型预设

参数（B）

以十亿为单位的模型总参数数量（例如，7 表示 7B 模型）。

隐藏维度

模型隐藏维度（用于激活和 KV 缓存）。

图层

Transformer 层的数量。

工作负载

推理

训练

精度

批处理大小

序列长度

序列中的标记数（上下文长度）。

训练选项

优化器

Adam/AdamW 存储 fp32 动量和方差（每参数 8 字节）。带有动量的 SGD 存储每参数 4 字节。纯 SGD 不存储任何内容。

输出

客户端

广告移除？

指导

GPU 显存计算器

估算一个 Transformer 模型在推理或训练中所需的 GPU 内存。输入参数、精度、批处理大小和序列长度，计算器将返回总 VRAM 及其权重、梯度、优化器状态、KV 缓存和激活的分解。它还会将结果与常见 GPU（RTX 4090、A100、H100、H200、B200）进行比较，以便您一目了然地知道哪个 GPU 可以容纳该工作负载。

如何使用

选择预设（如 Llama 3 8B、Mistral 7B、Llama 3 70B 等）或选择“自定义”，并输入您自己的参数、隐藏维度和层数。
选择推理或训练。训练会显示优化器、混合精度和梯度检查点选项。
选择精度：float32、float16/bfloat16、int8 或 int4。
输入批处理大小和序列长度。KV 缓存和激活都会随这两个参数增长。
查看顶部的总计、每个组件的分解表以及 GPU 适配表，以了解哪些 GPU 可以承载该工作负载。

特征

模型预设 – GPT-2、Llama 3.2 1B/3B、Mistral 7B、Llama 3 8B、Llama 2 13B、Mixtral 8x7B、Llama 3 70B 和 Llama 3.1 405B，具有准确的隐藏维度和层数。
推理和训练模式 – 切换权重+KV缓存计算与包含梯度、优化器状态和激活的完整训练方程。
精度选项 – float32、float16/bfloat16、int8 和 int4，以模拟量化的影响。
优化器选择 – Adam/AdamW（每参数 8 字节）、带有动量的 SGD（每参数 4 字节）或纯 SGD（每参数 0 字节）。
混合精度支持 – 增加 Apex、FSDP 和 DeepSpeed 使用的 fp32 主权重副本。
梯度检查点 – 对激活内存应用标准的 sqrt(层数) 减少。
GPU 适配表 – 显示与 RTX 4060 Ti、RTX 4090、RTX 5090、L40S、A100、H100、H200 和 B200 的利用率，并显示需要多少个 GPU 才能容纳该工作负载。
仅客户端 – 计算在浏览器中运行，因此您的模型信息永远不会离开您的机器。

何时使用此工具

在支付 A100 或 H100 之前选择合适的 GPU 实例类型。
决定是否将模型量化为 int4/int8，以便它能适配单张消费级显卡。
为服务工作负载确定上下文长度和批处理大小，以预测 KV 缓存的增长。
规划使用 Adam 与 SGD、混合精度或梯度检查点的微调运行。
验证非常大模型的张量并行或模型并行分片策略。

 常问问题

对于大型语言模型，VRAM 是什么含义？

VRAM 是 GPU 上的专用内存。要运行一个 Transformer 模型，GPU 必须持有模型权重、推理或训练过程中使用的激活以及注意力的 KV 缓存。如果这些内存之和超过 VRAM，工作负载将导致错误或溢出到较慢的内存，从而显著变慢。
为什么训练比推理使用更多的内存？

推理只需要模型权重和当前批次的 KV 缓存。训练还需要梯度（参数的额外副本）、优化器状态（Adam/AdamW 存储动量和方差，每参数增加 8 字节）以及每个层的激活用于反向传播。对于使用 Adam 训练的模型，仅优化器状态就大约是 float32 权重的两倍。
精度如何影响内存？

每个参数在 float32 中占 4 字节，在 float16/bfloat16 中占 2 字节，在 int8 中占 1 字节，在 int4 中占 0.5 字节。从 float32 切换到 float16 会将权重内存减半。int4 量化可将其减少八倍，这就是为什么量化模型可以适配无法容纳全精度版本的消费级显卡。
什么是 KV 缓存，为什么它会随着上下文长度增长？

KV 缓存存储注意力计算出的键和值张量，以便在每一步都不需要重新计算。其大小为 2（K 和 V）乘以批处理大小乘以序列长度乘以隐藏维度乘以层数，具体取决于缓存使用的精度。长上下文可能使 KV 缓存的大小与权重相媲美甚至超过权重。
梯度检查点的权衡是什么？

梯度检查点仅在前向传播过程中存储少数几个检查点的激活，并在反向传播过程中重新计算其余部分。它大约通过层数的平方根来减少激活内存，以换取每步大约一次额外的前向计算开销。