広告が嫌いですか? 行く広告なし今日 

GPU VRAM計算機

データ開発者数学

広告削除する？

入力

自動処理

モデル

モデルプリセット

パラメータ (B)

総モデルパラメータ（十億単位）（例：7Bモデルの場合、7）。

隠れ次元

モデルの隠れ次元（活性化およびKVキャッシュに使用）。

レイヤー

トランスフォーマー層の数。

ワークロード

推論

訓練

精度

バッチサイズ

シーケンス長

シーケンスあたりのトークン（コンテキスト長）。

訓練オプション

最適化手法

Adam/AdamWはfp32のモーメンタムと分散を保存（8バイト/パラメータ）。モーメンタム付きSGDは4バイト/パラメータを保存。シンプルなSGDは保存しない。

出力

クライアント側

広告削除する？

ガイド

GPU VRAM計算機

推論または訓練に必要なGPUメモリの推定を行う。パラメータ、精度、バッチサイズ、シーケンス長を入力し、計算機は合計VRAMと重み、勾配、最適化状態、KVキャッシュ、活性化の分解表を返す。また、RTX 4090、A100、H100、H200、B200などの一般的なGPUと比較し、どのGPUが適合するかを一目で確認できる。

使用方法

プリセット（Llama 3 8B、Mistral 7B、Llama 3 70Bなど）を選択するか、カスタムを選択し、独自のパラメータ、隠れ次元、層数を入力する。
推論または訓練を選択する。訓練では最適化、混合精度、勾配チェックポイントのオプションが表示される。
精度を選択：float32、float16/bfloat16、int8、またはint4。
バッチサイズとシーケンス長を入力する。KVキャッシュと活性化は両方でスケーリングされる。
トップの合計、各コンポーネントの分解表、およびGPU適合表を確認し、どのGPUがワークロードを収容できるかを確認する。

機能

モデルプリセット – GPT-2、Llama 3.2 1B/3B、Mistral 7B、Llama 3 8B、Llama 2 13B、Mixtral 8x7B、Llama 3 70B、およびLlama 3.1 405Bの正確な隠れ次元と層数を備えたもの。
推論および訓練モード – 推論用の重み＋KVキャッシュ計算と、訓練用の重み＋勾配＋最適化状態＋活性化の完全な方程式を切り替える。
精度オプション – float32、float16/bfloat16、int8、int4を提供し、量子化の影響をモデル化する。
最適化手法の選択 – Adam/AdamW (8バイト/パラメータ)、モーメンタム付きSGD (4バイト/パラメータ)、またはシンプルなSGD (0バイト/パラメータ)。
混合精度サポート – Apex、FSDP、DeepSpeedが使用するfp32のマスター重みコピーを追加する。
勾配チェックポイント – 前向きパスのいくつかのチェックポイントに活性化を保存し、バックワードパスで残りを再計算する。これにより、層数の平方根分の活性化メモリを削減するが、各ステップあたり約1回の計算コストを追加する。
GPU適合表 – RTX 4060 Ti、RTX 4090、RTX 5090、L40S、A100、H100、H200、B200に対しての使用率を示し、必要なGPUの数を表示する。
クライアントサイドのみ – 計算はブラウザ内で実行されるため、モデルの詳細はあなたのマシンに留まる。

このツールを使用するタイミング

A100またはH100を購入する前に適切なGPUインスタンスタイプを選択する。
モデルをint4/int8に量子化して、1枚の消費者向けGPUに収まるように決定する。
サービングワークロードのコンテキスト長とバッチサイズをサイズ化し、KVキャッシュの成長を予測する。
AdamとSGD、混合精度、または勾配チェックポイントを使用したファインチューニングの実行を計画する。
非常に大きなモデルのためのテンソル並列またはモデル並列のシャーディング戦略を検証する。

 よくある質問

大規模言語モデルにおけるVRAMの意味は何ですか？

VRAMはGPUに搭載された専用メモリです。トランスフォーマーモデルを実行するには、GPUがモデル重み、推論または訓練中の活性化、および注意のためのKVキャッシュを保持する必要があります。それらの合計がVRAMを超過すると、ワークロードはエラーを起こすか、遅いメモリにスパイルし、大幅に遅くなることになります。
なぜ訓練は推論よりも多くのメモリを使用するのですか？

推論はモデル重みと現在のバッチのKVキャッシュだけが必要です。訓練はさらに勾配（パラメータの1つのコピー）、最適化状態（Adam/AdamWはモーメンタムと分散をfloat32で保存し、パラメータあたり8バイトを追加）、およびすべての層のバックワードパス用の活性化を保持します。Adamで訓練されたモデルでは、最適化状態だけがfloat32で重みの約2倍になります。
精度がメモリにどのように影響しますか？

各パラメータはfloat32では4バイト、float16/bfloat16では2バイト、int8では1バイト、int4では0.5バイトを取る。float32からfloat16に切り替えると重みメモリが半分になります。int4量子化は8倍に減らし、そのため量子化されたモデルはフル精度版が収まらない消費者向けGPUに収まるのです。
KVキャッシュとは何ですか？そしてなぜコンテキスト長とともに大きくなるのですか？

KVキャッシュは、各ステップで再計算する必要がないように、注意によって計算されたキーとバリューのテンソルを保存します。そのサイズは、バッチサイズ×シーケンス長×隠れ次元×層数、精度に応じて2（KとV）倍になります。長いコンテキストはKVキャッシュが重みと同等またはそれ以上になる可能性があります。
勾配チェックポイントはどのようなトレードオフをもたらしますか？

勾配チェックポイントは前向きパスのいくつかのチェックポイントに活性化を保存し、バックワードパスで残りを再計算します。これにより、層数の平方根分の活性化メモリを削減するが、各ステップあたり約1回の計算コストを追加する。