Реклама мешает? Идти Без рекламы Сегодня 

Калькулятор VRAM графического процессора

ДанныеРазработчикМатематика

Реклама · УДАЛИТЬ?

ВХОД

Автоматический процесс

Модель

Предустановленная модель

Параметры (B)

Общее количество параметров модели в миллиардах (например, 7 для модели 7B).

Скрытая размерность

Скрытая размерность модели (используется для активаций и кэша K-V).

Слои

Количество слоёв трансформера.

Рабочая нагрузка

Инференс

Обучение

Точность

Размер батча

Длина последовательности

Токены на последовательность (длина контекста).

Опции обучения

Оптимизатор

Adam/AdamW хранит fp32 момент и дисперсию (8 байт/параметр). SGD с моментом хранит 4 байта/параметр. Простой SGD хранит ничего.

ВЫХОД

Клиентская сторона

Реклама · УДАЛИТЬ?

Гид

Калькулятор VRAM графического процессора

Оцените, сколько GPU-памяти требует трансформерная модель для инференса или обучения. Введите параметры, точность, размер батча и длину последовательности, и калькулятор вернёт общее количество VRAM вместе с расчётом по компонентам: веса, градиенты, состояние оптимизатора, кэш K-V и активации. Также будет сравнение с популярными GPU (RTX 4090, A100, H100, H200, B200), чтобы вы могли сразу увидеть, какой из них подходит.

Как использовать

Выберите предустановленную конфигурацию (Llama 3 8B, Mistral 7B, Llama 3 70B и т.д.) или выберите пользовательскую и введите свои параметры, скрытую размерность и количество слоёв.
Выберите инференс или обучение. Обучение показывает опции оптимизатора, mixed-precision и градиентной проверки.
Выберите точность: float32, float16/bfloat16, int8 или int4.
Введите размер батча и длину последовательности. Кэш K-V и активации масштабируются вместе с этими параметрами.
Посмотрите итоги в верхней части, таблицу расчёта по компонентам и таблицу соответствия GPU, чтобы увидеть, какие GPU могут принять нагрузку.

Возможности

Предустановленные конфигурации моделей – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B и Llama 3.1 405B с точными скрытыми размерностями и количеством слоёв.
Режимы инференса и обучения – Переключение между вычислениями по весам и кэшу K-V и полной формулой обучения с градиентами, состоянием оптимизатора и активациями.
Варианты точности – float32, float16/bfloat16, int8 и int4 для моделирования влияния квантования.
Варианты оптимизатора – Adam/AdamW (8 байт/параметр), SGD с моментом (4 байта/параметр) или простой SGD (0 байт/параметр).
Поддержка mixed-precision – Добавляет копию основных весов в fp32, используемую Apex, FSDP и DeepSpeed.
Градиентная проверка – Применяет стандартное уменьшение на корень из количества слоёв к памяти активаций.
Таблица соответствия GPU – Показывает использование относительно RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 и B200, а также сколько GPU нужно для выполнения нагрузки.
Только на стороне клиента – Расчёты выполняются в браузере, поэтому детали вашей модели никогда не покидают ваш компьютер.

Когда использовать этот инструмент

Выбор правильного типа инстанса GPU до оплаты A100 или H100.
Решение, следует ли квантовать модель до int4/int8, чтобы она помещалась на одну карту для потребителей.
Определение размера длины контекста и размера батча для рабочей нагрузки прогнозирования роста кэша K-V.
Планирование запуска мелкого обучения с Adam против SGD, mixed precision или градиентной проверки.
Проверка стратегий тензорного или моделирования параллелизма для очень больших моделей.

 Часто задаваемые вопросы

Что такое VRAM для больших языковых моделей?

VRAM — это выделенная память на GPU. Чтобы запустить модель трансформера, GPU должен хранить веса модели, активации, используемые во время инференса или обучения, и любой кэш K-V для внимания. Если сумма этих компонентов превышает VRAM, нагрузка либо выдаёт ошибку, либо пересылается в более медленную память и значительно замедляется.
Почему обучение использует гораздо больше памяти, чем инференс?

Инференс требует только весов модели и кэша K-V для текущего батча. Обучение также сохраняет градиенты (один дополнительный копии параметров), состояние оптимизатора (Adam/AdamW хранит момент и дисперсию в float32, добавляя 8 байт на каждый параметр) и активации из каждого слоя для обратного прохода. Для модели, обученной с помощью Adam, состояние оптимизатора составляет примерно в два раза больше весов в float32.
Как точность влияет на память?

Каждый параметр занимает 4 байта в float32, 2 байта в float16/bfloat16, 1 байт в int8 и 0,5 байта в int4. Переключение с float32 на float16 уменьшает память весов вдвое. Квантование int4 сокращает память в восемь раз, что и объясняет, почему квантованные модели помещаются на карты для потребителей, которые не могут вместить версию с полной точностью.
Что такое кэш K-V и почему он растёт с длиной контекста?

Кэш K-V хранит тензоры ключей и значений, вычисленные вниманием, чтобы они не требовали пересчёта на каждом шаге. Его размер составляет два (K и V) умноженные на размер батча, длину последовательности, скрытую размерность и количество слоёв, в зависимости от точности кэша. Длинные контексты могут привести к тому, что кэш K-V сравняется или превзойдёт размер весов.
Какова компромиссная сторона градиентной проверки?

Градиентная проверка хранит активации только на нескольких контрольных точках во время прямого прохода и пересчитывает остальные во время обратного прохода. Это уменьшает память активаций примерно на корень из количества слоёв, в обмен на примерно один дополнительный проход вычислений на каждый шаг.