Калькулятор VRAM графического процессора
Гид
Калькулятор VRAM графического процессора
Оцените, сколько GPU-памяти требует трансформерная модель для инференса или обучения. Введите параметры, точность, размер батча и длину последовательности, и калькулятор вернёт общее количество VRAM вместе с расчётом по компонентам: веса, градиенты, состояние оптимизатора, кэш K-V и активации. Также будет сравнение с популярными GPU (RTX 4090, A100, H100, H200, B200), чтобы вы могли сразу увидеть, какой из них подходит.
Как использовать
- Выберите предустановленную конфигурацию (Llama 3 8B, Mistral 7B, Llama 3 70B и т.д.) или выберите пользовательскую и введите свои параметры, скрытую размерность и количество слоёв.
- Выберите инференс или обучение. Обучение показывает опции оптимизатора, mixed-precision и градиентной проверки.
- Выберите точность: float32, float16/bfloat16, int8 или int4.
- Введите размер батча и длину последовательности. Кэш K-V и активации масштабируются вместе с этими параметрами.
- Посмотрите итоги в верхней части, таблицу расчёта по компонентам и таблицу соответствия GPU, чтобы увидеть, какие GPU могут принять нагрузку.
Возможности
- Предустановленные конфигурации моделей – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B и Llama 3.1 405B с точными скрытыми размерностями и количеством слоёв.
- Режимы инференса и обучения – Переключение между вычислениями по весам и кэшу K-V и полной формулой обучения с градиентами, состоянием оптимизатора и активациями.
- Варианты точности – float32, float16/bfloat16, int8 и int4 для моделирования влияния квантования.
- Варианты оптимизатора – Adam/AdamW (8 байт/параметр), SGD с моментом (4 байта/параметр) или простой SGD (0 байт/параметр).
- Поддержка mixed-precision – Добавляет копию основных весов в fp32, используемую Apex, FSDP и DeepSpeed.
- Градиентная проверка – Применяет стандартное уменьшение на корень из количества слоёв к памяти активаций.
- Таблица соответствия GPU – Показывает использование относительно RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 и B200, а также сколько GPU нужно для выполнения нагрузки.
- Только на стороне клиента – Расчёты выполняются в браузере, поэтому детали вашей модели никогда не покидают ваш компьютер.
Когда использовать этот инструмент
- Выбор правильного типа инстанса GPU до оплаты A100 или H100.
- Решение, следует ли квантовать модель до int4/int8, чтобы она помещалась на одну карту для потребителей.
- Определение размера длины контекста и размера батча для рабочей нагрузки прогнозирования роста кэша K-V.
- Планирование запуска мелкого обучения с Adam против SGD, mixed precision или градиентной проверки.
- Проверка стратегий тензорного или моделирования параллелизма для очень больших моделей.
Часто задаваемые вопросы
-
Что такое VRAM для больших языковых моделей?
VRAM — это выделенная память на GPU. Чтобы запустить модель трансформера, GPU должен хранить веса модели, активации, используемые во время инференса или обучения, и любой кэш K-V для внимания. Если сумма этих компонентов превышает VRAM, нагрузка либо выдаёт ошибку, либо пересылается в более медленную память и значительно замедляется.
-
Почему обучение использует гораздо больше памяти, чем инференс?
Инференс требует только весов модели и кэша K-V для текущего батча. Обучение также сохраняет градиенты (один дополнительный копии параметров), состояние оптимизатора (Adam/AdamW хранит момент и дисперсию в float32, добавляя 8 байт на каждый параметр) и активации из каждого слоя для обратного прохода. Для модели, обученной с помощью Adam, состояние оптимизатора составляет примерно в два раза больше весов в float32.
-
Как точность влияет на память?
Каждый параметр занимает 4 байта в float32, 2 байта в float16/bfloat16, 1 байт в int8 и 0,5 байта в int4. Переключение с float32 на float16 уменьшает память весов вдвое. Квантование int4 сокращает память в восемь раз, что и объясняет, почему квантованные модели помещаются на карты для потребителей, которые не могут вместить версию с полной точностью.
-
Что такое кэш K-V и почему он растёт с длиной контекста?
Кэш K-V хранит тензоры ключей и значений, вычисленные вниманием, чтобы они не требовали пересчёта на каждом шаге. Его размер составляет два (K и V) умноженные на размер батча, длину последовательности, скрытую размерность и количество слоёв, в зависимости от точности кэша. Длинные контексты могут привести к тому, что кэш K-V сравняется или превзойдёт размер весов.
-
Какова компромиссная сторона градиентной проверки?
Градиентная проверка хранит активации только на нескольких контрольных точках во время прямого прохода и пересчитывает остальные во время обратного прохода. Это уменьшает память активаций примерно на корень из количества слоёв, в обмен на примерно один дополнительный проход вычислений на каждый шаг.
Установите наши расширения
Добавьте инструменты ввода-вывода в свой любимый браузер для мгновенного доступа и более быстрого поиска
恵 Табло результатов прибыло!
Табло результатов — это интересный способ следить за вашими играми, все данные хранятся в вашем браузере. Скоро появятся новые функции!
Подписаться на новости
все Новые поступления
всеОбновлять: Наш последний инструмент была добавлена 19 июня 2026 года
