Калькулятор VRAM графического процессора

ДанныеРазработчикМатематика
Реклама · УДАЛИТЬ?

Модель

Общее количество параметров модели в миллиардах (например, 7 для модели 7B).
Скрытая размерность модели (используется для активаций и кэша K-V).
Количество слоёв трансформера.

Рабочая нагрузка

Токены на последовательность (длина контекста).

Опции обучения

Оценка VRAM

Разбивка памяти

Проверка соответствия GPU

Оценки основаны на стандартных формулах трансформера (веса + кэш K-V для инференса; веса + градиенты + оптимизатор + активации для обучения). Реальная память также зависит от перегрузки фреймворка, реализации внимания (например, FlashAttention снижает активации) и параллелизма тензоров. Эти цифры являются ориентиром для планирования, а не жёстким пределом.
Реклама · УДАЛИТЬ?

Гид

Калькулятор VRAM GPU

Калькулятор VRAM графического процессора

Оцените, сколько GPU-памяти требует трансформерная модель для инференса или обучения. Введите параметры, точность, размер батча и длину последовательности, и калькулятор вернёт общее количество VRAM вместе с расчётом по компонентам: веса, градиенты, состояние оптимизатора, кэш K-V и активации. Также будет сравнение с популярными GPU (RTX 4090, A100, H100, H200, B200), чтобы вы могли сразу увидеть, какой из них подходит.

Как использовать

  1. Выберите предустановленную конфигурацию (Llama 3 8B, Mistral 7B, Llama 3 70B и т.д.) или выберите пользовательскую и введите свои параметры, скрытую размерность и количество слоёв.
  2. Выберите инференс или обучение. Обучение показывает опции оптимизатора, mixed-precision и градиентной проверки.
  3. Выберите точность: float32, float16/bfloat16, int8 или int4.
  4. Введите размер батча и длину последовательности. Кэш K-V и активации масштабируются вместе с этими параметрами.
  5. Посмотрите итоги в верхней части, таблицу расчёта по компонентам и таблицу соответствия GPU, чтобы увидеть, какие GPU могут принять нагрузку.

Возможности

  • Предустановленные конфигурации моделей – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B и Llama 3.1 405B с точными скрытыми размерностями и количеством слоёв.
  • Режимы инференса и обучения – Переключение между вычислениями по весам и кэшу K-V и полной формулой обучения с градиентами, состоянием оптимизатора и активациями.
  • Варианты точности – float32, float16/bfloat16, int8 и int4 для моделирования влияния квантования.
  • Варианты оптимизатора – Adam/AdamW (8 байт/параметр), SGD с моментом (4 байта/параметр) или простой SGD (0 байт/параметр).
  • Поддержка mixed-precision – Добавляет копию основных весов в fp32, используемую Apex, FSDP и DeepSpeed.
  • Градиентная проверка – Применяет стандартное уменьшение на корень из количества слоёв к памяти активаций.
  • Таблица соответствия GPU – Показывает использование относительно RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200 и B200, а также сколько GPU нужно для выполнения нагрузки.
  • Только на стороне клиента – Расчёты выполняются в браузере, поэтому детали вашей модели никогда не покидают ваш компьютер.

Когда использовать этот инструмент

  • Выбор правильного типа инстанса GPU до оплаты A100 или H100.
  • Решение, следует ли квантовать модель до int4/int8, чтобы она помещалась на одну карту для потребителей.
  • Определение размера длины контекста и размера батча для рабочей нагрузки прогнозирования роста кэша K-V.
  • Планирование запуска мелкого обучения с Adam против SGD, mixed precision или градиентной проверки.
  • Проверка стратегий тензорного или моделирования параллелизма для очень больших моделей.

Часто задаваемые вопросы

  1. Что такое VRAM для больших языковых моделей?

    VRAM — это выделенная память на GPU. Чтобы запустить модель трансформера, GPU должен хранить веса модели, активации, используемые во время инференса или обучения, и любой кэш K-V для внимания. Если сумма этих компонентов превышает VRAM, нагрузка либо выдаёт ошибку, либо пересылается в более медленную память и значительно замедляется.

  2. Почему обучение использует гораздо больше памяти, чем инференс?

    Инференс требует только весов модели и кэша K-V для текущего батча. Обучение также сохраняет градиенты (один дополнительный копии параметров), состояние оптимизатора (Adam/AdamW хранит момент и дисперсию в float32, добавляя 8 байт на каждый параметр) и активации из каждого слоя для обратного прохода. Для модели, обученной с помощью Adam, состояние оптимизатора составляет примерно в два раза больше весов в float32.

  3. Как точность влияет на память?

    Каждый параметр занимает 4 байта в float32, 2 байта в float16/bfloat16, 1 байт в int8 и 0,5 байта в int4. Переключение с float32 на float16 уменьшает память весов вдвое. Квантование int4 сокращает память в восемь раз, что и объясняет, почему квантованные модели помещаются на карты для потребителей, которые не могут вместить версию с полной точностью.

  4. Что такое кэш K-V и почему он растёт с длиной контекста?

    Кэш K-V хранит тензоры ключей и значений, вычисленные вниманием, чтобы они не требовали пересчёта на каждом шаге. Его размер составляет два (K и V) умноженные на размер батча, длину последовательности, скрытую размерность и количество слоёв, в зависимости от точности кэша. Длинные контексты могут привести к тому, что кэш K-V сравняется или превзойдёт размер весов.

  5. Какова компромиссная сторона градиентной проверки?

    Градиентная проверка хранит активации только на нескольких контрольных точках во время прямого прохода и пересчитывает остальные во время обратного прохода. Это уменьшает память активаций примерно на корень из количества слоёв, в обмен на примерно один дополнительный проход вычислений на каждый шаг.

Хотите убрать рекламу? Откажитесь от рекламы сегодня

Установите наши расширения

Добавьте инструменты ввода-вывода в свой любимый браузер для мгновенного доступа и более быстрого поиска

в Расширение Chrome в Расширение края в Расширение Firefox в Расширение Opera

Табло результатов прибыло!

Табло результатов — это интересный способ следить за вашими играми, все данные хранятся в вашем браузере. Скоро появятся новые функции!

Реклама · УДАЛИТЬ?
Реклама · УДАЛИТЬ?
Реклама · УДАЛИТЬ?

новости с техническими моментами

Примите участие

Помогите нам продолжать предоставлять ценные бесплатные инструменты

Купи мне кофе
Реклама · УДАЛИТЬ?