Tidak suka iklan? Pergi Bebas Iklan Hari ini 

Kalkulator VRAM GPU

DataPengembangMatematika

IKLAN · HAPUS?

MEMASUKKAN

Proses Otomatis

Model

Preset Model

Parameter (B)

Jumlah total parameter model dalam miliar (misalnya, 7 untuk model 7B).

Dimensi Tersembunyi

Dimensi tersembunyi model (digunakan untuk aktivasi dan cache KV).

Lapisan

Jumlah lapisan transformer.

Beban kerja

Inferensi

Pelatihan

Presisi

Ukuran Batch

Panjang Sekuens

Token per sekuens (panjang konteks).

Opsi Pelatihan

Optimisasi

Adam/AdamW menyimpan momentum dan varians fp32 (8 byte/parameter). SGD dengan momentum menyimpan 4 byte/parameter. SGD biasa tidak menyimpan apa-apa.

KELUARAN

Sisi klien

IKLAN · HAPUS?

Memandu

Kalkulator VRAM GPU

Estimasi berapa banyak memori GPU yang dibutuhkan oleh model transformer untuk inferensi atau pelatihan. Masukkan parameter, presisi, ukuran batch, dan panjang sekuens, lalu kalkulator akan mengembalikan total VRAM beserta pemecahan komponen seperti bobot, gradien, state optimisasi, cache KV, dan aktivasi. Selain itu, kalkulator juga membandingkan hasilnya dengan GPU umum (RTX 4090, A100, H100, H200, B200) sehingga Anda bisa melihat secara langsung mana yang sesuai.

Cara Penggunaan

Pilih preset (Llama 3 8B, Mistral 7B, Llama 3 70B, dll.) atau pilih Kustom dan masukkan parameter Anda sendiri, dimensi tersembunyi, dan jumlah lapisan.
Pilih Inferensi atau Pelatihan. Pelatihan menampilkan opsi optimisasi, presisi campuran, dan pemeriksaan gradien.
Pilih presisi: float32, float16/bfloat16, int8, atau int4.
Masukkan ukuran batch dan panjang sekuens. Cache KV dan aktivasi akan berubah sesuai keduanya.
Baca total di bagian atas, tabel pemecahan komponen, dan tabel sesuai GPU untuk melihat mana GPU yang dapat menampung beban kerja tersebut.

Fitur

Preset model – GPT-2, Llama 3.2 1B/3B, Mistral 7B, Llama 3 8B, Llama 2 13B, Mixtral 8x7B, Llama 3 70B, dan Llama 3.1 405B dengan dimensi tersembunyi dan jumlah lapisan yang akurat.
Mode inferensi dan pelatihan – Mengganti antara perhitungan bobot + cache KV dan persamaan pelatihan penuh dengan gradien, state optimisasi, dan aktivasi.
Opsi presisi – float32, float16/bfloat16, int8, dan int4 untuk memodelkan dampak kuantisasi.
Pilihan optimisasi – Adam/AdamW (8 byte/parameter), SGD dengan momentum (4 byte/parameter), atau SGD biasa (0 byte/parameter).
Dukungan presisi campuran – Menambahkan salinan bobot fp32 utama yang digunakan oleh Apex, FSDP, dan DeepSpeed.
Pemeriksaan gradien – Menerapkan pengurangan standar akar kuadrat dari jumlah lapisan untuk memori aktivasi.
Tabel sesuai GPU – Menampilkan penggunaan terhadap RTX 4060 Ti, RTX 4090, RTX 5090, L40S, A100, H100, H200, dan B200, serta berapa banyak GPU yang dibutuhkan untuk menampung beban kerja tersebut.
Hanya sisi klien – Perhitungan berjalan di browser, sehingga detail model Anda tidak pernah meninggalkan mesin Anda.

Kapan Menggunakan Alat Ini

Memilih jenis GPU instance yang tepat sebelum membayar untuk A100 atau H100.
Menentukan apakah model harus dikuantisasi ke int4/int8 agar sesuai dengan kartu konsumen tunggal.
Menentukan ukuran panjang konteks dan ukuran batch untuk beban kerja pelayanan untuk memprediksi pertumbuhan cache KV.
Mengatur jalur pelatihan dengan Adam vs SGD, presisi campuran, atau pemeriksaan gradien.
Mengonfirmasi strategi pembagian tensor atau model-paralel untuk model sangat besar.

 Tanya Jawab Umum

Apa artinya VRAM bagi model bahasa besar?

VRAM adalah memori khusus pada GPU. Untuk menjalankan model transformer, GPU harus menyimpan bobot model, aktivasi yang digunakan selama inferensi atau pelatihan, dan cache KV untuk perhatian. Jika jumlah total tersebut melebihi VRAM, beban kerja akan mengalami kesalahan atau beralih ke memori yang lebih lambat dan menjadi sangat lambat.
Mengapa pelatihan menggunakan lebih banyak memori daripada inferensi?

Inferensi hanya membutuhkan bobot model ditambah cache KV untuk batch saat ini. Pelatihan juga menyimpan gradien (salinan tambahan dari parameter), state optimisasi (Adam/AdamW menyimpan momentum dan varians dalam float32, menambahkan delapan byte per parameter), dan aktivasi dari setiap lapisan untuk proses mundur. Untuk model yang dilatih dengan Adam, state optimisasi saja sekitar dua kali bobot dalam float32.
Bagaimana presisi memengaruhi memori?

Setiap parameter membutuhkan empat byte dalam float32, dua byte dalam float16/bfloat16, satu byte dalam int8, dan setengah byte dalam int4. Mengganti dari float32 ke float16 mengurangi memori bobot menjadi setengah. Kuantisasi int4 mengurangi memori hingga delapan kali, yang merupakan alasan mengapa model kuantisasi dapat berjalan di kartu konsumen yang tidak dapat menampung versi penuh presisi.
Apa itu cache KV dan mengapa ukurannya tumbuh dengan panjang konteks?

Cache KV menyimpan tensor kunci dan nilai yang dihitung oleh perhatian sehingga tidak perlu dihitung ulang pada setiap langkah. Ukurannya adalah dua kali (K dan V) kali ukuran batch kali panjang sekuens kali dimensi tersembunyi kali jumlah lapisan, dalam presisi yang digunakan oleh cache. Konteks panjang dapat membuat cache KV menjadi seukuran atau bahkan melebihi bobot.
Apa kompromi dari pemeriksaan gradien?

Pemeriksaan gradien hanya menyimpan aktivasi pada beberapa pemeriksaan selama proses maju dan menghitung ulang sisanya selama proses mundur. Ini mengurangi memori aktivasi sekitar akar kuadrat dari jumlah lapisan, dengan biaya sekitar satu langkah perhitungan tambahan per langkah.