لا تحب الإعلانات؟ يذهب خالية من الإعلانات اليوم 

محاسبة وحدة الذاكرة الرسومية للجهاز (GPU VRAM)

بياناتمطورالرياضيات

إعلان · حذف؟

مدخل

عملية تلقائية

الطراز

موديل مسبق

المعلمات (B)

إجمالي معلمات النموذج بالمليارات (مثلاً 7 لنموذج 7B).

البعد المخفي

بعد النموذج المخفي (يُستخدم للنشاطات والذاكرة المُخزنة في الانتباه).

طبقات

عدد طبقات نموذج التحويل.

الحمل

الاستنتاج

التدريب

الدقة

حجم المجموعة

طول التسلسل

عدد الرموز في التسلسل (طول السياق).

خيارات التدريب

المُحسّن

Adam/AdamW يحتفظ بـ fp32 للحركة والانحراف (8 بايت/معلم). SGD مع الحركة يحتفظ بـ 4 بايت/معلم. SGD البسيط لا يحتفظ بأي شيء.

انتاج

جانب العميل

إعلان · حذف؟

مرشد

محاسبة وحدة الذاكرة الرسومية للجهاز (GPU VRAM)

تقدير كمية الذاكرة المخصصة للجهاز لتشغيل نموذج التحويل للإنتباه أو التدريب. أدخل المعلمات، الدقة، حجم المجموعة، وطول التسلسل، وستُرجع الحسابات الإجمالية للذاكرة المخصصة مع تحليل مفصل للوزن، التدرجات، حالة المُحسّن، الذاكرة المُخزنة للإنتباه، والنشاطات. كما يُقارن الناتج مع أجهزة معينة (RTX 4090، A100، H100، H200، B200) لكي ترى بسرعة أي جهاز يناسب.

كيفية استخدام

اختر مسبقًا (Llama 3 8B، Mistral 7B، Llama 3 70B، إلخ) أو اختر مخصص وادخل معلماتك الخاصة، بعد المخفي، وعدد الطبقات.
اختر الاستنتاج أو التدريب. يظهر التدريب خيارات المُحسّن، الدقة المختلطة، والتحقق من التدرجات.
اختر الدقة: float32، float16/bfloat16، int8، أو int4.
أدخل حجم المجموعة وطول التسلسل. يزداد حجم الذاكرة المُخزنة والنشاطات مع كلاهما.
اقرأ المجموعات في الأعلى، جدول التحليل لكل مكون، وجدول ملاءمة GPU لرؤية أي أجهزة تدعم الحمل.

خصائص

مُسبّقات النموذج – GPT-2، Llama 3.2 1B/3B، Mistral 7B، Llama 3 8B، Llama 2 13B، Mixtral 8x7B، Llama 3 70B، وLlama 3.1 405B مع أبعاد مخفية وعدد طبقات دقيق.
أنماط الاستنتاج والتدريب – التبديل بين الحسابات المبنية على الوزن والذاكرة المُخزنة للإنتباه والمعادلة الكاملة للتدريب مع التدرجات، حالة المُحسّن، والنشاطات.
خيارات الدقة – float32، float16/bfloat16، int8، وint4 لتمثيل تأثير التقليل.
خيارات المُحسّن – Adam/AdamW (8 بايت/معلم)، SGD مع الحركة (4 بايت/معلم)، أو SGD البسيط (0 بايت/معلم).
دعم الدقة المختلطة – يضيف نسخة رئيسية من الوزن في fp32 التي تستخدمها Apex، FSDP، وDeepSpeed.
التحقق من التدرجات – يطبق تقليلًا تقريبيًا بجذر عدد الطبقات على الذاكرة المخصصة للنشاطات.
جدول ملاءمة GPU – يُظهر الاستخدام مقابل RTX 4060 Ti، RTX 4090، RTX 5090، L40S، A100، H100، H200، وB200، بالإضافة إلى عدد الأجهزة المطلوبة لتلبية الحمل.
من جانب العميل فقط – تُجرى الحسابات في المتصفح، لذا لا تغادر معلومات النموذج من جهازك.

متى تستخدم هذه الأداة

اختيار نوع جهاز GPU المناسب قبل دفع مبلغ لـ A100 أو H100.
القرار حول تقليل النموذج إلى int4/int8 بحيث يتناسب مع بطاقة مستخدم.
تحديد طول السياق وحجم المجموعة للحمل المُقدّم لتنبؤ نمو الذاكرة المُخزنة للإنتباه.
الخطة لتشغيل تدريب مع Adam مقابل SGD، الدقة المختلطة، أو التحقق من التدرجات.
التحقق من استراتيجيات التجزئة (التقسيم بالجهاز أو النموذج) للنماذج الكبيرة جداً.

 التعليمات

ما معنى الذاكرة المخصصة للنماذج الكبيرة؟

الذاكرة المخصصة للجهاز (VRAM) هي الذاكرة المخصصة على GPU. لتشغيل نموذج التحويل، يجب أن يحتفظ GPU بالوزن، والنشاطات المستخدمة أثناء الاستنتاج أو التدريب، والذاكرة المُخزنة للإنتباه. إذا تجاوز مجموع هذه القيم الذاكرة المخصصة، فإن الحمل يُعطل أو يُنقل إلى ذاكرة بطيئة ويتأخر بشكل كبير.
لماذا يستخدم التدريب ذاكرة أكبر بكثير من الاستنتاج؟

الاستنتاج يحتاج فقط إلى الوزن والذاكرة المُخزنة للنطاق الحالي. التدريب يحتفظ أيضًا بالتدرجات (نسخة إضافية من المعلمات)، وحالة المُحسّن (يحتفظ Adam/AdamW بحركة وانحراف في float32، مما يضيف 8 بايت لكل معلم)، والنشاطات من كل طبقة للعودة. في حالة نموذج مُدرب بـ Adam، فإن الحالة المُحسّنة وحدها تبلغ تقريبًا ضعف الوزن في float32.
كيف تؤثر الدقة على الذاكرة؟

تستهلك كل معلم 4 بايت في float32، 2 بايت في float16/bfloat16، 1 بايت في int8، ونصف بايت في int4. التحول من float32 إلى float16 يقلل من ذاكرة الوزن إلى نصفها. يقلل التقليل إلى int4 بـ 8 أضعاف، وهو السبب الذي يجعل النماذج المُقلّلة تتناسب مع بطاقات المستخدمين التي لا تتمكن من تحميل النسخة الكاملة.
ما هو الذاكرة المُخزنة للإنتباه ولماذا تزداد مع طول السياق؟

تُخزن الذاكرة المُخزنة للإنتباه المُدخلات والقيم المُحسبة من خلال الإنتباه بحيث لا يُعاد حسابها في كل خطوة. حجمها هو ضعف (K وV) مضروبًا في حجم المجموعة وطول التسلسل وبعد المخفي وعدد الطبقات، بحسب الدقة التي يستخدمها الذاكرة المُخزنة. يمكن أن يصبح حجم الذاكرة المُخزنة للإنتباه مساوٍ أو أكبر من حجم الوزن.
ما هو التنازل الذي يُقدمه التحقق من التدرجات؟

يُخزن التحقق من التدرجات النشاطات فقط في بعض النقاط أثناء التقدم، ويُعاد حساب الباقي أثناء العودة. يقلل من الذاكرة المخصصة للنشاطات تقريبًا بجذر عدد الطبقات، في تبادل يُضاف حوالي خطوة إضافية من الحساب لكل خطوة.