لا تحب الإعلانات؟ يذهب خالية من الإعلانات اليوم 

مُقدر عدد توكنات نموذج التعلم الآلي

بياناتمطورنص

إعلان · حذف؟

مدخل

عملية تلقائية

انتاج

جانب العميل

إعلان · حذف؟

مرشد

مُقدّم تقدير الرموز لنموذج اللغة الكبيرة

مُقدر عدد توكنات نموذج التعلم الآلي

لصق أي نص، أو مستند، أو قطعة من الكود وانظر فورًا تقدير عدد الرموز لـ GPT-4o، GPT-4 Turbo، GPT-3.5، نماذج التفكير o1، Claude 3.x، وGemini 1.5. يعمل الأداة بالكامل في المتصفح، وتُحدّث في الوقت الحقيقي أثناء الكتابة، وتُزود بالقيم المقابلة لتكلفة الرموز لكل مليون رمز وشريط متحرك للسياق، بحيث يمكنك معرفة بسرعة مدى اقترابك من الحد الأقصى للنموذج.

كيفية استخدام

لصق أو اكتب نصك في منطقة الإدخال. تُعالج الأداة كل تغيير فورًا دون الحاجة إلى الضغط على زر.
اختر نموذج الهدف من القائمة المنسدلة. يتم اختيار GPT-4o بشكل افتراضي.
أضف عددًا متوقعًا من الرموز المُخرج لكي يُستخدم في تقدير التكلفة، وليس فقط التكلفة المُدخلة.
اقرأ تقدير الرموز، نسبة الأحرف لكل رمز، وشريط استخدام السياق للحصول على فكرة عن حجم النص قبل إرساله.
قارن التكلفة المدخلة، المُخرج، والتكلفة الإجمالية عبر كل النماذج المدعومة في الجدول السعر.
استعرض مخطط الرموز للحصول على فكرة عن أين تقع الحدود التقريبية للرموز. تُظهر الأجزاء المتجاورة ألوانًا مختلفة بحيث يكون كل وحدة مرئيًا بشكل منفصل.

خصائص

النماذج الـ 12 بجانب بعضها – يتم مقارنة GPT-4o، GPT-4o mini، GPT-4 Turbo، GPT-4، GPT-3.5 Turbo، o1، o1-mini، Claude 3.5 Sonnet، Claude 3 Opus، Claude 3 Haiku، Gemini 1.5 Pro، وGemini 1.5 Flash في جدول واحد.
شريط استخدام نافذة السياق – يُظهر عدد الرموز الخاص بك كنسبة مئوية من حجم النافذة المختار، مع ألوان تحذير وخط خطر عند تجاوز 70% و90%.
تقدير التكلفة مع رموز الإخراج – تُطبّق أسعار كل مليون رمز للإدخال والإخراج على حجم الإدخال الفعلي بالإضافة إلى طول الإجابة المتوقع الذي يمكن تعيينه.
إظهار الرموز – تُظهر الأجزاء المتناوبة أين تقع الحدود التقريبية للرموز، مع تثبيت المسافات البيضاء في البداية على الجزء التالي واحتفاظ العلامات النحوية كوحدة منفصلة.
مربع الإحصائيات الحيّة – عدد الرموز المُقدّم، عدد الكلمات، عدد الأحرف، عدد الأحرف بدون فراغات، عدد الرموز لكل كلمة، وعدد الأحرف لكل رمز.
يُشغل بالكامل في المتصفح – لا يتم رفع أي شيء. يبقى نصك على جهازك.
مبدأ ذكي للكود – عندما يبدو النص ككود، يُخفض النسبة التقديرية ليعكس أن التجزئة في الكود أكثر من النصوص العادية.

 التعليمات

ما هو الرمز في نموذج اللغة الكبير؟

الرمز هو الوحدة الأساسية التي يقرأها وينتجها النموذج. يتم إنتاج الرموز من خلال ترميز الأزواج (BPE) أو مُجمّعات مشابهة، والتي تتعلم التسلسلات الأكثر تكرارًا في البيانات التدريبية وتخزنها كمفردات مشتركة. يمكن أن يكون رمز واحد كلمة كاملة، أو مقدمة شائعة أو خاتمة، أو جزء من كلمة نادرة، أو رمز واحد، أو علامة نحوية. بالنسبة للنص الإنجليزي، يبلغ متوسط عدد الرموز حوالي أربعة أحرف أو حوالي ثلاثة أرباع الكلمة. يُنتج الكود، والروابط، والـ JSON، والنصوص غير اللاتينية أكثر رموزًا لكل حرف لأن تسلسلات الأحرف غير شائعة في مفردات الترميز.
لماذا تُظهر النماذج المختلفة أرقام رموز مختلفة للنص نفسه؟

يُدرب كل عائلة نموذج باستخدام مُجمّع ومتغيرات مختلفة. يستخدم نماذج GPT-3.5 وGPT-4 من OpenAI الترميز cl100k_base، بينما يستخدم GPT-4o وسلسلة o1 الترميز الجديد o200k_base. يستخدم نماذج Claude من Anthropic مُجمّع خاص، ويستخدم نماذج Gemini من Google مُجمّع SentencePiece. لأن المفردات تختلف، يمكن أن يُحول نفس الجملة إلى أرقام رموز مختلفة على النماذج المختلفة، وغالبًا ما تكون الفرق بين 10 إلى 20٪ للنص الإنجليزي، ولكن تختلف أكثر في الكود أو النصوص غير الإنجليزية.
ما هو نافذة السياق ولماذا تهم؟

نافذة السياق هي الحد الأقصى لعدد الرموز التي يمكن للنموذج قراءتها وإنتاجها في طلب واحد. تشمل هذه الرموز السياق النظامي، النص المدخل، التاريخ الكامل للحوار، والإجابة. عند تجاوز النافذة، يتم حذف السياق القديم، مما قد يؤدي إلى فقدان التعليمات أو الحقائق التي يحتاجها النموذج. تتيح نافذة كبيرة مساحة لمستندات طويلة ومحادثات طويلة، لكن التأخير والتكلفة تزداد مع عدد الرموز المُعالجة، لذا حتى مع نافذة بحجم مليون رمز، يكون من الأفضل عادةً الحفاظ على النصوص المدخلة قصيرة من حيث التكلفة والسرعة.
كيف يتم حساب تسعير واجهات برمجة نماذج اللغة الكبيرة عادةً؟

يُحسب معظم المزودين تسعير الرموز المدخلة والمرسلة بشكل منفصل ويُعرض السعر لكل مليون رمز. تشمل الرموز المدخلة كل ما ترسله إلى النموذج، بما في ذلك السياق النظامي والسجلات التاريخية. تشمل الرموز المُخرج كل ما يُنتجها النموذج. يكون تسعير الإخراج دائمًا أكثر من تسعير المدخلات لأن إنتاج النصوص يتطلب موارد حاسوبية أكبر. يُقدّم بعض المزودين خصمًا على الرموز المُدخلة المُكررة أو المُستخدمة مسبقًا. لتقدير التكلفة الإجمالية لطلب، اضرب عدد الرموز المدخلة في سعر المدخل، وعدد الرموز المُتوقع للإخراج في سعر الإخراج، ثم قسّم كل منهما على مليون، ثم أضف النتائج معًا.
لماذا يكون عدد الرموز تقديرًا فقط بدلًا من العدد الدقيق للـ tiktoken؟

يحتاج إنتاج عدد دقيق للرموز إلى نقل مفردات الترميز الكامل إلى المتصفح، والذي يمكن أن يصل إلى عدة ميغابايت من الأوزان لكل ترميز. يستخدم هذا الأداة مبدأ تقريبي للعدد المُعتمد لكل عائلة نموذج، والذي يعطي عددًا ضمن حدود بسيطة من النسبة الحقيقية للـ tiktoken أو SentencePiece للنص الإنجليزي العادي، وهو كافٍ لتقدير التكلفة وتنظيم السياق. إذا كنت بحاجة إلى العدد الدقيق للإبلاغ، فقم بتشغيل مُجمّع المزود الرسمي على نصك النهائي قبل إرساله.