لا تحب الإعلانات؟ يذهب خالية من الإعلانات اليوم 

الترجمة من الكلام إلى نص

مطورنص

إعلان · حذف؟

مدخل

انتاج

جانب العميل

إعلان · حذف؟

مرشد

الترجمة من الكلام إلى نص

قم بنسخ الكلام إلى نص في الوقت الفعلي باستخدام واجهة برمجة تطبيقات الكلام على الويب المدمجة في متصفحك. لا يتم إرسال أي بيانات صوتية إلى أي خادم، مما يجعل هذه أداة التعرف على الكلام خاصة ومجانية وتعمل مباشرة في متصفحك.

كيفية استخدام

حدد لغتك من القائمة المنسدلة، ثم انقر على زر "بدء الاستماع". امنح أذونات الميكروفون عند مطالبة متصفحك بذلك. تحدث بوضوح في الميكروفون الخاص بك وشاهد كلامك يُنسخ في الوقت الفعلي. انقر على "إيقاف الاستماع" عند الانتهاء، ثم انسخ أو قم بتنزيل النص المنسوخ.

خصائص

دعم 13 لغة – الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، اليابانية، الكورية، الصينية، العربية، الهندية، الفيتنامية، والمزيد
النسخ في الوقت الفعلي – شاهد الكلمات تظهر أثناء التحدث مع عرض النتائج المؤقتة على الفور
الوضع المستمر – استمر في الاستماع حتى توقف يدويًا، مثالي لجلسات الإملاء الطويلة
خصوصية تامة – تتم جميع المعالجات محليًا في متصفحك باستخدام واجهة برمجة تطبيقات الكلام على الويب، ولا يتم تحميل أي بيانات صوتية
نسخ وتنزيل – يسهل نسخ النص المنسوخ إلى الحافظة أو تنزيله كملف نصي

إعلان · حذف؟

 التعليمات

ما هي واجهة برمجة تطبيقات الكلام على الويب (Web Speech API)؟

واجهة برمجة تطبيقات الكلام على الويب هي واجهة أصلية للمتصفح توفر إمكانيات التعرف على الكلام وتوليف الكلام. تسمح لتطبيقات الويب بتحويل اللغة المنطوقة إلى نص دون الحاجة إلى خدمات خارجية أو إضافات. يتم تنفيذ واجهة برمجة التطبيقات مباشرة في محرك المتصفح، حيث يستخدم كروم وإيدج خوادم التعرف على الكلام من جوجل، ويستخدم سفاري التعرف على الكلام من سيري من آبل.
كيف يعمل التعرف التلقائي على الكلام (ASR)؟

يقوم التعرف التلقائي على الكلام بتحويل الصوت المنطوق إلى نص من خلال عدة مراحل. أولاً، تتم معالجة الإشارة الصوتية وتقسيمها إلى إطارات صغيرة. تقوم النماذج الصوتية، وهي عادةً شبكات عصبية عميقة، بتحليل هذه الإطارات لتحديد الأصوات (وحدات الصوت الأساسية). ثم تحدد نماذج اللغة التسلسل الأكثر احتمالاً للكلمات بناءً على الأصوات والاحتمالية الإحصائية لتوليفات الكلمات في اللغة المستهدفة.
ما هي العوامل التي تؤثر على دقة التعرف على الكلام؟

تعتمد دقة التعرف على الكلام على عدة عوامل بما في ذلك مستويات الضوضاء الخلفية، وجودة الميكروفون، ووضوح وسرعة التحدث، واللهجة، وتعقيد المفردات المستخدمة. تلعب العوامل التقنية مثل معدل أخذ عينات الصوت، ونسبة الإشارة إلى الضوضاء، وحجم بيانات تدريب نموذج اللغة أيضًا أدوارًا مهمة في جودة التعرف.
ما الفرق بين التعرف على الكلام ومعالجة اللغة الطبيعية؟

يركز التعرف على الكلام (ASR) تحديدًا على تحويل إشارات الصوت المنطوقة إلى نص مكتوب. أما معالجة اللغة الطبيعية (NLP) فهي مجال أوسع يتعامل مع فهم اللغة البشرية وتفسيرها وتوليدها في شكل نصي. يتولى ASR عملية التحويل من الصوت إلى النص، بينما تعالج NLP النص الناتج لمهام مثل تحليل المشاعر والترجمة والتلخيص وتصنيف النوايا.