ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج "كبسترالي" للجهاز الصوتي لتركيب الصوت من النص المكتوب

Cepstral Vocal Tract Modelling for Text-To-Speech Synthesis

1140   0   8   0 ( 0 )
 تاريخ النشر 2012
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعرض و يوصفُ في هذا البحث نموذج كبسترالي للجهاز الصوتي، يقوم النموذج موضوع البحث بنمذجة كل من "المتناغمات الصوتية" و"أضداد المتناغمات الصوتية" . بهذه الطريقة نحصل على نموذج أدق من نموذج التنبؤ الخطي الذي يقوم فقط بنمذجة "المتناغمات الصوتية" للجهاز الصوتي. من أجل التحويل العكسي اِستُخدِم التابع الأسي، و لما كان من الصعب تنفيذ هذا التابع بواسطة معدل إشارة رقمي. فقد اِستُخدِمت طريقة النشر إلى كسور متتابعة من أجل تقريب التابع الاسي و جعل تنفيذه ممكناً على المعالج الرقمي. نُفِّذ تابع النقل الذي استخدم لتمثيل التابع الأسي باستخدام مرشح رقمي من النوع IIR بحيث يتضمن هذا المرشح في فروعه مرشحات رقمية من النوع FIR. معاملات مرشحات FIR كانت ببساطة معاملات حقيقية لكبستروم الكلام. و اِفْتُرِضت معادلات فرقية في فراغ الحالة و تطبيقها على معالج إشارة رقمي من شركة موتورولا ذي فاصلة ثابتة. في النهاية قُيمت نتائج تنفيذ النموذج على معالج إشارة رقمي؛ و ذلك لحروف مختارة، صوتية و لاصوتية.

المراجع المستخدمة
VÍCH,R., SMÉKAL,Z. All-Pole and Zero- Pole Speech Modelling (Invited Paper). In Proceedings of the International Conference „BIOSIGNÁL ‘98“. June 23-25, 1998, Brno, Czech Republic, pp.196-199. ISBN 80-214- 1169-4
VÍCH,R. PŘIBIL,J. SMÉKAL,Z,: New Cepstral Zero-Pole Vocal Tract Models for TTS. In Proceedings of the International Conference EUROCON '2001, July 7-9, 2001, Bratislava, Slovakia, pp.459-462
(KHOWANSKYI, A.N.: Application of Continued Fractions and Their Generalizations in Numerical Analysis. State Publishing House for Engineering and Theoretical Literature. Moscow 1956. (In Russian
قيم البحث

اقرأ أيضاً

تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعي ة و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية. سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية. اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د مج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.
نقدم في هذا البحث مركب كلام للغة العربية ذا جودة عالية، باستعمال طريقة الضم لأنصاف المقاطع الصوتية. يتألف العمل من سبع مراحل أساسية: بناء القاموس الصوتي لأنصاف المقاطع الصوتية، بناء مكون معالجة اللغة الطبيعية الذي يتكون من وحدة المعالجة المسبقة للن ص واستعمال نظام خبير لتحويل النص المشكول إلى مقابله الصوتي، بناء نظام خبير يعتمد على القواعد لتقطيع سلسلة الصوتيمات لكل من الكلمات و العبارات في الجمل إلى مقاطعها الصوتية و إسناد واصفات كل مقطع وفق خوارزمية خاصة باللغة العربية، دراسة تحليلية صوتية للنبر في الحديث المتواصل لاستخراج أثر المقاطع المنبورة على موسطات التنغيم على مستوى الكلمات و العبارات.
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا