ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين الكلام و التخلص من الضجيج باستخدام المويجات

Speech Enhancement and Denoising Using Wavelet

1355   1   107   3.0 ( 1 )
 تاريخ النشر 2015
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذا المشروع نقوم بدراسة المويجات و تحويل المويجة، و بيان إمكانية توظيفه في معالجة و تحليل الإشارة الكلامية و ذلك بهدف تحسينها و إزالة الضجيج منها، حيث سنطرح بعض الخوارزميات التي تعتمد على تحويل المويجة و آلية تطبيقها من أجل التخلص من الضجيج في الإشارة الكلامية، و نقارن نتائج تطبيق هذه الخوارزميات مع بعض الخوارزميات التقليدية التي تستخدم في تحسين الإشارة الكلامية.

المراجع المستخدمة
Stark, Henry; Woods, John W, "Probability, Random Processes, and Estimation Theory for Engineers". Prentice-Hall, Inc. ISBN 0-13-711706-X. 1986
Savita Hooda and Smriti Aggarwal,"Review of MMSE Estimator for Speech Enhancement", ijecs, Vol. 4 - Issue 5 (May - 2015)
Jonathan Le Roux, John R. Hershey , "INDIRECT MODEL-BASED SPEECH ENHANCEMENT", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Paper: SP-L3.5, March 2012 (ICASSP, TR2012-016)
قيم البحث

اقرأ أيضاً

تتابع طريقة تحسين الكلام القائم على اخفاء قناع مضاعف ينطبق على الطيفية من الكلام الفاسد من ضوضاء الإدخال، وغالبا ما تستخدم شبكة عميقة العصبية (DNN) لتعلم القناع. على وجه الخصوص، يمكن أن تكون الميزات الشائعة الاستخدام للتعرف على الكلام التلقائي بمثابة مدخلات DNN لتعلم القناع حسن التصرف الذي يقلل بشكل كبير من تشويه الضوضاء للكلمات المعالجة. تقترح هذه الدراسة إعادة معالجة ميزات خطاب المدخلات لمقنعة النسبة المثالية (IRM) - DNN بواسطة Lowpass Filtering من أجل تخفيف مكونات الضوضاء. على وجه الخصوص، فإننا نوظف تحويل المويجات المنفصلة (DWT) لتحلل تسلسل ميزة الكلام الزمنية وتوسيع نطاق معاملات التفاصيل، مما يتوافق مع الجزء المرتفع من التسلسل. تكشف التجارب الأولية التي أجراها مجموعة فرعية من تيميت كوربوس أن الطريقة المقترحة يمكن أن تجعل IRM الناتجة تحقيق جودة أعلى للكلام وضوحا للإشارات الاضافة عن الضوضاء الخليفة مقارنة مع IRM الأصلي، مما يشير إلى أن تسلسل الميزات الزمنية المرشح ل Lowpass يمكن أن يتعلم متفوقة شبكة IRM لتعزيز الكلام.
التنبّؤ بالطقس و خاصةً الأمطار، هي واحدة من المهام العملية الأكثر تحدياً و أهمية، و التي تقوم بها خدمات الأرصاد الجوية في جميع أنحاء العالم، علاوة على كونه إجراء معقد يتطلب مجالات متخصصة و متعددة من الخبرات. في هذه الورقة، أقترح نموذج الشبكات العصبي َّة (ANNs) مع تحويل المويجات كأداة للتنبؤ بالأمطار الشّهرية بشكل متتالي بالاعتماد على البيانات السابقة لهطول الأمطار (1933-2009)، المأخوذة من محطة حمص للأرصاد الجوية. حيث تم تحليل السلسلة الزمنية للأمطار إلى معاملاتها التفصيلية و التقريبية على ثلاث مستويات باستخدام تحويل المويجات المتقطع (Discrete Wavelet Transform (DWT، و استخدمت الشَّبكة العصبيَّة أمامية التغذية مع خوارزمية الانتشار العكسي في عملية التعلم و التنبّؤ. توصلت الدراسة إلى أن الشبكة العصبية WNN ذات الهيكلية (1-8-8-8-5)، قادرة على التنبؤ بالأمطار الشهرية في محطة حمص على المدى الطويل بمعامل تحديد وجذر متوسط مربعات الأخطاء (7.74mm,0.98) على الترتيب. تقدم تقنية تحويل المويجات ميزة مفيدة قائمة على تحليل البيانات، مما يحسن من أداء النموذج، و تطبق هذه التقنية في نماذج الشبكات العصبية الاصطناعية للأمطار لأنها بسيطة، كما يمكن تطبيق هذه التقنية لنماذج أخرى.
توضح هذه المذكرة إرسال NTR-TSU المهمة المشتركة SIGTYP 2021 بشأن التنبؤ معرفات اللغة من الكلام.تعد تحديد اللغة المنطوقة (غطاء) خطوة مهمة في خط أنابيب نظام التعرف الآلي متعدد اللغات (ASR).بالنسبة للعديد من اللغات المنخفضة واللغات المهددة بالانقراض، قد تكون التسجيلات المفردة المفردة فقط متاحة، مطالبة بالحاجة إلى أنظمة معرف اللغة للمجال ومكبر الصوت.في هذه المذكرة، نوضح أن الشبكة العصبية التنافسية مع طبقة تجمع ذاتي اليقظة تظهر نتائج واعدة لمهمة تحديد اللغة.
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين الفئات الاجتماعية المستهدفة، حيث يمكن أن يحتوي خطاب الكراهية على لغة نمطية محددة لكل رقاقة.هنا، لاتخاذ لغة محددة حول كل رقص في الاعتبار، نعتمد على الإنصاف المتعارض واستكمال التنبؤات فيما بينها، ولدت من خلال تغيير SGTS.تقوم طريقتنا بتقييم التشابه في احتمالية الجملة (عبر نماذج اللغة المدربة مسبقا) بين الوسائل المتعددة، لعلاج SGTS على قدم المساواة إلا في سياقات قابلة للتبديل.من خلال تطبيق اقتران Logit لتحقيق التوازن في المجموعة المحظورة من مواجهة المصنع لكل حالة، فإننا نحسن مقاييس الإنصاف مع الحفاظ على الأداء النموذجي في اكتشاف خطاب الكراهية.
تهدف هذه الورقة إلى وصف النهج الذي اعتدنا عليه اكتشاف خطاب الأمل في مجموعة بيانات Hopeiedi.جربنا مع نهجين.في النهج الأول، استخدمنا ادارة سياقية لتدريب المصنفات باستخدام الانحدار اللوجستي، والغابات العشوائية، و SVM، و LSTM.النهج الثاني المعني باستخدام فرقة التصويت للأغلبية من 11 نماذج تم الحصول عليها عن طريق نماذج محولات محول مدربة مسبقا (بيرت، ألبرت، روبرتا، Inderbert) بعد إضافة طبقة إخراج.وجدنا أن النهج الثاني كان متفوقا على اللغة الإنجليزية والتاميل والمالايالامية.حصل حلنا على درجة مرجحة F1 من 0.93 و 0.75 و 0.49 للغة الإنجليزية ومالايالامية والتاميل على التوالي.احتل محلولنا في المرتبة الأولى باللغة الإنجليزية، الثامن في ملايال و 11 في التاميل.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا