ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، نظهر أن الأسئلة والأجوبة التي تم إنشاؤها تلقائيا يمكن استخدامها لتقييم جودة أنظمة الترجمة الآلية (MT).بناء على العمل الحديث على تقييم تلخيص نص مبيعات، نقترح مقياس جديد لتقييم MT على مستوى النظام، ومقارنته بالحلول الأخرى الأخرى، وإظهار متانة لها من خلال إجراء تجارب لمختلف اتجاهات MT.
تصف هذه الورقة التقديم إلى المهمة المشتركة لترجمة الأخبار WMT 2021 بواسطة مجموعة الترجمة الآلية في UPC.الهدف من المهمة هو ترجمة الألمانية إلى الفرنسية (DE-FR) والفرنسية إلى الألمانية (FR-DE).يركز تقديمنا على ضبط نموذج مدرب مسبقا للاستفادة من بيانات أ حادية الأجل.نحن نغلق mbart50 باستخدام البيانات المصفاة، بالإضافة إلى ذلك، ندرب نموذج محول على نفس البيانات من الصفر.في التجارب، نظهر أن نتائج MBART50 الناشجة في 31.69 بلو ل DE-FR و 23.63 بلو FR-DE، مما يزيد من 2.71 و 1.90 بلو وفقا لذلك، مقارنة بالنموذج الذي نتدرب من الصفر.إن تقديمنا النهائي هو فرقة لهذين النموذجين، مما يزيد من 0.3 بلو ل FR-DE.
توفر أنظمة ترجمة الآلات الحالية (MT) نتائج جيدة للغاية على مجموعة متنوعة متنوعة من أزواج اللغات ومجموعات البيانات. ومع ذلك، من المعروف أن إنتاج مخرجات ترجمة بطلاقة يمكن أن تحتوي على أخطاء ذات معنى مهم، وبالتالي تقويض موثوقيتها في الممارسة العملية. تق دير الجودة (QE) هي مهمة تقييم أداء MT تلقائيا في وقت الاختبار. وبالتالي، من أجل أن تكون مفيدة، يجب أن تكون أنظمة QE قادرا على اكتشاف هذه الأخطاء. ومع ذلك، لم يتم بعد اختبار هذه القدرة في ممارسات التقييم الحالية، حيث يتم تقييم أنظمة QE فقط من حيث ارتباطها بالأحكام البشرية. في هذا العمل، نسرج هذه الفجوة من خلال اقتراح منهجية عامة لاختبار الخصم من QE ل MT. أولا، نظرا لأنه على الرغم من الارتباط العالي بالأحكام البشرية التي حققتها سوتا الأخيرة، لا تزال أنواع معينة من الأخطاء المعنية مشكلة في الكشف عن QE. ثانيا، نظهر أنه في المتوسط، فإن قدرة نموذج معين على التمييز بين الاضطرابات المعنية التي تحافظ مع المعنى وتغيير المعنى هي التنبؤ بأدائها العام، وبالتالي يحتمل أن يسمح بمقارنة أنظمة QE دون الاعتماد على تشريح الجودة اليدوية.
نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغي رة 1 (لغات أوروبا الوسطى / الجنوبية الشرقية)، (2) المهمة الصغيرة 2 (لغات جنوب شرق آسيا)، و (3) مهمة كاملة (كل 101 × 100 زوج أزواج).استخدمت جميع المهام DataSet Flores-101 كمعيار التقييم.لضمان طول العمر من مجموعة البيانات، لم يتم إصدار مجموعات الاختبار علنا وتم تقييم النماذج في بيئة خاضعة للرقابة على Dynabench.كان هناك ما مجموعه 10 فرق مشاركة للمهام، بما مجموعه 151 من العروض النموذجية المتوسطة و 13 نماذج نهائية.تظهر نتائج هذا العام تحسنا كبيرا على خطوط الأساس المعروفة مع +17.8 بلو ل Task-Task2، +10.6 للمهمة الكاملة و +3.6 للمهمة الصغيرة 1.
تم اقتراح العديد من المقاييس العصبية مقرا لها مؤخرا لتقييم جودة الترجمة الآلية. ومع ذلك، فإن كل منهم يلجأون إلى تقديرات نقطة، والتي توفر معلومات محدودة في مستوى القطاع. وهذا ما هو أسوأ لأنهم مدربون على الأحكام البشرية الصاخبة والتحازة والصحيحة، وغالب ا ما يؤدي إلى تنبؤات عالية الجودة. في هذه الورقة، نقدم تقييم MT على دراية عدم اليقين وتحليل الجدارة بالثقة للجودة المتوقعة. نحن نجمع بين إطار المذنب مع أساليب تقدير عدم اليقين، مونتي كارلو التسرب والكميمات العميقة، للحصول على درجات عالية الجودة إلى جانب فترات الثقة. نحن نقارن أداء أساليب تقييم MT على دراية بعملية عدم اليقين عبر أزواج متعددة اللغات من مجموعة بيانات QT21 ومهمة مقاييس WMT20، المعزز بالشروح MQM. نقوم بتجربة أعداد متفاوتة من المراجع وأكثر مناقشة فائدة تقدير الجودة على علم عدم اليقين (بدون مراجع) لإعلام أخطاء الترجمة الهامة المحتملة.
نحن نصف أنظمة الترجمة الآلية العصبية لدينا المهمة المشتركة 2021 على MT غير الخاضعة للإشراف على الموارد الخلفية والمنخفضة للغاية، والترجمة بين السوربيين العليا والألمانية (الموارد المنخفضة) وبين السوربيان السفلي والألمانية (غير المعدل).أنظمة أدرجت تصف ية البيانات، والخلفية، والانسقاط BPE، والكثير، ونقل التعلم من لغات عالية (إيه) -ReSource.كما تقاس بواسطة مقاييس أوتوماتيكية، أظهرت أنظمتنا أداءا قويا، ووضعها باستمرار أولا أو مرتبط لأول مرة عبر معظم مؤشرات المقاييس والترجمة.
غالبا ما يتم الحصول على بيانات التدريب للترجمة الآلية (MT) من العديد من الشركات الكبيرة التي هي متعددة الأوجه في الطبيعة، على سبيل المثالتحتوي على محتويات من مجالات متعددة أو مستويات مختلفة من الجودة أو التعقيد.بطبيعة الحال، لا تحدث هذه الجوانب بتردد متساو ولا هي نفسها نفسها بنفس القدر لسيناريو الاختبار في متناول اليد.في هذا العمل، نقترح تحسين هذا التوازن بشكل مشترك مع معلمات نموذج MT لتخفيف مطوري النظام من تصميم الجدول اليدوي.يتم تدريب عصري متعدد المسلح على الاختيار ديناميكيا بين الجوانب بطريقة مفيدة لنظام MT.نقيمها على ثلاثة تطبيقات مختلفة متعددة الأوجه: موازنة البيانات النسبية والبيانات التدريبية الطبيعية، أو البيانات من مجالات متعددة أو أزواج متعددة اللغات.نجد أن تعلم الفرعيد يؤدي إلى أنظمة MT تنافسية عبر المهام، ويقدم تحليلنا رؤى في استراتيجياته المستفادة ومجموعات البيانات الأساسية.
تحسنت أداء أنظمة NMT بشكل كبير في السنوات القليلة الماضية ولكن ترجمة الكلمات متعددة الإحساس لا تزال تشكل تحديا. نظرا لأن حواس الكلمات ليست ممثلة بشكل موحد في الشركة الموازية المستخدمة للتدريب، فهناك استخدام مفرط من المعنى الأكثر شيوعا في إخراج MT. في هذا العمل، نقترح CMBT (الترجمة ذات الاحتياط بالسياقة)، ​​وهو نهج لتحسين ترجمة كلمة متعددة الشعور بالاستفادة من تمثيل الكلمات السياقية المتبادلة المدربة مسبقا (CCWRS). بسبب حساسية السياق الخاصة بهم وبياناتها السابقة للتدريب الكبيرة، يمكن ل CCWRS الوصول بسهولة إلى حواس الكلمات المفقودة أو نادرة جدا في ولاية فورانيا المستخدمة لتدريب MT. على وجه التحديد، تطبق CMBT تحريض معجم ثنائي اللغة على CCWRS الجمل المستهدفة ذات المحور المنطقي من مجموعة بيانات أحادية الأحادية، ثم يترجم هذه الجمل لإنشاء كورب موازية زائفة كبيانات تدريبية إضافية لنظام MT. نحن نختبر جودة الترجمة من الكلمات الغامضة على جناح اختبار المخاط المخاطي، والتي تم بناؤها لاختبار فعالية حذف كلمة معنى الكلمة لأنظمة MT. نظهر أن نظامنا يتحسن على ترجمة حواس كلمة متعددة الترددات الصعبة والثانية.
اكتسبت الترجمة الآلية المتزامنة الجر مؤخرا، بفضل تحسينات الجودة المهمة ومختام تطبيقات البث.تحتاج أنظمة الترجمة المتزامنة إلى إيجاد مفاضلة بين جودة الترجمة ووقت الاستجابة، وبالتالي تم اقتراح تدابير الكمون المتعددة.ومع ذلك، يتم تقدير تقييمات الكمون للت رجمة الفورية على مستوى الجملة، ولا تأخذ في الاعتبار الطبيعة المتسلسلة لسيناريو البث.في الواقع، هذه تدابير الكمون على مستوى الجملة ليست مناسبة تماما للترجمة المستمرة، مما أدى إلى وجود أرقام غير متماسكة مع سياسة الترجمة المتزامنة للنظام التي يتم تقييمها.يقترح هذا العمل تكيف مستوى دفق من تدابير الكمون الحالية بناء على نهج إعادة تجزئة مطبق على ترجمة الناتج، والتي يتم تقييمها بنجاح على شروط البث لمهمة الإشارة IWSLT.
شاركنا في جميع المسارات لمهمة الترجمة الآلية ل WMT 2021: وحدة المعالجة المركزية ذات CPU أحادية النواة، وحدة المعالجة المركزية متعددة النواة، وأجهزة GPU مع شروط الإنتاجية والكمولية.تجمع تقاريرنا العديد من استراتيجيات الكفاءة: تقطير المعرفة، وحدة فك تر ميز وحدة بسيطة متكررة بسيطة (SSRU) مع طبقتين أو طبقتين، بقلين من المعجمين، وتنسيقات عدودية أصغر، وتقليم.بالنسبة لمسار وحدة المعالجة المركزية، استخدمنا طرازات 8 بت كمية.بالنسبة لمسار GPU، جربنا أعداد صحيحة FP16 و 8 بت في عشرات الموانئ.بعض عمليات التقديمات لدينا تحسين الحجم عبر سجل سجل 4 بت وحذف قائمة مختصرة معجمية.لقد مددنا تشذيم أكبر أجزاء من الشبكة، مع التركيز على تشذيب المكونات ومستوى الحظر الذي يحسن في الواقع السرعة على عكس تقليم المعامل الحكيم.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا