النماذج اللغوية الكبيرة "المضبوطة للتعليمات" (التي تم ضبطها للاستجابة للتعليمات) قد أظهرت قدرة ملحوظة على التعميم بدون أي تدريب في مهام جديدة. ومع ذلك، فإنها تعتمد بشدة على بيانات التعليمات المكتوبة بواسطة الإنسان والتي تكون محدودة في الكمية والتنوع
والإبداع، مما يعيق عملية التعميم للنموذج المضبوط. نقدم "Self-Instruct"، وهو إطار عمل لتحسين قدرات اتباع التعليمات لنماذج اللغة المدربة مسبقًا عن طريق الاستفادة من توليداتها الخاصة. يقوم خط أنابيبنا بتوليد عينات من التعليمات والإدخال والإخراج من نموذج اللغة، ثم يقوم بتقليصها قبل استخدامها لضبط النموذج الأصلي. باستخدام طريقتنا على GPT3 الأساسية، نظهر تحسينًا مطلقًا بنسبة 33٪ على نموذج Super-NaturalInstructions الأصلي، وهو متوافق مع أداء InstructGPT_001، والذي يتم تدريبه باستخدام بيانات مستخدم خاصة وتعليمات بشرية. لتقييم أعمق، نحن نضع مجموعة من التعليمات المكتوبة من قبل خبراء للمهام الجديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام Self-Instruct يفوق استخدام مجموعات بيانات التعليمات العامة الموجودة حاليًا بفارق كبير، ولا يترك سوى فجوة بنسبة 5٪ خلف InstructGPT_001. يوفر Self-Instruct طريقة تقريبًا خالية من التعليقات لمزامنة نماذج اللغة المدربة مسبقًا مع التعليمات، ونحن نطلق مجموعة بيانات اصطناعية كبيرة لتسهيل الدراسات المستقبلية حول ضبط التعليمات.
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO
D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م
ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج
على تعلم العلاقات عبر الوثائق.ثانيا، نحسن أكثر من المحولات الطويلة المدى حديثا عن طريق إدخال اهتمام عالمي ديناميكي يتمكن من الوصول إلى الإدخال بأكمله للتنبؤ بالرموز الملثم.نقوم بإصدار CDLM (نموذج اللغة عبر المستندات)، وهو نموذج لغة عام جديد لإعداد متعدد الوثائق يمكن تطبيقه بسهولة على مهام المصب.يوضح تحليلنا الواسع أن كلا الأفكار ضرورية لنجاح CDLM، والعمل في تآزر لتعيين نتائج جديدة من الفنون الجديدة لعدة مهام متعددة النص.
لا يزال التبديل (CS)، ظاهرة في كل مكان بسبب سهولة الاتصالات التي تقدمها في المجتمعات متعددة اللغات لا تزال مشكلة متفائلة في معالجة اللغة. الأسباب الرئيسية وراء ذلك هي: (1) الحد الأدنى من الجهود في الاستفادة من نماذج متعددة اللغات متعددة اللغات الكبير
ة، و (2) عدم وجود بيانات مشروح. حالة التمييز بين الأداء المنخفض للنماذج متعددة اللغات في CS هي خلط اللغات داخل الجملة التي تؤدي إلى تبديل النقاط. نقوم أولا بقياس مهام وضع العلامات على التسلسل - POS و NER على 4 أزواج لغة مختلفة مع مجموعة من النماذج المحددة مسبقا لتحديد المشكلات وتحديد أفضل نموذج أداء شار Bert فيما بينها (معالجة (1)). ثم نقترح طريقة تدريب ذاتية لإعادة توجيه النماذج المحددة مسبقا باستخدام تحيز نقطة التبديل عن طريق الاستفادة من البيانات غير الموحدة (معالجة (2)). نوضح أخيرا أن نهجنا ينفذ جيدا على كلا المهام عن طريق تقليل الفجوة بين أداء نقطة التبديل مع الاحتفاظ بالأداء العام على أزواج لغتين متميزة في كلتا المهامتين. نحن نخطط لإطلاق سراح نماذجنا والرمز لجميع تجاربنا.
تقدم هذه الورقة ترميز تصحيح ذاتي (SECOCO)، وهو إطار يتعامل بشكل فعال مع المدخلات الصاخبة للترجمة الآلية العصبية القوية عن طريق إدخال تنبؤ تصحيح ذاتي.تختلف عن الأساليب القوية السابقة، تمكن SECOCO NMT من تصحيح المدخلات الصاخبة بشكل صريح وحذف أخطاء محدد
ة في وقت واحد مع عملية فك تشفير الترجمة.SECOCO قادرة على تحقيق تحسينات كبيرة على خطوط أساس قوية على مجموعتين لاختبار العالم الحقيقي ومجموعة بيانات معيار WMT مع إمكانية الترجمة الترجمة جيدة.سنجعل كودنا ومجموعات البيانات متاحة للجمهور قريبا.
نحن نقدم SelfExPlain، وهو نموذج جديد يشرح ذاتيا يفسر تنبؤات تصنيف النص باستخدام المفاهيم القائمة على العبارة.SelfExplain تزويد الأقراص العصبية الموجودة من خلال إضافة (1) طبقة مخصصة عالمية تحدد المفاهيم الأكثر نفوذا في مجموعة التدريب لعينة معينة و (2)
طبقة قابلة للتفسير محليا تهدئ مساهمة كل مفهوم إدخال محلي عن طريق الحوسبة درجة الأهميةبالنسبة إلى التسمية المتوقعة.تظهر التجارب عبر خمسة مجموعات بيانات تصنيف نصية أن SelfExPlain يسهل الترجمة الشفوية دون التضحية بالأداء.الأهم من ذلك، تفسيرات من إظهار نفس إظهار الكفاية عن التنبؤات النموذجية وترى أنها كافية وجديرة بالثقة ومفهومة من قبل القضاة البشرية مقارنة مع خطوط الأساس المستخدمة على نطاق واسع.
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول
عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
يجذب اهتمام الذات متعدد الرأس مؤخرا اهتماما هائلا بسبب وظائفه المتخصصة، والحساب المتوازي الهامة، والقابلية للتمويل المرن. ومع ذلك، تظهر الدراسات التجريبية الحديثة للغاية أن بعض رؤساء الانتباه الذاتي يكسبون مساهمة ضئيلة ويمكن تقليم رؤوس زائدة عن الحاج
ة. يأخذ هذا العمل منظورا جديدا لتحديد رؤساء الرؤوس الزائدة ثم الاكتتاب. نقترحنا طريقة توسيع الرأس الحيلية (RHE) لتحديد الرؤوس الزائدة، ثم تكمن إمكاناتها من خلال تعلم العلاقات النحوية والمعرفة السابقة في النص دون التضحية بأدوار رؤساء هامة. آليات اهتمام بناء على بناء الجملة رواية (البحر) الجديد: يتم تقديم تحيز قناع التبعية وتحيز من وضع الجمل المحلي النسبي، لمراجعة توزيعات الانتباه الذاتي لتحسين النحوي في الترجمة الآلية. يتم تقييم أهمية الرؤساء الفردية ديناميكيا أثناء تحديد الرؤوس الزائدة، حيث نطبقنا البحر على تنقل رؤوسا زائدة عن الحاجة مع الحفاظ على قوة الرؤوس المهمة. النتائج التجريبية على تبنيها على نطاق واسع WMT14 و WMT16 الإنجليزية إلى الألمانية والإنجليزية إلى اللغة التشيكية ترجمة آلة اللغة التشيكية تحقق من فعالية RHE.
في التعلم الخاضع للإشراف، يجب أن يكون نموذج مدرب جيدا قادرا على استعادة الحقيقة الأرضية بدقة، أي التسميات المتوقعة من المتوقع أن تشبه تسميات الحقيقة الأرضية قدر الإمكان.مستوحاة من ذلك، فإننا صياغة معيارا صعوبة بناء على درجات الاسترداد من أمثلة التدري
ب.بدافع من الحدس أنه بعد القشط من خلال كوربوس التدريب، يعرف طراز الترجمة الآلية العصبية (NMT) "كيفية جدولة منهج مناسب وفقا لتعلم صعوبة التعلم، نقترح استراتيجية تعلم المناهج الدراسية الموجهة ذاتيا تشجع نموذج NMT للتعلممن سهولة الصعب على أساس درجات الاسترداد.على وجه التحديد، نعتمد درجة بلو على مستوى الجملة باعتبارها وكيل درجة الاسترداد.النتائج التجريبية على معايير الترجمة بما في ذلك WMT14 الإنجليزية والألمانية و WMT17 الصينية - الإنجليزية إظهار أن طريقتنا المقترحة تعمل بشكل كبير على تحسين درجة الاسترداد، وبالتالي تحسين أداء الترجمة باستمرار.