ترغب بنشر مسار تعليمي؟ اضغط هنا

بصرف النظر عن نجاح نهج تعلم النطاق المختلط في مجال التعلم العميق لحل المهام المختلفة لمعالجة اللغة الطبيعية، فإنه لا يقرض حل جماعيا للكشف عن المعلومات الخاطئة من بيانات وسائل التواصل الاجتماعي CovID-19. نظرا للتعقيد المتأصل من هذا النوع من البيانات، الناجمة عن ديناميك (سياقه يتطور بسرعة)، ذات الطابع الدقيق (أنواع الخائن غير غامضة في كثير من الأحيان)، ومتنوعة (الفئات المنحيحة، المحبوسة والتداخل) الطبيعة، من الضروري نموذج فعال لالتقاط كل من السياق المحلي والعالمي للمجال المستهدف. من خلال إجراء تحقيق منهجي، نظهر أن: (1) النماذج المدربة مسبقا مسبقا للمحولات العميقة، المستخدمة عبر تعلم نقل المجال المختلط، جيدة فقط في التقاط السياق المحلي، وبالتالي تظهر تعميم ضعيف، و (2) يمكن أن يستخرج مزيج من النماذج الضحلة المستندة إلى الشبكة والشبكات العصبية التنافسية السياق محليا بالإضافة إلى السياق بشكل فعال بالإضافة إلى البيانات المستهدفة بطريقة هرمية بطريقة هرمية، مما يتيح من تقديم حل أكثر تعميما.
يعاني العمل السابق على علاقة Crosslingual واستخراج الأحداث (REE) من قضية التحيز أحادي الأحادي بسبب تدريب النماذج على بيانات اللغة المصدر فقط. تتمثل نهج التغلب على هذه المسألة في استخدام البيانات غير المستهلكة في اللغة المستهدفة لمساعدة محاذاة تمثيلات crosslingual، أي عن طريق خداع تمييز لغة. ومع ذلك، نظرا لأن هذا النهج غير بشرط على معلومات الفصل، فإن مثال لغوي مستهدف يمكن أن يتماشى بشكل غير صحيح إلى مثال لغة مصدر لفئة مختلفة. لمعالجة هذه المشكلة، نقترح طريقة محاذاة Crosslingual الجديدة التي ترفد معلومات الفئة من مهام REE لتعلم التمثيل. على وجه الخصوص، نقترح تعلم نسختين من ناقلات التمثيل لكل فصل في مهمة ري بناء على أمثلة اللغة أو الهدف المستهدف. سيتم بعد ذلك محاذاة ناقلات التمثيل للفصول المقابلة لتحقيق محاذاة علم الفئة للتمثيلات crosslingual. بالإضافة إلى ذلك، نقترح مواصلة مواءمة مقالات التمثيل لفئات الكلمات العالمية للألوج (أي أجزاء من العلاقات بين الكلام والاعتماد). على هذا النحو، يتم تقديم آلية تصفية جديدة لتسهيل تعلم تمثيلات فئة Word من تمثيلات السياق على نصوص الإدخال بناء على التعلم المشددي. نقوم بإجراء تجارب متشددة واسعة النطاق مع اللغة الإنجليزية والصينية والعربية على مهام ري. توضح النتائج فوائد الطريقة المقترحة التي تقدم بشكل كبير الأداء الحديث في هذه الإعدادات.
عندما نهم مهتمين في مجال معين، يمكننا جمع وتحليل البيانات من الإنترنت.لا يتم تصميم البيانات التي تم جمعها حديثا، لذلك من المأمول استخدام البيانات المسمى مفيدة للبيانات الجديدة.نقوم بإجراء التعرف على كيان الاسم (NER) وتحليل المعرفات المستندة إلى جانب الجسيم (ABASA) في التعلم متعدد المهام، والجمع بين شبكة توليد المعلمة والهندسة المعمارية Dann لبناء النموذج.في مهمة NER، يتم تصنيف البيانات مع التعادل والكسر، ويتم ضبط وزن المهمة وفقا لمعدل تغيير الخسارة في كل مهمة باستخدام متوسط الوزن الديناميكي (DWA).استخدمت هذه الدراسة مجموعات بيانات مجال مصدر مختلفة.تظهر النتائج التجريبية أن التعادل، استراحة يمكن أن تحسن نتائج النموذج؛يمكن أن يكون DWA أداء أفضل في النتائج؛يمكن استخدام مزيج شبكة توليد المعلمة وطبقة انعكاس التدرج لكل تعلم جيد في مجال مختلف.
مكنت نماذج اللغة العصبية العميقة مثل بيرت التطورات الأخيرة في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، نظرا للجهد والتكلفة الحاسوبية المشاركة في التدريب المسبق لها، يتم إدخال هذه النماذج عادة فقط لعدد صغير من لغات الموارد عالية الوزن مثل اللغة الإنجليزية. في حين تتوفر نماذج متعددة اللغات التي تغطي أعدادا كبيرة من اللغات، فإن العمل الحديث يشير إلى أن التدريب أحادي الأحادي يمكن أن ينتج عن نماذج أفضل، وفهمنا للمفاضرة بين التدريب الأحادي وغير اللغوي غير مكتمل. في هذه الورقة، نقدم خط أنابيب بسيطة وأتمتة بالكامل لإنشاء نماذج بيرت الخاصة باللغة من البيانات من بيانات ويكيبيديا وإدخال 42 من هذه النماذج الجديدة، والأكثر من اللازم لغات حتى الآن تفتقر إلى نماذج اللغة العصبية العميقة المخصصة. نقوم بتقييم مزايا هذه النماذج باستخدام اختبارات Cloze و Autify Parser على بيانات التبعيات العالمية، والأداء المتناقض مع النتائج باستخدام طراز Bert (Mbert) متعدد اللغات. نجد أن نماذج WikiBert المقدمة حديثا تفوقت Mbert في اختبارات Cloze لجميع اللغات تقريبا، وأن uDify باستخدام نماذج Wikibert تفوق المحلل باستخدام Mbert في المتوسط، مع توضح الطرز الخاصة باللغة تحسين أداء محسنة بشكل كبير لبعض اللغات، ولكن تحسين محدود أو تحسين انخفاض في الأداء للآخرين. تتوفر جميع الطرق والنماذج المقدمة في هذا العمل تحت التراخيص المفتوحة من https://github.com/turkunlp/wikibert.
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات مقرها Word من Word، نحقق الأداء الجيد على اللغة المستهدفة من خلال التدريب فقط على مجموعة بيانات المصدر.باستخدام نظامنا المنقول، نحن Bootstrap على بيانات اللغة المستهدفة غير المستهدفة، وتحسين أداء نهج النقل المتبادل القياسي.نحن نستخدم اللغة الإنجليزية كلغة موارد عالية والألمانية مثل اللغة المستهدفة التي تتوفر فقط كمية صغيرة من كورسا المشروح.تشير نتائجنا إلى أن التعلم عبر التحويلات الشاملة للتعلم مع نهجنا للاستفادة من البيانات الإضافية غير المسبقة هي وسيلة فعالة لتحقيق الأداء الجيد على لغات مستهدفة منخفضة الموارد دون الحاجة إلى أي شروح لغة الهدف.
حققت خوارزمية التعلم العميق مؤخرًا الكثير من النجاح خاصة في مجال رؤية الكمبيوتر.يهدف البحث الحالي إلى وصف طريقة التصنيف المطبقة على مجموعة البيانات الخاصة بأنواع متعددة من الصور (صور الرادار ذي الفجوة المركبةSAR والصور ليست SAR) ، أستخدم نقل التعلم م تبوعًا بأساليب الضبط الدقيق في مخطط التصنيف هذا . تم استخدام بنيات مدربة مسبقًا على قاعدة بيانات الصور المعروفهImageNet، تم استخدام نموذج VGG 16 بالفعل كمستخرج ميزات وتم تدريب مصنف جديد بناءً على الميزات المستخرجة .تركز بيانات الإدخال بشكل أساسي على مجموعة البيانات التي تتكون من خمس فئات فئة صور الرادارSAR (المنازل) وفئات الصور ليستSAR (القطط والكلاب والخيول والبشر). تم اختيار الشبكة العصبية التلافيفية (CNN) كخيار أفضل لـعملية التدريب لانها نتجت عن دقة عالية. لقد وصلنا إلى الدقة النهائية بنسبة 91.18٪ في خمس فئات مختلفة. تتم مناقشة النتائج من حيث احتمالية الدقة لكل فئة في تصنيف الصورة بالنسبة المئوية. تحصل فئة القطط على 99.6٪ ، بينما تحصل فئة المنازل على 100٪ وتحصل انواع آخرى من الفئات بمتوسط درجات 90٪ وما فوق.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا