ترغب بنشر مسار تعليمي؟ اضغط هنا

التقييم البشري لمهام التلخيص موثوقة ولكن يجلب قضايا التكاثر والتكاليف العالية. المقاييس التلقائية رخيصة وغير قابلة للتكرار ولكن في بعض الأحيان ترتبط بشكل سيء بحكمات بشرية. في هذا العمل، نقترح Nemiautomatic مرنة لمقاييس التقييم الموجز التلقائي، بعد طر يقة التقييم البشري الهرم. يحتفظ Lite2Pyramid شبه التلقائي بوحدات المحتوى الموجزة ذات العلامة البشرية القابلة لإعادة الاستخدام (SCU) للإشارة (SCU)، لكنها تحل محل العمل اليدوي للحكم على وجود قاضم في ملخصات النظام مع نموذج استنتاج اللغة الطبيعية (NLI). تستبدل Lite3pyramid التلقائي بالكامل مزيد من البدائل SCUS مع الوحدات الثلاثية الدلالية المستخرجة تلقائيا (STUS) عبر نموذج العلامات الدلالية (SRL). أخيرا، نقترح مقاييس، Lite2.xpyramid، حيث نستخدم نموذجا بسيطا للتنبؤ بمدى محاكاة STUS محاكاة SCUS والاحتفاظ ب SCUs الأكثر صعوبة في محاكاة، والتي توفر عملية انتقال سلسة وتوازن بين الأتمتة والتقييم اليدوي وبعد مقارنة 15 مقاييس موجودة، نقوم بتقييم الارتباطات المترية البشرية على 3 مجموعات بيانات تقييم التلوث الحالية و Pyrxsum التي تم جمعها حديثا (مع أمثلة / أنظمة / أنظمة 100/10 XSUM). يظهر أن Lite2Pyramid لديها باستمرار أفضل الارتباطات على مستوى الملخص؛ يعمل Lite3pyramid بشكل أفضل من أو قابلة للمقارنة مع مقاييس أوتوماتيكية أخرى؛ يتداول Lite2.XPyramID قبالة قطرات الارتباط الصغيرة لخفض الجهد اليدوي الأكبر، والتي يمكن أن تقلل من تكاليف جمع البيانات المستقبلية.
حققت الطرز المستندة إلى المحولات مثل Bert و Xlnet و XLM-R أداء أحدث في مختلف مهام NLP بما في ذلك تحديد اللغة الهجومية وخطاب الكراهية، وهي مشكلة مهمة في وسائل التواصل الاجتماعي.في هذه الورقة، نقدم Fbert، إعادة تدريب نموذج BERT على الصلبة، أكبر كوربوس لتحديد اللغة الإنجليزية الهجومية المتاحة مع أكثر من 1.4 مليون حالة هجومية.نقيم أداء Fbert الخاص بتحديد المحتوى الهجومي على مجموعات بيانات باللغة الإنجليزية المتعددة ونختبر عدة عتبات لاختيار المثيلات من الصلبة.سيتم توفير نموذج FberT بحرية للمجتمع.
في هذه الورقة، نقدم مهمة التنبؤ بشدة من الجوانب التي يقيم بها العمر من محتوى السينما على أساس البرنامج النصي للحوار.إننا نحقق أولا تصنيف شدة الأفلام الترتيبية على 5 جوانب: الجنس والعنف والبهجة واستهلاك المواد المخدرة والمشاهد المخيفة.يتم التعامل مع ا لمشكلة باستخدام إطار عمل متعدد القائم على شبكة سيامي يعمل بشكل متزامن على تحسين إمكانية تفسير التنبؤات.تظهر النتائج التجريبية أن أسلوبنا تتفوق على نموذج الحالة السابقة للدولة السابقة ويوفر معلومات مفيدة لتفسير تنبؤات النموذج.يتم توفير مجموعة البيانات والمصدر المقترحة للجمهور في مستودع GitHub الخاص بنا.
في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثل اثة أنواع من كوربورا وثلاث أساليب تضمين و 55 زوجا للغة.تؤكد نتائجنا التجريبية على أنها بدلا من مجرد حجم، فإن مقدار المحتوى المشترك في Training Corpora ضروري.تتجلى هذه الظاهرة في ذلك) على الرغم من أحجام كوربوس الأصغر، باستخدام الأجزاء المقارنة فقط من ويكيبيديا لتدريب مساحات تضمين الأحادية المهتملة غالبا ما تكون أكثر فعالية من الاعتماد على جميع محتويات ويكيبيديا، 2) أصغر، في المقابلتعمل Wikipedia الأقل متنوعة في ويكيبيديا دائما أفضل بكثير كدولة تدريبية لتعيينات ثنائية اللغة من ويكيبيديا الإنجليزية المستخدمة في كل مكان.
نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة لكلا النموذجين للتعميم من اللغة الإنجليزية إلى لغات أخرى.ومع ذلك، هناك فجوة متوقعة في الأداء بين النماذج التي تم اختبارها عبر اللغات والنماذج الأولية.يتوفر أفضل نموذج أداء (مصنف المحتوى الهجومي) عبر الإنترنت ك api بقية.
على الرغم من النجاحات الأخيرة للنماذج المحول القائمة على المحولات من حيث الفعالية في مجموعة متنوعة من المهام، غالبا ما تظل قراراتها مبهمة للبشر.تعتبر التفسيرات مهمة بشكل خاص للمهام مثل اللغة الهجومية أو الكشف عن السمية على وسائل التواصل الاجتماعي لأن عملية الاستئناف اليدوية غالبا ما تكون في مكانها للتنازل عن المحتوى الموضح تلقائيا.في هذا العمل، نقترح تقنية لتحسين إمكانية تفسير هذه النماذج، بناء على افتراض بسيط وقوي: منشور على الأقل سميك مثل أكثر سبتمته سامة.نحن ندمج هذا الافتراض في نماذج المحولات من خلال تسجيل وظيفة بناء على الحد الأقصى للسمية من يمتد ويزيد عملية التدريب لتحديد المواقف الصحيحة.نجد هذا النهج فعال ويمكننا إنتاج تفسيرات تتجاوز جودة تلك المنصوص عليها في تحليل الانحدار اللوجستي (غالبا ما تعتبر نموذجا واضحا للغاية)، وفقا لدراسة بشرية.
تم اعتماد اهتمام الذات مؤخرا لمجموعة واسعة من مشاكل النمذجة التسلسلية. على الرغم من فعاليته، فإن اهتمام الذات يعاني من حساب التربيعي ومتطلبات الذاكرة فيما يتعلق بطول التسلسل. تركز النهج الناجحة للحد من هذا التعقيد على حضور النوافذ المنزلق المحلية أو مجموعة صغيرة من المواقع مستقلة عن المحتوى. يقترح عملنا تعلم أنماط الانتباه ديناميكية متناثرة تتجنب تخصيص الحساب والذاكرة لحضور المحتوى غير المرتبط باستعلام الفائدة. يبني هذا العمل على سطرين من الأبحاث: فهو يجمع بين مرونة النمذجة للعمل المسبق على اهتمام متمرد للمحتوى مع مكاسب الكفاءة من الأساليب القائمة على الاهتمام المحلي والزموني المتناثر. نموذجنا، محول التوجيه، ينفذ عن النفس مع وحدة توجيه متناثرة تعتمد على الوسائل K عبر الإنترنت مع تقليل التعقيد العام للانتباه إلى O (N1.5D) من O (N2D) لطول التسلسل N وبعد المخفي D. نظرا لأن نموذجنا يتفوق على نماذج انتباه متناثرة قابلة للمقارنة على نمذجة اللغة على Wikitext-103 (15.8 مقابل 18.3 حيرة)، وكذلك على جيل الصورة على Imagenet-64 (3.43 مقابل 3.44 بت / خافت) أثناء استخدام طبقات أقل من الاهتمام الذاتي. بالإضافة إلى ذلك، وضعنا مجموعة جديدة من مجموعة جديدة من مجموعة بيانات PG-19 التي تم إصدارها حديثا، والحصول على اختبار حيرة من 33.2 مع نموذج محول توجيه 22 طبقة مدرب على تسلسل الطول 8192. نحن نفتح المصدر لتحويل التوجيه في Tensorflow.1
يتطلب بناء نماذج لمهام اللغة الطبيعية الواقعية التعامل مع النصوص الطويلة والمحاسبة التبعيات الهيكلية المعقدة.ظهرت تمثيلات رمزية عصبية كوسيلة للجمع بين قدرات التفكير في الأساليب الرمزية، مع تعبير الشبكات العصبية.ومع ذلك، فقد صممت معظم الأطر الموجودة ل لجمع بين التمثيل العصبي والرمزي لمهام التعلم العلائقية الكلاسيكية التي تعمل على الكون من الكيانات والعلاقات الرمزية.في هذه الورقة، نقدم دراسنا، وهو إطار إعلاني مفتوح المصدر لتحديد النماذج العلائقية العميقة، مصممة لدعم مجموعة متنوعة من سيناريوهات NLP.يدعم إطارنا سهلا التكامل مع تشفير اللغة التعبيرية، ويوفر واجهة لدراسة التفاعلات بين التمثيل والاستدلالية والتعلم.
مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أ و عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي
يهدف البحث إلى عمل دراسة في طرائق نظم التوصيات الخاصة بشبكات التواصل الإجتماعي ، بحيث يتم ذكر العديد من هذه الطرائق والمقارنة فيما بينها ،والتركيز على موقع تويتر من خلال شرح عمل نظام توصية شخصي للتغريدات والمتابَعين معتمداً على بيان المعرفة .
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا