ترغب بنشر مسار تعليمي؟ اضغط هنا

تصفيات مضادة تصف الأحداث التي لم تتم أو لا يمكنها إجراءها. نحن نعتبر مشكلة الكشف المتعرضين (CFD) في مراجعات المنتج. لهذا الغرض، فإننا نحيطر على مجموعة بيانات متعددة اللغات CFD من مراجعات منتجات الأمازون التي تغطي البيانات الإضافية المكتوب باللغات الإ نجليزية والألمانية واليابانية. DataSet فريدة من نوعها لأنها تحتوي على مضادة بلغات متعددة، ويغطي مساحة تطبيق جديدة من مراجعات التجارة الإلكترونية، وتوفر شروح محترفة عالية الجودة. نقوم بتدريب نماذج CFD باستخدام طرق وأساليب تمثيل نصية مختلفة. نجد أن هذه النماذج قوية ضد التحيزات الاجتماعية التي تم تقديمها بسبب اختيار الجملة التي تعتمد على العبارات. علاوة على ذلك، فإن مجموعة بيانات CFD الخاصة بنا متوافقة مع مجموعات البيانات السابقة ويمكن دمجها لتعلم نماذج CFD دقيقة. تطبيق الترجمة الآلية على الأمثلة الإنجليزية المضادة لإنشاء بيانات متعددة اللغات يؤدي بشكل سيء، مما يدل على خصوصية لغة هذه المشكلة، والتي تم تجاهلها حتى الآن.
تأثرت الكشف عن الحدث منذ فترة طويلة بسبب لعنة الزناد: التجاوز الزنجي سيضر بالقدرة على مستوى التعميم أثناء تقديره سيضر بأداء الكشف.هذه المشكلة أكثر حدة في سيناريو أقل لقطة.في هذه الورقة، نحدد وحل مشكلة لعنة المشغل في اكتشاف حدث قليل الطواف (FSED) من و جهة نظر سببية.من خلال صياغة FSED مع نموذج سببي هيكلي (SCM)، وجدنا أن الزناد هو مواجهة السياق والنتيجة، مما يجعل أساليب FSED السابقة أسهل بكثير على المشغلات المبكرة.لحل هذه المشكلة، نقترح التدخل في السياق عن طريق تعديل الخلفية أثناء التدريب.تبين التجارب أن طريقتنا تحسن بشكل كبير من FSED على كل من مجموعة بيانات ACE05 و Maven.
تركز أنظمة الكشف عن الساركاز الموجودة على استغلال العلامات اللغوية أو السياق أو البثور على مستوى المستخدم. ومع ذلك، تشير الدراسات الاجتماعية إلى أن العلاقة بين المؤلف والجمهور يمكن أن تكون ذات صلة بنفس القدر لاستخدام السخرية وتفسيرها. في هذا العمل، ن قترح إطارا بالاستفادة المشتركة (1) سياق مستخدم من تغريداتهم التاريخية مع (2) المعلومات الاجتماعية من حي المستخدم في رسم بياني تفاعل، إلى السياق تفسير المنشور. نحن نميز بين الهوية المتصورة والمبلغ عنها الذاتي. نستخدم شبكات انتباه الرسوم البيانية (GAT) عبر المستخدمين والتويت في مؤشر ترابط محادثة، جنبا إلى جنب مع العديد من تمثيلات سجل المستخدم كثيفة. بصرف النظر عن تحقيق نتائج حديثة على مجموعة البيانات التي تم نشرها مؤخرا من مستخدمي Twitter مؤخرا مع تغريدات ثلاثية العدد 30K، قم بإضافة تغريدات 10M Unabeled كسياق، تشير تجاربنا إلى أن شبكة الرسم البياني تساهم في تفسير النوايا الساخرة للمؤلف أكثر من للتنبؤ بتصور السخرية من قبل الآخرين.
يحدد اكتشاف الموقف ما إذا كان مؤلف النص مؤهلا لصالح أو محايد هدف معين ويوفر رؤى قيمة في أحداث مهمة مثل تقنين الإجهاض. على الرغم من التقدم الكبير في هذه المهمة، فإن أحد التحديات المتبقية هو ندرة التعليقات التوضيحية. علاوة على ذلك، ركزت معظم الأعمال ال سابقة على تدريبا ثابتا على التسمية التي يتم فيها التخلص منها تشابه ذات معنى بين الفئات أثناء التدريب. لمعالجة هذه التحديات أولا، نقيم هدف متعدد المستهدف وإعدادات تدريب متعددة البيانات من خلال تدريب نموذج واحد على كل مجموعة بيانات ومجموعات من المجالات المختلفة، على التوالي. نظهر أن النماذج يمكن أن تتعلم المزيد من التمثيلات العالمية فيما يتعلق بالأهداف في هذه الإعدادات. ثانيا، يمكننا التحقيق في تقطير المعرفة في اكتشاف الموقف ومراقبة أن نقل المعرفة من نموذج المعلم إلى نموذج الطالب يمكن أن يكون مفيدا في إعدادات التدريب المقترحة. علاوة على ذلك، نقترح طريقة تقطير المعرفة التكيفية (AKD) تطبق تحجيم درجة الحرارة الخاصة بالمثيلات إلى المعلم والتنبؤات الطلابية. تشير النتائج إلى أن نموذج متعدد البيانات يعمل بشكل أفضل على جميع مجموعات البيانات ويمكن تحسينه من قبل AKD المقترح، مما يتفوق على أحدث حالة من الهامش الكبير. نحن نطلق علنا ​​كودنا.
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي ة، نجمع أدلة على إشارات ضعيفة على مستوى الكلمة.نقترح مراقبة سلوك تمثيل الكلمات في مساحة تضمين واستخدام إحدى خصائصها الهندسية لتوصيف ظهور المواضيع.نظرا لأن التقييم يصعب عادة على هذا النوع من المهمة، فإننا نقدم إطارا للتقييم الكمي وإظهار النتائج الإيجابية التي تتفوق على الأساليب الحديثة من بين الفن.يتم تقييم طريقتنا على مجموعة بيانات عامة للصحافة والمقالات العلمية.
تقترح هذه الورقة دراسة مهمة للكشف عن الجدة من الدلالات الدلالية الرائعة، والتي يمكن توضيحها مع المثال التالي.من الطبيعي أن يمشي شخص كلب في الحديقة، ولكن إذا قال شخص ما إن الرجل يمشي في الدجاج في الحديقة "، فهو رواية.بالنظر إلى مجموعة من الأوصاف اللغو ية الطبيعية للمشاهد العادية، نريد تحديد أوصاف المشاهد الرواية.نحن لسنا على علم بأي عمل موجود يحل المشكلة.على الرغم من أن خوارزميات الكشف عن الجدة أو الشذوذ الحالية قابلة للتطبيق، نظرا لأنها عادة ما تكون قائمة على الموضوعات، فإنها تؤدي بشكل سيئ في مهمة الكشف عن الجدة الدلالية الدقيقة.تقترح هذه الورقة نموذجا فعالا (يسمى GAT-MA) لحل المشكلة ويساهم أيضا في مجموعة بيانات جديدة.يوضح التقييم التجريبي أن GAT-MA يتفوق على 11 خطوط رئيسية من الهوامش الكبيرة.
النصوص القانونية تستخدم بشكل روتيني المفاهيم التي يصعب فهمها.يعتمد المحامون على معنى هذه المفاهيم من جانب أمور أخرى، والتحقيق بعناية في كيفية استخدامها في الماضي.العثور على قصاصات نصية تذكر مفهوم معين بطريقة مفيدة ومملة واسعة من الوقت، وبالتالي مكلفة .لقد جمعنا مجموعة بيانات قدرها 26،959 جمل، من قرارات القضية القانونية، وعلقتهم من حيث فائدتهم لشرح مفاهيم قانونية مختارة.باستخدام DataSet نقوم بدراسة فعالية نماذج المحولات المدربة مسبقا على لغة بلغة كبيرة للكشف عن أي من الجمل مفيدة.في ضوء تنبؤات النماذج، نقوم بتحليل الخصائص اللغوية المختلفة للجمل التوضيحية وكذلك علاقتها بالمفهوم القانوني الذي يجب تفسيره.نظهر أن النماذج القائمة على المحولات قادرة على تعلم ميزات متطورة بشكل مدهش وتتفوق على النهج المسبقة للمهمة.
نظرا لأن أنظمة NLP تصبح أفضل في اكتشاف الآراء والمعتقدات من النص، فمن المهم التأكد من أن النماذج ليس فقط دقيقة ولكنها تصل أيضا إلى تنبؤاتها بطرق تتماشى مع المنطق البشري.في هذا العمل، نقدم طريقة لإنقاذ الترشيد يشبه الإنسان نموذجا للكشف عن الموقف باستخ دام التعليقات التوضيحية الجماعية على جزء صغير من بيانات التدريب.نظرا لأنه في بيئة نادرة بيانات، فإن نهجنا يمكن أن يحسن منطق مصنف أحدث --- لا سيما للمدخلات التي تحتوي على ظواهر صعبة مثل السخرية - - دون أي تكلفة في الأداء التنبئي.علاوة على ذلك، نوضح أن الأوزان الاهتمام تتفوق على طريقة رائدة في تقديم تفسيرات مخلصة لتنبؤات النماذج لدينا، مما يخدم كمصدر رخيص وموثوق بحسب حسابي لنموذجنا.
تعتمد أبحاث الكشف عن الشخصية القائمة على النصوص الموجودة في الغالب على النهج التي يحركها البيانات لالتقاط إشارات شخصية ضمنيا في الوظائف عبر الإنترنت، تفتقر إلى إرشادات المعرفة النفسية. يلعب الاستبيان النفسي، الذي يحتوي على سلسلة من الأسئلة المخصصة ال مرتبطة بشدة إلى سمات الشخصية، دورا حاسما في تقييم شخصية التقرير الذاتي. نقول أن المشاركات التي أنشأها المستخدم تحتوي على محتويات مهمة يمكن أن تساعد في الإجابة على الأسئلة في استبيان، مما أدى إلى تقييم لشخصيته من خلال ربط النصوص والاستبيان. تحقيقا لهذه الغاية، نقترح نموذجا جديدا باسم شبكة الاستبيان النفسي المحسن (PQ-NET) لتوجيه اكتشاف الشخصية عن طريق تتبع المعلومات الهامة في النصوص مع استبيان. على وجه التحديد، يحتوي PQ-NET على جاريان: دفق سياق لتشفير كل جزء من النص في تمثيل نص سياقي، وتيار استبيان لالتقاط المعلومات ذات الصلة في تمثيل النص السياقي لإنشاء تمثيلات إجابات محتملة للاستبيان. يتم استخدام تمثيل الإجابات المحتملة لتعزيز تمثيل النص السياقي وفائدة التنبؤ بالشخصية. تظهر النتائج التجريبية على مجموعة بيانات اثنين من تفوق PQ-NET في التقاط إشارات مفيدة من المشاركات للكشف عن الشخصية.
أظهرت النماذج المتعددة اللغات المدربة مسبقا فعاليتها في العديد من مهام NLP متعددة اللغات وتمكن من نقل الصفر أو القليل من التحويلات من لغات الموارد العالية إلى الموارد المنخفضة. ومع ذلك، نظرا للاختلافات والتناقضات النموذجية الكبرى بين بعض اللغات، عادة ما تؤدي هذه النماذج بشكل سيء على العديد من اللغات والإعدادات المتبادلة، والتي تظهر صعوبة في تعلم نموذج واحد للتعامل مع لغات متنوعة واسعة النظافة في نفس الوقت. لتخفيف هذه المشكلة، نقدم خط أنابيب ما قبل اللغات متعددة اللغات. نقترح إنشاء تمثيل لغة من النموذج متعدد اللغات مسبقا وإجراء التحليل اللغوي لإظهار أن تشابه تمثيل اللغة يعكس التشابه اللغوي من وجهات نظر متعددة، بما في ذلك أسرة اللغة، Sprachbund الجغرافية، وقاميا، وبناء جملة. ثم نحن ألمع جميع اللغات المستهدفة في مجموعات متعددة وتسمية كل مجموعة كتمثيل Sprachbund. وهكذا، من المفترض أن تعزز اللغات في نفس التمثيل SPRACHBUND بعضها البعض في كل من التدريب المسبق والضبط بشكل جيد لأنها تشترك في التشابه اللغوي الغني. نحن ندرج مسبقا نموذج واحد متعدد اللغات لكل تمثيل Sprachbund. يتم إجراء التجارب على المعايير المتبادلة وتحقيق تحسينات كبيرة مقارنة مع خطوط الأساس القوية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا