ترغب بنشر مسار تعليمي؟ اضغط هنا

كشف ترتيب القراءة هو حجر الزاوية لفهم المستندات البصرية (على سبيل المثال، الإيصالات والأشكال). لسوء الحظ، أي عمل موجود استفاد من نماذج التعلم العميقة المتقدمة لأنها شاقة للغاية للتعليق على مجموعة بيانات كبيرة بما فيه الكفاية. نلاحظ أن ترتيب القراءة م ن مستندات Word مضمن في بيانات تعريف XML الخاصة بهم؛ وفي الوقت نفسه، من السهل تحويل مستندات Word إلى ملفات PDF أو الصور. لذلك، في طريقة تلقائية، نقوم ببناء Redlybank، مجموعة بيانات معيار تحتوي على ترتيب القراءة والنصوص والتخطيط لمعلومات 500000 صورة وثيقة تغطي مجموعة واسعة من أنواع المستندات. هذه مجموعة بيانات كبيرة على نطاق واسع يطلق تشغيل قوة الشبكات العصبية العميقة لكشف عن الطلب. على وجه التحديد، يلتقط LayoTreader المقترح معلومات النص والتخطيط لتوقعات ترتيب القراءة باستخدام نموذج SEQ2SEQ. يؤدي ذلك بشكل مثالي تقريبا في اكتشاف أمر القراءة ويحسن بشكل كبير من محركات الحرية الخارجية المفتوحة والمصادر الحرارية في ترتيب خطوط نصية في نتائجها في تجاربنا. يتم توفير مجموعة البيانات والنماذج علنا ​​في https://aka.ms/layouoTreader.
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي ة، نجمع أدلة على إشارات ضعيفة على مستوى الكلمة.نقترح مراقبة سلوك تمثيل الكلمات في مساحة تضمين واستخدام إحدى خصائصها الهندسية لتوصيف ظهور المواضيع.نظرا لأن التقييم يصعب عادة على هذا النوع من المهمة، فإننا نقدم إطارا للتقييم الكمي وإظهار النتائج الإيجابية التي تتفوق على الأساليب الحديثة من بين الفن.يتم تقييم طريقتنا على مجموعة بيانات عامة للصحافة والمقالات العلمية.
تركز أنظمة الكشف عن الساركاز الموجودة على استغلال العلامات اللغوية أو السياق أو البثور على مستوى المستخدم. ومع ذلك، تشير الدراسات الاجتماعية إلى أن العلاقة بين المؤلف والجمهور يمكن أن تكون ذات صلة بنفس القدر لاستخدام السخرية وتفسيرها. في هذا العمل، ن قترح إطارا بالاستفادة المشتركة (1) سياق مستخدم من تغريداتهم التاريخية مع (2) المعلومات الاجتماعية من حي المستخدم في رسم بياني تفاعل، إلى السياق تفسير المنشور. نحن نميز بين الهوية المتصورة والمبلغ عنها الذاتي. نستخدم شبكات انتباه الرسوم البيانية (GAT) عبر المستخدمين والتويت في مؤشر ترابط محادثة، جنبا إلى جنب مع العديد من تمثيلات سجل المستخدم كثيفة. بصرف النظر عن تحقيق نتائج حديثة على مجموعة البيانات التي تم نشرها مؤخرا من مستخدمي Twitter مؤخرا مع تغريدات ثلاثية العدد 30K، قم بإضافة تغريدات 10M Unabeled كسياق، تشير تجاربنا إلى أن شبكة الرسم البياني تساهم في تفسير النوايا الساخرة للمؤلف أكثر من للتنبؤ بتصور السخرية من قبل الآخرين.
تقترح هذه الورقة دراسة مهمة للكشف عن الجدة من الدلالات الدلالية الرائعة، والتي يمكن توضيحها مع المثال التالي.من الطبيعي أن يمشي شخص كلب في الحديقة، ولكن إذا قال شخص ما إن الرجل يمشي في الدجاج في الحديقة "، فهو رواية.بالنظر إلى مجموعة من الأوصاف اللغو ية الطبيعية للمشاهد العادية، نريد تحديد أوصاف المشاهد الرواية.نحن لسنا على علم بأي عمل موجود يحل المشكلة.على الرغم من أن خوارزميات الكشف عن الجدة أو الشذوذ الحالية قابلة للتطبيق، نظرا لأنها عادة ما تكون قائمة على الموضوعات، فإنها تؤدي بشكل سيئ في مهمة الكشف عن الجدة الدلالية الدقيقة.تقترح هذه الورقة نموذجا فعالا (يسمى GAT-MA) لحل المشكلة ويساهم أيضا في مجموعة بيانات جديدة.يوضح التقييم التجريبي أن GAT-MA يتفوق على 11 خطوط رئيسية من الهوامش الكبيرة.
نظرا لأن أنظمة NLP تصبح أفضل في اكتشاف الآراء والمعتقدات من النص، فمن المهم التأكد من أن النماذج ليس فقط دقيقة ولكنها تصل أيضا إلى تنبؤاتها بطرق تتماشى مع المنطق البشري.في هذا العمل، نقدم طريقة لإنقاذ الترشيد يشبه الإنسان نموذجا للكشف عن الموقف باستخ دام التعليقات التوضيحية الجماعية على جزء صغير من بيانات التدريب.نظرا لأنه في بيئة نادرة بيانات، فإن نهجنا يمكن أن يحسن منطق مصنف أحدث --- لا سيما للمدخلات التي تحتوي على ظواهر صعبة مثل السخرية - - دون أي تكلفة في الأداء التنبئي.علاوة على ذلك، نوضح أن الأوزان الاهتمام تتفوق على طريقة رائدة في تقديم تفسيرات مخلصة لتنبؤات النماذج لدينا، مما يخدم كمصدر رخيص وموثوق بحسب حسابي لنموذجنا.
النصوص القانونية تستخدم بشكل روتيني المفاهيم التي يصعب فهمها.يعتمد المحامون على معنى هذه المفاهيم من جانب أمور أخرى، والتحقيق بعناية في كيفية استخدامها في الماضي.العثور على قصاصات نصية تذكر مفهوم معين بطريقة مفيدة ومملة واسعة من الوقت، وبالتالي مكلفة .لقد جمعنا مجموعة بيانات قدرها 26،959 جمل، من قرارات القضية القانونية، وعلقتهم من حيث فائدتهم لشرح مفاهيم قانونية مختارة.باستخدام DataSet نقوم بدراسة فعالية نماذج المحولات المدربة مسبقا على لغة بلغة كبيرة للكشف عن أي من الجمل مفيدة.في ضوء تنبؤات النماذج، نقوم بتحليل الخصائص اللغوية المختلفة للجمل التوضيحية وكذلك علاقتها بالمفهوم القانوني الذي يجب تفسيره.نظهر أن النماذج القائمة على المحولات قادرة على تعلم ميزات متطورة بشكل مدهش وتتفوق على النهج المسبقة للمهمة.
يحدد اكتشاف الموقف ما إذا كان مؤلف النص مؤهلا لصالح أو محايد هدف معين ويوفر رؤى قيمة في أحداث مهمة مثل تقنين الإجهاض. على الرغم من التقدم الكبير في هذه المهمة، فإن أحد التحديات المتبقية هو ندرة التعليقات التوضيحية. علاوة على ذلك، ركزت معظم الأعمال ال سابقة على تدريبا ثابتا على التسمية التي يتم فيها التخلص منها تشابه ذات معنى بين الفئات أثناء التدريب. لمعالجة هذه التحديات أولا، نقيم هدف متعدد المستهدف وإعدادات تدريب متعددة البيانات من خلال تدريب نموذج واحد على كل مجموعة بيانات ومجموعات من المجالات المختلفة، على التوالي. نظهر أن النماذج يمكن أن تتعلم المزيد من التمثيلات العالمية فيما يتعلق بالأهداف في هذه الإعدادات. ثانيا، يمكننا التحقيق في تقطير المعرفة في اكتشاف الموقف ومراقبة أن نقل المعرفة من نموذج المعلم إلى نموذج الطالب يمكن أن يكون مفيدا في إعدادات التدريب المقترحة. علاوة على ذلك، نقترح طريقة تقطير المعرفة التكيفية (AKD) تطبق تحجيم درجة الحرارة الخاصة بالمثيلات إلى المعلم والتنبؤات الطلابية. تشير النتائج إلى أن نموذج متعدد البيانات يعمل بشكل أفضل على جميع مجموعات البيانات ويمكن تحسينه من قبل AKD المقترح، مما يتفوق على أحدث حالة من الهامش الكبير. نحن نطلق علنا ​​كودنا.
يستلزم الكشف عن الموقف (SD) تصنيف معنويات نص تجاه هدف معين، وهي مهمة فرعية ذات صلة لتحليل تعدين الرأي والوسائط الإعلامية الاجتماعية.وقد استكشفت الأعمال الحديثة تسريب المعرفة تكمل الكفاءة اللغوية والمعرفة الكامنة عن النماذج اللغوية الكبيرة المدربة مسب قا مع الرسوم البيانية المعرفة المهيكلة (KGS)، ومع ذلك فقد طبقت القليل من الأعمال هذه الأساليب إلى مهمة SD.في هذا العمل، نقوم أولا بتحقيق المعرفة ذات الصلة بالموقف على النماذج المدربة المستندة مسبقا للمحولات في إعداد تسديدة صفرية، مما يدل على المعرفة الحقيقية الكامنة في النماذج حول أهداف SD وحساستها للسياق.ثم ندرب وتقييم نماذج الكشف عن الموقف المخصب على المعرفة على مجموعة بيانات لموقف Twitter، وتحقيق أداء حديثة على حد سواء.
الوسائط الاجتماعية هي أداة أساسية لتبادل المعلومات حول أحداث الأزمات، مثل الكوارث الطبيعية. يهدف الكشف عن الحدث إلى استخراج المعلومات في شكل حدث، ولكنه يعتبر كل حدث بمعزل، دون الجمع بين المعلومات عبر الجمل أو الأحداث. تحتوي العديد من الوظائف في أزمة NLP على معلومات متكررة أو تكميلية تحتاج إلى تجميعها (على سبيل المثال، عدد الأشخاص المحاصرين وموقعهم) للاستجابة للكوارث. على الرغم من أن النهج السابقة في أزمة NLP إجمالية المعلومات عبر المشاركات، إلا أنها تستخدم فقط التمثيلات الضحلة للمحتوى (على سبيل المثال، الكلمات الرئيسية)، والتي لا يمكن أن تمثل دلالة لحدث الأزمات وأسفرها بشكل كاف. في هذا العمل، نقترح إطارا جديدا لاستخراج الأحداث الفرعية النقدية من حدث أزمة واسعة النطاق من خلال الجمع بين المعلومات الهامة عبر التغريدات ذات الصلة. يقوم إطارنا أولا بتحويل جميع التغريدات من حدث الأزمات إلى مجموعة من الرسوم البيانية المرتبة الزمنية. ثم تستخرج الرسوم البيانية الفرعية التي تمثل العلاقات الدلالية التي تربط الأفعال والأسماء في 3 إلى 6 رسوم بيانية فرعية عقدة. يفعل ذلك من خلال تعلم الأوزان الحافة عبر الشبكات التنافسية الرسمية الرسمية (DGCNS) واستخراج الرسوم البيانية الفرعية الصغيرة ذات الصلة. تظهر تجاربنا أن هياكلنا المستخرجة (1) هي أحداث فرعية ذات مغزى دلالة و (2) تحتوي على معلومات مهمة لحدث الأزمة الكبيرة. علاوة على ذلك، نظير على أن نهجنا يتفوق بشكل كبير على خطوط الأساس للكشف عن الحدث، وتسليط الضوء على أهمية المعلومات التجميعية عبر تغريدات مهمتنا.
أظهرت النماذج المتعددة اللغات المدربة مسبقا فعاليتها في العديد من مهام NLP متعددة اللغات وتمكن من نقل الصفر أو القليل من التحويلات من لغات الموارد العالية إلى الموارد المنخفضة. ومع ذلك، نظرا للاختلافات والتناقضات النموذجية الكبرى بين بعض اللغات، عادة ما تؤدي هذه النماذج بشكل سيء على العديد من اللغات والإعدادات المتبادلة، والتي تظهر صعوبة في تعلم نموذج واحد للتعامل مع لغات متنوعة واسعة النظافة في نفس الوقت. لتخفيف هذه المشكلة، نقدم خط أنابيب ما قبل اللغات متعددة اللغات. نقترح إنشاء تمثيل لغة من النموذج متعدد اللغات مسبقا وإجراء التحليل اللغوي لإظهار أن تشابه تمثيل اللغة يعكس التشابه اللغوي من وجهات نظر متعددة، بما في ذلك أسرة اللغة، Sprachbund الجغرافية، وقاميا، وبناء جملة. ثم نحن ألمع جميع اللغات المستهدفة في مجموعات متعددة وتسمية كل مجموعة كتمثيل Sprachbund. وهكذا، من المفترض أن تعزز اللغات في نفس التمثيل SPRACHBUND بعضها البعض في كل من التدريب المسبق والضبط بشكل جيد لأنها تشترك في التشابه اللغوي الغني. نحن ندرج مسبقا نموذج واحد متعدد اللغات لكل تمثيل Sprachbund. يتم إجراء التجارب على المعايير المتبادلة وتحقيق تحسينات كبيرة مقارنة مع خطوط الأساس القوية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا