على الرغم من أن المراجع الشمية تلعب دورا حاسما في ذاكرتنا الثقافية، إلا أن عددا قليلا فقط في NLP حاولت التقاطها من منظور حسابي. حاليا، والتحدي الرئيسي ليس الكثير من تطوير المكونات التكنولوجية لاستخراج المعلومات الشمية، بالنظر إلى التقدم الأخير في الم
عالجة الدلالية وفهم اللغة الطبيعية، بل عدم وجود إطار نظري لالتقاط هذه المعلومات من وجهة نظر لغوية، ك الخطوة الأولية نحو تطوير النظم الآلية. لذلك، في هذا العمل، نقدم الإرشادات التوضيحية، التي تم تطويرها بمساعدة علماء التاريخ وخبراء المجال، تهدف إلى التقاط جميع العناصر ذات الصلة المشاركة في حالات أو أحداث شمية موضحة في النصوص. وقد استوحاد هذه المبادئ التوجيهية من شرح Framenet، لكنها خضعت لبعض التكيفات، والتي يتم تفصيلها في هذه الورقة. علاوة على ذلك، نقدم دراسة حالة فيما يتعلق بشراحف الحالات الشمية في كتابات السفر التاريخية الإنجليزية التي تصف الرحلات إلى إيطاليا. يظهر تحليلا لأكثر الحشو الدور الأكثر شيوعا أن الأوصاف الشمية تتعلق ببعض المجالات النموذجية مثل الدين والطعام والطبيعة والماضي القديم والمرافق الصحية الفقراء، وكل ذلك يدعم إنشاء صور نمطية مرتبطة بإيطاليا. من ناحية أخرى، فإن المشاعر الإيجابية الناجمة عن الروائح سائدة، وتساهم في تأطير السفر إلى إيطاليا كخبرة مثيرة تنطوي على جميع الحواس.
تتفوق أنظمة تلخيص التلخيص الحالية على نظرائهم المستخرجين، لكن اعتمادهم على نطاق واسع يمنعهم الافتقار المتأصل إلى الترجمة الشفوية. أنظمة تلخيص الاستخراجية، على الرغم من أنه قابل للتفسير، تعاني من التكرار وقلة الاتساق المحتمل. لتحقيق أفضل ما في العالمي
ن، نقترح سهولة، وهو إطار خارجي - مبادرة ينشئ ملخصات إغراقية موجزة يمكن تتبعها مرة أخرى إلى ملخص مستخرج. يمكن تطبيق إطارنا على أي مشكلة توليد نصية قائمة على الأدلة ويمكن أن تستوعب النماذج المحددة مسبقا في بنية بسيطة. نستخدم مبدأ معلومات عنق المعلومات لتدريب الاستخلاص والتجريد المشترك في أزياء نهاية إلى نهاية. مستوحاة من البحث السابق الذي يستخدمه البشر إطارا من مرحلتين لتلخيص المستندات الطويلة (Jing و McKeown، 2000)، فإن إطار عملائنا أولا يستخرج كمية محددة مسبقا من الأدلة التي تمتد ثم يولد ملخصا باستخدام الأدلة فقط. باستخدام التقييمات التلقائية والبشرية، نوضح أن الملخصات التي تم إنشاؤها أفضل من خطوط الأساسيات الاستخراجية والاستخراجية الدخرية.
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب
ة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.
pimentel et al. (2020) تم تحليلها مؤخرا التحقيق من منظور نظرية المعلومات. يجادلون بأن التحقيق يجب أن ينظر إليه على أنه يقترب المعلومات المتبادلة. هذا أدى إلى الاستنتاج دون المستوى إلى حد ما أن تمثل التمثيلات نفسها بالضبط نفس المعلومات حول المهمة المس
تهدفة كجمل أصلية. ومع ذلك، فإن المعلومات المتبادلة تفترض أن توزيع الاحتمالات الحقيقي لزوج من المتغيرات العشوائية معروفة، مما يؤدي إلى نتائج دون المستوى في الإعدادات التي لا يكون فيها. تقترح هذه الورقة إطارا جديدا لقياس ما نقوم بمصطلح معلومات البايز المتبادلة، والتي تحلل المعلومات من منظور عملاء البيئة --- السماح بنتائج أكثر بديهية في السيناريوهات مع البيانات المحدودة. على سبيل المثال، تحت Bayesian MI، لدينا أن البيانات يمكن أن تضيف معلومات، ومعالجة يمكن أن تساعد، والمعلومات يمكن أن تؤذي، مما يجعلها أكثر بديهية لتطبيقات التعلم الآلي. أخيرا، نطبق إطار عملنا على التحقيق حيث نعتقد أن المعلومات المتبادلة بايزي تعمل بشكل طبيعي بسهولة سهولة الاستخراج من خلال الحد الصريح لمعرفة الخلفية المتاحة لحل المهمة.
تعد المعلومات التي تطلبها خطوة أساسية للسؤال المفتوح الإجابة على جمع الأدلة الكفاءة من كوربوس كبيرة. في الآونة الأخيرة، أثبتت النهج التكرارية أن تكون فعالة للأسئلة المعقدة، من خلال استرداد أدلة جديدة بشكل متكرر في كل خطوة. ومع ذلك، فإن جميع الأساليب
التكرارية الحالية تقريبا تستخدم استراتيجيات محددة مسبقا، إما تطبيق نفس وظيفة الاسترجاع عدة مرات أو إصلاح ترتيب وظائف استرجاع مختلفة، والتي لا يمكنها الوفاء بالمتطلبات المتنوعة من الأسئلة المختلفة. في هذه الورقة، نقترح استراتيجية رواية تكيفية تسعى للحصول على معلومات عن أسئلة مفتوحة، وهي AISO. على وجه التحديد، يتم تصميم عملية الاسترجاع والأجوبة بأكملها كعملية اتخاذ قرار Markov الملحوظ جزئيا، حيث يتم تعريف ثلاثة أنواع من عمليات استرجاع (مثل E.G.، BM25 و DPR وارتباط التشعبي) وعملية إجابة واحدة كإجراءات. وفقا للسياسة المستفادة، يمكن ل AISO اختيار إجراءات استرجاع مناسبة ستكيفا للبحث عن الأدلة المفقودة في كل خطوة، بناء على الأدلة التي تم جمعها واستفسلة إعادة صياغة، أو إخراج الإجابة مباشرة عندما تكون مجموعة الأدلة كافية للسؤال. تبين تجارب في تشكيلة مفتوحة و hotpotqa fullwiki، التي تخدم مع معايير قافلة واحدة مفتوحة ومتعددة النطاق، أن AISO تفوقت على جميع الأساليب الأساسية مع استراتيجيات محددة مسبقا فيما يتعلق بتقييمات الاسترجاع والإجابة.
يصف استخراج المعلومات عبر اللغات الصفرية (IE) بناء نموذج IE لبعض اللغة المستهدفة، بالنظر إلى التعليقات التوضيحية القائمة حصريا في لغة أخرى، عادة باللغة الإنجليزية. في حين أن تقدم اللوائح المتعددة اللغات المحددة مسبقا يشير إلى تفاؤل سهلة للقطار على ال
لغة الإنجليزية، وتشغيل أي لغة ""، نجد من خلال استكشاف شامل وتمديد التقنيات التي تقودها مجموعة من الأساليب، الجديدة القديمة، إلى أداء أفضل من أي استراتيجية واحدة عبر اللغات على وجه الخصوص. نستكشف التقنيات بما في ذلك إسقاط البيانات والتدريب الذاتي، وكيف تأثير المشفرات المختلفة مسبقا تأثيرها. نستخدم English-to-businal IE مثلي الأولي، مما يدل على أداء قوي في هذا الإعداد لاستخراج الأحداث، والتعرف على الكيان المسمى، ووضع علامات جزء من الكلام، وتحليل التبعية. ثم قم بتطبيق إسقاط البيانات والتدريب الذاتي على ثلاثة مهام عبر ثمانية لغات مستهدفة. نظرا لعدم وجود مجموعة واحدة من التقنيات الأفضل عبر جميع المهام، فإننا نشجع الممارسين على استكشاف تكوينات مختلفة للتقنيات الموضحة في هذا العمل عند السعي لتحسين التدريب على الصفر.
نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحال
ة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.
تفترض أن معظم الدراسات السابقة حول حالة المعلومات (IS) تصنيف وتجسير التعرف anaphora أن ذكر الذهب أو معلومات شجرة النحوية يتم إعطاء (Hou et al.، 2013؛ Roesiger et al.، 2018؛ هو، 2020؛ يو ويوسيو، 2020) وبعد في هذه الورقة، نقترح نهج عصبي نهاية إلى نهج ل
تصنيف حالة المعلومات. يتكون نهجنا من مكون استخراج الأوراق ومكون مهمة لحالة المعلومات. خلال وقت الاستدلال، يأخذ نظامنا نصا الخام حيث أن المدخلات ويولد يشرح مع وضع المعلومات الخاصة بهم. على Corpus Isnotes (Markert et al.، 2012)، نوضح أن مكون تعيين حالة معلوماتنا يحقق نتائج جديدة من الفنادق الجديدة على الحبيبات الجميلة التصنيف بناء على طلب الذهب. علاوة على ذلك، يؤدي نظامنا أفضل بكثير من خطوط الأساس الأخرى لكلا من الاستخراج والحبوب الدقيق التصنيف في الإعداد النهائي. أخيرا، نطبق نظامنا على باشي (Roesiger، 2018) و SCICORP (Roesiger، 2016) للتعرف على الحسارة المرجعية. نجد أن نظامنا المنتهي بنا مدروسا على ISNOT يحقق نتائج تنافسية بشأن تجسيد التعرف على الحساب مقارنة بالنظام السابق الذي يعتمد على معلومات النحوية وتدرب على مجموعات البيانات داخل المجال (YU و Poesio ، 2020).
استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة ال
نطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط الكلي من التوقعات في الوقت المحدد، على التوالي.
تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم
إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.