ترغب بنشر مسار تعليمي؟ اضغط هنا

يصف استخراج المعلومات عبر اللغات الصفرية (IE) بناء نموذج IE لبعض اللغة المستهدفة، بالنظر إلى التعليقات التوضيحية القائمة حصريا في لغة أخرى، عادة باللغة الإنجليزية. في حين أن تقدم اللوائح المتعددة اللغات المحددة مسبقا يشير إلى تفاؤل سهلة للقطار على ال لغة الإنجليزية، وتشغيل أي لغة ""، نجد من خلال استكشاف شامل وتمديد التقنيات التي تقودها مجموعة من الأساليب، الجديدة القديمة، إلى أداء أفضل من أي استراتيجية واحدة عبر اللغات على وجه الخصوص. نستكشف التقنيات بما في ذلك إسقاط البيانات والتدريب الذاتي، وكيف تأثير المشفرات المختلفة مسبقا تأثيرها. نستخدم English-to-businal IE مثلي الأولي، مما يدل على أداء قوي في هذا الإعداد لاستخراج الأحداث، والتعرف على الكيان المسمى، ووضع علامات جزء من الكلام، وتحليل التبعية. ثم قم بتطبيق إسقاط البيانات والتدريب الذاتي على ثلاثة مهام عبر ثمانية لغات مستهدفة. نظرا لعدم وجود مجموعة واحدة من التقنيات الأفضل عبر جميع المهام، فإننا نشجع الممارسين على استكشاف تكوينات مختلفة للتقنيات الموضحة في هذا العمل عند السعي لتحسين التدريب على الصفر.
على الرغم من أن المراجع الشمية تلعب دورا حاسما في ذاكرتنا الثقافية، إلا أن عددا قليلا فقط في NLP حاولت التقاطها من منظور حسابي. حاليا، والتحدي الرئيسي ليس الكثير من تطوير المكونات التكنولوجية لاستخراج المعلومات الشمية، بالنظر إلى التقدم الأخير في الم عالجة الدلالية وفهم اللغة الطبيعية، بل عدم وجود إطار نظري لالتقاط هذه المعلومات من وجهة نظر لغوية، ك الخطوة الأولية نحو تطوير النظم الآلية. لذلك، في هذا العمل، نقدم الإرشادات التوضيحية، التي تم تطويرها بمساعدة علماء التاريخ وخبراء المجال، تهدف إلى التقاط جميع العناصر ذات الصلة المشاركة في حالات أو أحداث شمية موضحة في النصوص. وقد استوحاد هذه المبادئ التوجيهية من شرح Framenet، لكنها خضعت لبعض التكيفات، والتي يتم تفصيلها في هذه الورقة. علاوة على ذلك، نقدم دراسة حالة فيما يتعلق بشراحف الحالات الشمية في كتابات السفر التاريخية الإنجليزية التي تصف الرحلات إلى إيطاليا. يظهر تحليلا لأكثر الحشو الدور الأكثر شيوعا أن الأوصاف الشمية تتعلق ببعض المجالات النموذجية مثل الدين والطعام والطبيعة والماضي القديم والمرافق الصحية الفقراء، وكل ذلك يدعم إنشاء صور نمطية مرتبطة بإيطاليا. من ناحية أخرى، فإن المشاعر الإيجابية الناجمة عن الروائح سائدة، وتساهم في تأطير السفر إلى إيطاليا كخبرة مثيرة تنطوي على جميع الحواس.
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
نقوم بإلقاء مجموعة من مهام استخراج المعلومات في إطار ترجمة نصية إلى ثلاثية. بدلا من حل كل مهمة تعتمد على مجموعات البيانات والنماذج الخاصة بالمهام، نقوم بإضفاء الطابع الرسمي على المهمة كترجمة بين نص الإدخال الخاص بمهارات المهام وتصل إلى ثلاث مرات. من خلال اتخاذ المدخلات الخاصة بالمهامة، فإننا تمكن الترجمة المرجعية على المهام من خلال الاستفادة من المعرفة الكامنة التي يحتوي عليها نموذج لغة مدرب مسبقا حول المهمة. نوضح كذلك أن مهمة ما قبل التدريب البسيطة المتمثلة في التنبؤ بالمعلومات العلاجية التي تتوافق مع نص الإدخال هو وسيلة فعالة لإنتاج مخرجات خاصة بالمهام. وهذا يتيح نقل الطلقة الصفرية لإطارنا إلى مهام المصب. ندرس أداء الطلقة الصفرية لهذا الإطار في استخراج المعلومات المفتوح (OIE2016، NYT، WEB، PENN)، تصنيف العلاقة (عدد قليل من الألوان والمستقبلية)، والتحقيق الواقعي (Google-Re و T-Rex). التحويلات النموذجية غير تيهية لمعظم المهام وغالبا ما تكون تنافسية مع طريقة تحت إشراف بالكامل دون الحاجة إلى أي تدريب خاص بمهام. على سبيل المثال، نتفوق بشكل كبير على درجة F1 من استخراج المعلومات المفتوح الخاضعة للإشراف دون الحاجة لاستخدام مجموعة التدريب الخاصة بها.
استخراج المعلومات هو تكنولوجيا أساسية لمعالجة اللغات الطبيعية، والتي تستخرج بعض العبارات / البنود ذات مغزى من محتوى غير منظم أو غير محدود إلى موضوع معين.يمكن القول أن التكنولوجيا الأساسية للعديد من التقنيات والتطبيقات اللغوية.تقدم هذه الورقة منصة AI Clerk، والتي تهدف إلى تسريع وتحسين العملية برمتها وراحة تطوير أدوات استخراج المعلومات.توفر منصة AI Clerk واجهة وصف يدوية ودية وبديهية، وتضع تسمية دلالية مناسبة محتاجة، وتنفذ، وتوزيع وتضخم مهام الوصف اليدوي، بحيث يمكن للمستخدمين إكمال نماذج استخراج المعلومات المخصصة دون برمجة وعرض نتائج التنبؤ تلقائيا من النماذجثلاث طريقة.منصة Clerk AI تساعد في تطوير تقنيات معالجة اللغة الطبيعية الأخرى واشتقاق خدمات التطبيقات.
تقدم هذه الورقة مساعينا لحل المهام 11، NLPContribeGraph، Semeval-2021. كان الغرض من المهمة استخراج ثلاث مرات من ورقة في مجال معالجة لغة الطبيعة لإنشاء رسم بياني لمعرفة بحث مفتوح. تتضمن المهمة ثلاثة مهام فرعية: اكتشاف أحكام المساهمة في الأوراق وتحديد العبارات العلمية والعبارات المسندة من أحكام المساهمة؛ واستنتاج ثلاث مرات في شكل (الموضوع، المسند، كائن) كبيانات لبناء الرسم البياني المعرفة. في هذه الورقة، نطبق مجموعة من مختلف نماذج اللغة المدربة مسبقا بشكل جيد (PLM) للمهام واحدة واثنين. بالإضافة إلى ذلك، يتم اعتماد أساليب التدريب الذاتي لمعالجة النقص في البيانات المشروح. للمهمة الثالثة، بدلا من استخدام هياكل استخراج المعلومات المفتوحة الكلاسيكية (OIE) الكلاسيكية، فإننا نولد ثلاث مرات محتملة عبر القواعد المصممة يدويا وتطوير مصنف ثنائي للتمييز بين الآخرين من الآخرين. تظهر النتائج الكمية أننا نحصل على المرتبة الرابعة والثانية والثانية في ثلاث مراحل تقييم.
نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة م ن المستندات المشروح. قمنا بتدريب نموذج NER مقره BERT مع Wikipii وأظهر أنه مع مجموعة بيانات تدريبية كبيرة بشكل مناسب، يمكن أن يقلل النموذج بشكل كبير من تكلفة استخراج المعلومات اليدوية، على الرغم من المستوى العالي من الضوضاء التسمية. في نهج مماثل، يمكن للمنظمات الاستفادة من تقنيات التعدين النصية لإنشاء مجموعات بيانات مخصصة مشروحة من بياناتها التاريخية دون مشاركة البيانات الخام للتعليق البشري البشري. أيضا، نستكشف التدريب التعاوني للنماذج NER من خلال التعلم الفيدرالي عندما يكون التوضيحي صاخبا. تشير نتائجنا إلى أنه اعتمادا على مستوى الثقة إلى مشغل ML وحجم البيانات المتاحة، يمكن أن يكون التدريب الموزع طريقة فعالة لتدريب معرف معلومات شخصي بطريقة محفوظة خصوصية. المواد البحثية متاحة في https://github.com/ratmcu/wikipiifed.
تعمل الأعمال الموجودة على استخراج المعلومات (IE) بشكل أساسي المهام الرئيسية الأربعة بشكل منفصل (إبلاغ الكيان بالاعتراف بالاعتراف، واستخراج العلاقة، والكشف عن الحدث، واستخراج الوسيطة)، وبالتالي الفشل في الاستفادة من التبعيات بين المهام. تقدم هذه الورق ة نموذجا تعليميا عميقا جديدا لحل المهام الأربع الأربعة في وقت واحد في نموذج واحد (يسمى Fourie). بالمقارنة مع عدد قليل من العمل السابق في أداء مهام IE المشتركة، تتميز Fourie بمساهمات جديدة لالتقاط التبعيات بين المهام. أولا، في مستوى التمثيل، نقدم رسم بياني تفاعل بين مثيلات المهام الأربعة المستخدمة لإثراء تمثيل التنبؤ بمثيل واحد مع أولئك من مثيلات المهام الأخرى ذات الصلة. ثانيا، على مستوى العلامة، نقترح رسم بياني للاعتماد لأنواع المعلومات في المهام الأربعة IE التي تلتقط الاتصالات بين الأنواع المعبر عنها في جملة مدخلات. يتم تقديم آلية تنظيمية جديدة لإنفاذ الاتساق بين الرسوم البيانية الذهبية المتوقعة والتنبؤ بها لتحسين تعلم التمثيل. نظهر أن النموذج المقترح يحقق الأداء الحديثة للمفصل IE على كل من إعدادات التعلم أحادية اللغات وغير اللغوية بأثلاثة لغات مختلفة.
إن استخلاص المعلومات هي مهمة العثور على المعلومات المنظمة من نص غير منظم أو نص شبه منظم و هي مهمة هامة في التنقيب بالنصوص و قد تمت دراستها على نطاق واسع في الأوساط البحثية المختلفة بما في ذلك معالجة اللغة الطبيعية، و استرجاع المعلومات و التنقيب عل ى شبكة الإنترنت إضافة إلى مجموعة واسعة من التطبيقات في مجالات التنقيب في الطب الحيوي و الذكاء التجاري. هناك مهمتين أساسيتين لاستخلاص المعلومات و هما التعرف على الكيان و استخلاص العلاقة، المهمة الأولى تشير إلى العثور على الكيانات ذات العلاقة مثل الأشخاص و أسماء الشركات و المواقع ، و المهمة الأخرى تشير إلى العثور على العلاقات الدلالية بين هذه الكيانات.
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا