تعد التصنيفات موارد قيمة للعديد من التطبيقات، ولكن التغطية المحدودة بسبب عملية العمالة اليدوية باهظة الثمن تعوق إمكانية تطبيقها العام. محاولة Works السابقة لتوسيع تصنيفات الأدتصات الموجودة تلقائيا لتحسين تغطيتها من خلال تضمين التعلم بمشاركة مفهوم في
الفضاء الإقليدية، في حين أن التصنيفات، التسلسل الهرمي بطبيعتها، محاذاة بشكل طبيعي مع الخصائص الهندسية للفضاء القطعي. في هذه الورقة، نقدم HyperExpan، خوارزمية توسيع تصنيفية تسعى إلى الحفاظ على هيكل التصنيف في مساحة أكثر تعبيرا معبرة وتتعلم أن تمثل المفاهيم وعلاقاتها مع شبكة عصبية خاطئة (HGNN). على وجه التحديد، ترفع Hyperexpan تضمينات الموضع لاستغلال هيكل التصنيفات الموجودة، وتميز معلومات ملف تعريف المفهوم لدعم الاستدلال على مفاهيم جديدة غير مرئية أثناء التدريب. تشير التجارب إلى أن Hyperexpan المقترح تفوق النماذج الأساسية بنماذج أساسية مع التعلم التمثيلي في مساحة ميزة Euclidean وتحقق أداء حديثة على معايير التوسع التصنيفية.
نحن ندرس تصنيف التفضيل المقارن (CPC) الذي يهدف إلى التنبؤ بما إذا كان مقارنة الأفضلية موجودة بين كيانين في عقوبة معينة، وإذا كان الأمر كذلك، فهذا، يفضل الكيان على الآخر. يمكن أن نماذج CPC عالية الجودة تستفيد بشكل كبير تطبيقات مثل السؤال المقارن الرد
التوصية القائمة على المراجعة. من بين الأساليب الحالية، تعاني أساليب التعلم غير العميقة من أداء أدنى. الرسم البياني لحديث الحديث في الشبكة العصبية المستندة إلى الشبكة (ما، و 2020) يعتبر فقط المعلومات النحوية مع تجاهل العلاقات الدلالية الحاسمة والمشاعر إلى الكيانات المقارنة. نقترح أن نقترح تحليل المعنويات الشبكة المقارنة المعززة (Saecon) الذي يحسن دقة الحزب الشيوعي الصيني مع محلل معنويات يتعلم المشاعر إلى الكيانات الفردية عبر نقل المعرفة التكيفية المجال. يجري التجارب على مجموعة بيانات Compsent-19 (Panchenko et al.، 2019) تحسنا كبيرا على درجات F1 على أفضل طرق CPC الحالية.
إن كيان مشترك واستخراج العلاقات يمثل تحديا بسبب التفاعل المعقد للتفاعل بين التعرف على الكيان المسمى واستخراج العلاقة. على الرغم من أن معظم الأعمال القائمة تميل إلى تدريب هذه المهامتين المشتركين من خلال شبكة مشتركة، إلا أنها تفشل في الاستفادة الكاملة
من الترابط بين أنواع الكيان وأنواع العلاقات. في هذه الورقة، نقوم بتصميم شبكة مزدوجة متزامنة رواية (SDN) مع اهتمام عبر النوع عبر الانتباه بشكل منفصل وتفاعي تفاعلي أنواع الكيان وأنواع العلاقات. من ناحية، يعتمد SDN اثنين من النوع BI اتجاهي ISOMORPHIC LSTM لترميز التمثيلات المحسنة نوع الكيان والتمثيلات المحسنة نوع العلاقة، على التوالي. من ناحية أخرى، نماذج SDN صراحة الترابط بين أنواع الكيان وأنواع العلاقات عبر آلية الاهتمام عبر النوع. بالإضافة إلى ذلك، نقترح أيضا استراتيجية تعليمية متعددة المهام الجديدة عبر النمذجة تفاعل نوعين من المعلومات. تجارب مجموعات بيانات NYT و WEBNLG تحقق من فعالية النموذج المقترح، وتحقيق الأداء الحديث في الفن.
التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه
في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
يمكن أن تكشف نمط النص أن يكشف السمات الحساسة للمؤلف (E.G. العمر والسباق) للقارئ، والذي يمكن، بدوره، يؤدي إلى انتهاكات الخصوصية والتحيز في كل من القرارات البشرية والخضارات على أساس النص. على سبيل المثال، قد تكشف أسلوب الكتابة في تطبيقات الوظائف عن سما
ت المرشح المحمية التي يمكن أن تؤدي إلى التحيز في اتخاذ القرارات، بغض النظر عما إذا كانت القرارات التوصية مجددا أو من قبل البشر. نقترح إطارا أساسيا يستند إلى VAE يهدف إلى توضيح الملامح الأسلوبية للنص الذي تم إنشاؤه بشريا من خلال نقل النمط، عن طريق إعادة كتابة النص نفسه تلقائيا. نقدي، يعمل إطار عملنا على فكرة النمط الذي تم توعيته بطريقة مرنة تمكن مفاهيمين متميزين من النمط المباشر: (1) الحد الأدنى من الفكرة التي تتقاطع بشكل فعال أن الأنماط المختلفة التي شوهدت في التدريب، و (2) مفهوم أقصى يسعى إلى التباطؤ بإضافة ميزات أسلوبية لجميع السمات الحساسة إلى النص، ساري المفعول، حوسبة نقابة الأساليب. يمكن استخدام إطار عملنا النمط الخاص بنا لأغراض متعددة، ومع ذلك، فإننا نوضح فعاليته في تحسين نزاهة المصب المصب. نقوم أيضا بإجراء دراسة شاملة عن تأثير تجمع الأنماط على الطلاقة والاتساق الدلالي، وإزالة السمة من النص، في اثنين وثلاث نقل نمط النطاق.
نقدم تصنيف التصنيف بتطبيع بالتناوب (CAN)، خطوة غير معالجة غير رسمية للتصنيف.يمكن أن يحسن دقة التصنيف للأمثلة الصعبة من خلال إعادة ضبط توزيع احتمالية الفئة المتوقعة باستخدام توزيعات الطبقة المتوقعة لأمثلة التحقق من الثقة عالية الثقة.يمكن أن ينطبق بسهو
لة على أي مصنف الاحتمالية، مع الحد الأدنى من الحساب النفقات العامة.نقوم بتحليل خصائص يمكن استخدام تجارب محاكاة، وإظهار تجريبيا فعاليتها عبر مجموعة متنوعة من مهام التصنيف.
يتم وضع تقدير الجودة على مستوى الجملة (QE) من الترجمة الآلية بشكل تقليدي كملقمة الانحدار، ويتم قياس أداء نماذج QE عادة بواسطة ارتباط بيرسون مع ملصقات بشرية. حققت نماذج QE الأخيرة مستويات ارتباطا غير مرئي مسبقا بأحكام بشرية، لكنها تعتمد على نماذج لغوي
ة محلية متعددة اللغات الكبيرة باهظة الثمن بشكل حسابي وجعلها غير ممكنة لتطبيقات العالم الحقيقي. في هذا العمل، نقوم بتقييم العديد من تقنيات ضغط النماذج ل QE والعثور على ذلك، على الرغم من شعبيتها في مهام NLP الأخرى، فإنها تؤدي إلى ضعف الأداء في وضع الانحدار هذا. نلاحظ أن هناك حاجة إلى معلمة نموذجية كاملة لتحقيق نتائج SOTA في مهمة الانحدار. ومع ذلك، فإننا نجادل بأن مستوى التعبير عن نموذج في مجموعة مستمرة غير ضرورية لإحضار تطبيقات المصب في QE، وإظهار أن إعادة صياغة QE كمشكلة تصنيف وتقييم نماذج QE باستخدام مقاييس التصنيف من شأنها أن تعكس أدائها الفعلي بشكل أفضل في الواقع تطبيقات العالم.
تحليل التبعية عبر المجال غير الخاضع للإكمال هو إنجاز تكيف مجال تحليل التبعية دون استخدام البيانات المسمى في المجال المستهدف. غالبا ما تكون الأساليب الحالية من نوع التوضيح الزائفة، والتي تنشئ البيانات من خلال التوضيح الذاتي للنموذج الأساسي وأداء التدر
يب التكراري. ومع ذلك، فشلت هذه الطرق في النظر في تغيير هيكل النموذج لتكييف المجال. بالإضافة إلى ذلك، لا يمكن استغلال المعلومات الهيكلية الواردة في النص بالكامل. لعلاج هذه العيوب، نقترح محلل التبعية التبعية للتكيف مع بنية دلالات (SSADP)، التي تنجز تحليلات التبعية عبر المجال غير الخاضعة للكشف دون الاعتماد على التوضيح الزائفة أو اختيار البيانات. على وجه الخصوص، نقوم بتصميم اثنين من النازعين ميزة لاستخراج الميزات الدلالية والهيكلية على التوالي. لكل نوع من الميزات، يتم استخدام طريقة تكيف الميزة المقابلة لتحقيق تكيف المجال لمواءمة توزيع المجال، والتي تعزز بشكل فعال إمكانية نقل المجال المتقاطع بشكل فعال للنموذج. نحن نقوم بالتحقق من فعالية طرازنا عن طريق إجراء تجارب على Codt1 و CTB9 على التوالي، وتظهر النتائج أن نموذجنا يمكن أن يحقق تحسين أداء ثابتا. علاوة على ذلك، نتحقق من قدرة نقل الهيكل النموذج المقترح عن طريق إدخال اختبار Weisfeiler-Lehman.
تصنيف قانون الحوار (DA) هو مهمة تصنيف الكلمات فيما يتعلق بالوظيفة التي يخدمها في حوار.الأساليب الحالية لإعلام نموذج تصنيف DA دون دمج التغييرات بدوره بين مكبرات الصوت في جميع أنحاء الحوار، وبالتالي تعاملها لا تختلف عن النص المكتوب غير التفاعلي.في هذه
الورقة، نقترح دمج التغييرات بدوره في المحادثات بين مكبرات الصوت عند النمذجة DAS.على وجه التحديد، نحن نتعلم المحادثة - تحويل المتكلم بدوره لتمثيل المتكلم يتحول في محادثة؛ثم يتم دمج Attringdings بدوره المتحدث المستفاد مع تضمين الكلام لمهام التنفيذ في تصنيف DA.مع هذه الآلية البسيطة والفعالة، فإن نموذجنا قادر على التقاط الدلالات من محتوى الحوار أثناء محاسبة المتكلم المختلفة في محادثة.التحقق من الصحة على ثلاث مجموعات بيانات عامة معيار يدل على الأداء الفائق لنموذجنا.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق
ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.