ترغب بنشر مسار تعليمي؟ اضغط هنا

تعتمد منصات وسائل التواصل الاجتماعي عبر الإنترنت على نحو متزايد على تقنيات معالجة اللغة الطبيعية (NLP) للكشف عن محتوى مسيء على نطاق واسع من أجل تخفيف الأضرار التي يسببها لمستخدميها. ومع ذلك، فإن هذه التقنيات تعاني من مختلف تحيزات أخذ العينات والجمعية الموجودة في البيانات التدريبية، والتي غالبا ما تؤدي إلى أداء الفرعية على المحتوى ذي الصلة بالمجموعات المهمشة، مما يحتمل أن يؤدي إلى أضرار غير متناسبة تجاههم. ركزت دراسات حول مثل هذه التحيزات حتى الآن على حفنة فقط من محاور التباينات والمجموعات الفرعية التي تحتوي على التعليقات التوضيحية / المعجم المتاحة. وبالتالي، يتم تجاهل التحيزات المتعلقة بالسياقات غير الغربية إلى حد كبير في الأدبيات. في هذه الورقة، نقدم طريقة خاضعة للإشراف ضعيفا للكشف عن التحيزات المعجمية بقوة في السياقات الجغرافية الثقافية الأوسع نطاقا. من خلال دراسة الحالة حول نموذج كشف للسمية المتوفرة للجمهور، نوضح أن طريقتنا تحدد المجموعات البارزة من الأخطاء المتبادلة الجغرافية، وفي متابعة، توضح أن هذه التجمعات تعكس الأحكام الإنسانية من اللغة الهجومية واللغة الفعلية في تلك السياقات الجغرافية. نحن أيضا إجراء تحليل نموذج تدرب على مجموعة بيانات مع ملصقات الحقيقة الأرضية لفهم هذه التحيزات بشكل أفضل، وتقديم تجارب التخفيف الأولي.
تغطية إعلامية لها تأثير كبير على التصور العام للأحداث. ومع ذلك، فإن وسائل الإعلام هي في كثير من الأحيان منحازة. طريقة واحدة إلى المقالات الإخبارية Bias هي تغيير اختيار الكلمة. يعد التعريف التلقائي للتحيز من خلال اختيار Word صعبة، ويرجع ذلك أساسا إلى عدم وجود مجموعة بيانات قياسية ذهبية وتبعية عالية السياق. تقدم هذه الورقة فاتنة، وهي مجموعة بيانات قوية ومتنوعة تم إنشاؤها بواسطة خبراء مدربين، بحثا عن أبحاث وسائل الإعلام. نحن نحلل أيضا سبب أهمية وضع العلامات الخبيرة ضمن هذا المجال. توفر مجموعة البيانات الخاصة بنا جودة توضيحية أفضل واتفاقية أعلى معلقا من العمل الحالي. وهي تتألف من 3700 جمل متوازنة بين الموضوعات والمنافذ، تحتوي على تسميات وسائل الإعلام على مستوى الكلمة ومستوى الجملة. بناء على بياناتنا، نقدم أيضا وسيلة للكشف عن الجمل التي تحفز التحيز في مقالات إخبارية تلقائيا. يتم تدريب أفضل ما لدينا من النموذج المستند في بيرت المدرب مسبقا على كوربوس أكبر يتكون من ملصقات بعيدة. قم بضبط وتقييم النموذج على مجموعة البيانات الخاضعة للإشراف المقترحة، ونحن نحقق درجة ماكرو F1 من 0.804، مما يتفوق على الأساليب الحالية.
التضليل عبر الإنترنت هو قضية اجتماعية سائدة، مع anversaries تعتمد على الأدوات التي تتراوح من مزيفة رخيصة إلى مزيفة عميقة متطورة. نحن دوافع من سيناريو التهديد حيث يتم استخدام صورة خارج السياق لدعم سرد معين. في حين أن بعض مجموعات البيانات السابقة للكشف عن تناسق نص الصورة تولد عينات من خلال معالجة النص، نقترح مجموعة بيانات حيث تكون كل من الصور والنص غير المدمجة ولكن غير متطابقة. نقدم عدة استراتيجيات لاستعادة الصور المقنعة تلقائيا للحصول على تعليق معين، والتقاط الحالات مع كيانات غير متناسقة أو السياق الدلالي. لدينا نطاق واسع النطاق تلقائيا لوحة بيانات الأخبار: (1) يوضح أن إعادة شحن الصورة التي يحركها الجهاز هي الآن تهديد واقعي، و (2) توفر عينات تمثل حالات تحديا غير متطابقة بين النص والصورة في الأخبار التي تتمكن من تضليل البشر وبعد نحن نقسم عدة نماذج متعددة الوسائط في مجموعة بياناتنا وتحليل أدائها عبر مجالات محاكمة مختلفة والشبكات المرئية.
الاكتشاف الموقف، الذي يهدف إلى تحديد ما إذا كان الفرد هو مفهوم مستهدف أو ضد الكشف عن الرأي العام من تدفقات بيانات وسائل التواصل الاجتماعي الكبيرة. ومع ذلك، فإن التعليق البشري لمحتوى وسائل التواصل الاجتماعي لا يستوفي دائما الموقف "" كما يقاس من خلال ا ستطلاعات الرأي العام. نوضح ذلك من خلال مقارنة موقف الفرد المبلغ عنها مباشرة إلى الموقف الذي استنتج من بيانات وسائل التواصل الاجتماعي الخاصة بهم. استفاد من استطلاع للرأي العام الطولي مع مقاعد Twitter المستفتى، أجرينا هذه المقارنة مع 1،129 فردا في أربع أهداف بارزة. نجد أن الاستدعاء مرتفعا لكل من تصنيفات الموقف المحترفين، ولكن الدقة متغير في عدد من الحالات. نحدد ثلاثة عوامل تؤدي إلى قطع الاتصال بين النص وموقف المؤلف: التناقضات الزمنية والاختلافات في البنيات وأخطاء القياس من كل من المشاركين في المسح والمعجبين. من خلال تقديم إطار لتقييم حدود نماذج الكشف عن الموقف، يوفر هذا العمل نظرة مهمة في الكشف عن الموقف حقا.
مع شعبية عمر الإنترنت الحالي، قدمت المنصات الاجتماعية عبر الإنترنت جسر للتواصل بين الشركات الخاصة والمؤسسات العامة والجمهور.الغرض من هذا البحث هو فهم تجربة المستخدم للمنتج من خلال تحليل بيانات مراجعة المنتجات في حقول مختلفة.نقترح شبكة عصبية مقرها Bil stm والتي غزت المعلومات العاطفية الغنية.بالإضافة إلى النظر في التكافؤ والإثارة وهو أصغر المعلومات العاطفية، يتم دمج علاقة الاعتماد بين النصوص أيضا في نموذج التعلم العميق لتحليل المعنويات.تظهر النتائج التجريبية أن هذا البحث يمكن أن يحقق أداء جيدا في التنبؤ بمفردات التكافؤ والإثارة.بالإضافة إلى ذلك، يمكن أن يكون دمج معلومات VA والاعتماد في نموذج Bilstm أداء ممتاز لتحليل معنويات النص الاجتماعي، والذي يتحقق من أن هذا النموذج فعال في الاعتراف بالمشاعر النص الإنسي الاجتماعي الاجتماعي.
مكنت الوصول الواسع من منصات وسائل التواصل الاجتماعي، مثل Twitter، العديد من المستخدمين من مشاركة أفكارهم وآرائهم وعواطفهم على مواضيع مختلفة عبر الإنترنت. سيسمح القدرة على الكشف عن هذه المشاعر تلقائيا العلماء الاجتماعيين، وكذلك الشركات التي يجب فهم ال ردود بشكل أفضل من الأمم والأزياء. في هذه الدراسة، نقدم مجموعة بيانات تتراوح بين 30،000 تغريدات فارسي تحمل مشاعر EKMAN الأساسية الستة (الغضب والخوف والسعادة والحزن والحزن والكراهية والعجب). هذه هي أول مجموعة بيانات العاطفة المتاحة للجمهور في اللغة الفارسية. في هذه الورقة، نوضح نظام جمع البيانات ووضع العلامات المستخدمة لإنشاء هذه البيانات. نقوم أيضا بتحليل مجموعة البيانات التي تم إنشاؤها، والتي تظهر ميزات وخصائص البيانات المختلفة. من بين أشياء أخرى، نحقق في حدوث مشاعر مختلفة في مجموعة البيانات، والعلاقة بين المعنويات والعاطفة الحالات النصية. تتوفر DataSet علنا ​​في https://github.com/nazaninsbr/persian-emotion-detection.
تصبح الصحة العقلية أكثر اهتماما مؤخرا مؤخرا، والاكتئاب كونه مرض شائع جدا في الوقت الحاضر، ولكن أيضا اضطرابات أخرى مثل القلق أو الاضطرابات القهرية الهوس أو اضطرابات التغذية أو اضطرابات نقص الانتباه / اضطرابات نقص الانتباه / فرط النشاط. توفر كمية كبيرة من البيانات من وسائل التواصل الاجتماعي والسلف الحديث لنماذج التعلم العميق وسيلة قيمة للكشف عن الاضطرابات النفسية تلقائيا من نص عادي. في هذه المقالة، نقوم بتجربة أساليب حديثة في مجموعة بيانات الصحة العقلية SMHD من Reddit (كوهان وآخرون، 2018). مساهمتنا ثلاثة أضعاف: استخدام مجموعة بيانات تتكون من المزيد من الأمراض أكثر من معظم الدراسات، مع التركيز على النص العام بدلا من مجموعات دعم الصحة العقلية والتصنيف من قبل الوظائف بدلا من الأفراد أو المجموعات. بالنسبة للتصنيف التلقائي للأمراض، فإننا نوظف ثلاث نماذج تعليمية عميقة: بيرت روبرتا و XLNet. نحن مضاعفة خط الأساس الذي أنشأه كوهان وآخرون. (2018)، على عينة فقط من مجموعة البيانات الخاصة بهم. نحن نحسن النتائج التي حصلت عليها جيانغ وآخرون. (2020) على تصنيف ما بعد المستوى. إن الدقة التي حصلت عليها مصنف اضطراب الأكل هو أعلى نظرا للوجود الحامل للمناقشات المتعلقة بالسعرات الحرارية والوجبات الغذائية والوصفات وما إلى ذلك، في حين أن الاكتئاب كان لديه أدنى درجة F1، ربما لأن الاكتئاب أكثر صعوبة في تحديد الأفعال اللغوية.
البحث الحديث في التعدين في الرأي أساليب النمذجة القائم على الكلمات القائمة على الكلمات التي توفر متماسكة متفوقة مقارنة بنمذجة الموضوع التقليدية. في هذه الورقة، نوضح كيف يمكن استخدام هذه الطرق لعرض نماذج موضوع مرتبطة على نصوص الوسائط الاجتماعية باستخد ام SocialVistum، لدينا مجموعة أدوات التصور التفاعلية المقترحة. يعرض رسم بياني مع موضوعات كعقدات وارتباطاتهم كحضب. يتم عرض مزيد من التفاصيل بشكل تفاعلي لدعم استكشاف مجموعات نصية كبيرة، على سبيل المثال، الكلمات والجمل التمثيلية والجمل من المواضيع، وتوزيع الموضوع والشعور، وتجميع موضوعات التسلسل الهرمي، وتسميات موضوعية قابلة للتخصيص وموضوعية محددة مسبقا. تعمل مجموعة الأدوات تلقائيا على البيانات المخصصة للتماسك الأمثل. نعرض مثالا عاما من مجموعة الأدوات على البيانات الزحف من مناقشات وسائل التواصل الاجتماعي الإنجليزية حول استهلاك الأغذية العضوية. تؤكد التصور نتائج دراسة بحثية مستهلكية نوعية. SocialVistum وإجراءات التدريب الخاصة به يمكن الوصول إليها عبر الإنترنت.
في هذا العمل، نقدم تحليل جزء واسع النطاق لخطاب مستخدمي وسائل التواصل الاجتماعي مع الاكتئاب.كشفت الأبحاث في علم النفس أن المستخدمين الاكتئابين يميلون إلى أن يكونوا مركزة ذاتيا، أكثر انشغالا مع أنفسهم ويقومون بإعادة المزيد عن حياتهم وعواطفهم.يهدف عملنا إلى الاستفادة من مجموعات بيانات واسعة النطاق والأساليب الحسابية لاستكشاف خطابي كمي.نحن نستخدم مجموعة بيانات الاكتئاب المتاحة للجمهور من التنبؤ بالمخاطر المبكرة في ورشة عمل الإنترنت (ERISK) 2018 واستخراج ميزات جزء من الكلام والعديد من المؤشرات بناء عليها.تكشف نتائجنا عن فروق ذات دلالة إحصائية بين الأفراد الاكتئاب وغير الاكتئاب الذين يؤكدون النتائج من أدب علم النفس الحالي.يوفر عملنا نظرة ثاقبة فيما يتعلق بالطريقة التي يعبر فيها الأفراد الاكتئاب عن أنفسهم على منصات وسائل التواصل الاجتماعي، مما يتيح لنماذج حسابية على علم أفضل للمساعدة في مراقبة الأمراض العقلية ومنعها.
نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرا ت المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا