ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف النصوص العربية باستخدام الخصائص العرضية في قواعد البيانات

Classification Of Arabic Texts Using Object Properties In Databases

2014   5   41   0 ( 0 )
 تاريخ النشر 2016
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

قدمنا في هذا البحث دراسة مفصلة لطرق التنقيب في البيانات النصية و الإمكانيات المتوفرة في لغة الاستعلام الإجرائية PL/SQL التي تتعامل مع قواعد بيانات أوراكل الغرضية للقيام بذلك. و من ثم قمنا ببناء نموذج تنقيب يعمل على تصنيف وثائق النصوص العربية باستخدام خوارزمية SVM لفهرستها و من ثم تحويلها إلى جداول بيانات مدخلة في جداول الحالة لتصنيفها باستخدام خوارزمية Naïve Bayes و قدمنا الاستنتاجات و التوصيات بعد تقييم النتائج التي حصلنا عليها.

المراجع المستخدمة
AGGARWAL, CH ,2014–Data Classification Algorithms and Applications. First Edition, Taylor & Francis Group, LLC, New York, USA,64P
ALPAYDIN, E, 2010-Introduction to Machine Learning. Second Edition, Cambridge, Massachusetts London, England, 579p
BARBER,D,2010-Bayesian Reasoning and Machine Learning. First Edition, Cambridge University Press, London, England, 610p
قيم البحث

اقرأ أيضاً

نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على 338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفا ت التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.
في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي مجموعة من الحكايات، الاقتباسات، إلخ، أي شيء مؤلفين ينظرون إلى جديرة بالملاحظة، تمتد Biji مئات السنين عبر العديد من السلالات والحفاظ على لغة غير رسمية في شكل مكتوب. لهذه الأسباب، يعتبرون موردا جيدا لتحقيق تغيير اللغة في الصينية (فانغ، 2010). في هذه الورقة، نقوم بإنشاء مجموعة بيانات جديدة من 108 Biji عبر أربع سلالات. بناء على DataSet، نقدم أولا مهمة تصنيف الفترة الزمنية للصينيين. ثم نحقق في طرق تمثيل ميزة مختلفة للتصنيف. تظهر النتائج أن النماذج باستخدام المدينات السياقية تؤدي الأفضل. يؤكد تحليل لأعلى الميزات المختارة من قبل نموذج Word N-Gram (بعد التبييض الأسماء المناسبة) أن هذه الميزات مفيدة وتتوافق مع الملاحظات والافتراضات المقدمة من اللغويين التاريخيين.
في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r وال عربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.
اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
نستخدم شبكات انتباه Hypergraph (Hypergat) للتعرف على ملصقات متعددة من النصوص الصينية الفكاهة.نحن أولا تمثل مزحة كملفوق.يتم استخدام هياكل Hyperedge المتسلسلة واللالسة الدلالية لبناء Hyperedges.ثم، يتم اعتماد آليات الاهتمام لمعلومات السياق التجميعية ال مضمنة في العقد والمواد التوظيف.أخيرا، نستخدم Hypergat المدربين لإكمال مهمة تصنيف العلامات المتعددة.أظهرت النتائج التجريبية على مجموعة بيانات الفكاهة الصينية متعددة التسمية أن نموذج Hypergat يتفوق على النماذج السابقة على التسلسل السابق (CNN، Bilstm، FastText) ورسم الرسم البياني (Graph-CNN، TextGcn، GNN Level Student).
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا