ترغب بنشر مسار تعليمي؟ اضغط هنا

اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
نقدم في بحثنا طريقة بسيطة, لتمييز صور المحارف المكتوبة يدوياً بالاعتماد على عمليات التنقيب التنبئي. و ذلؾ من خلال استخراج إحداثيات النقاط السوداء من صور المحارف الثنائية اللون (أسود, أبيض) المستخدمة في مراحل التدريب و الاختبار. و تخزينها في قاعدة بيانات, و فق بنية مناسبة لعمليات التنقيب التنبئي (بيانات تدريب و بيانات اختبار). و من ثم استخدام بيانات التدريب المستخرجة لبناء نموذج تنبئي يساعد على تمييز صور الاختبار, اعتماداً على خصائصها المستخرجة. و قد أجرينا عدة اختبارات على عينات مختلفة من صور المحارف المكتوبة يدوياً, و حصلنا على نتائج دقيقة, ضمن الشروط المطلوبة.
في السنوات الأخيرة، تلقت معالجة الوقت الحرج (المعالجة في الوقت الحقيقي) وتحليل البيانات الكبيرة قدراً كبيراً من الاهتمام. فهناك العديد من المجالات التي يمكن فيها معالجة البيانات في الوقت الفعلي، حيث أن اتخاذ القرارات في الوقت المناسب يستطيع إنقاذ ا لآلاف من الأرواح البشرية، التقليل من مخاطر أرواح البشر والموارد، تعزيز نوعية حياة البشر، تعزيز فرص الربحية، وإدارة الموارد بفعالية. فتأتي هنا هذه الورقة التي تسّلط الضوء على هذا النوع من التطبيقات التحليلية للبيانات الكبيرة في الوقت الحقيقي وتصّنف تلك التطبيقات. بالإضافة إلى ذلك، فإنها تقدم نظرة عامة على البيانات الكبيرة لوصف المعرفة الأساسية في هذا المجال، فضلاً عن علاقة البيانات الكبيرة بتعلم الآلة وكيفية ربطهم سويًة لتحسين الأداء ورفع سويته.
يهدف التنقيب في النصوص بشكل عام إلى تحليل النصوص لاستخلاص معارف ذات جودة عالية من عدة مصادر نصية، والربط فيما بينها لتشكيل حقائق وفرضيات جديدة. تعد الأوراق البحثية التمثيل الأكثر اكتمالاً للمعرفة البشرية. وقد ساهمت حركة "الوصول المفتوح" إلى الأوراق ا لبحثية، بالإضافة إلى ازدهار حقل التعلم الآلي في الآونة الأخيرة وتوفر الأدوات البرمجية والعتادية بكلف منخفضة نسبياً، بتداعي الحواجز المعيقة لعملية التنقيب في نصوص الأوراق البحثية. في تتمة هذه الدراسة سنستعرض مجموعة من أساليب التنقيب في النصوص العلمية من حيث أهميتها، مجالات استخدامها، وطرق تطبيقها.
حظيت نمذجة وتوقع السلاسل الزمنية بأهمية كبيرة في العديد من المجالات التطبيقية كالتنبؤ بالطقس وأسعار العملات ومعدلات استهلاك الوقود والكهرباء، إن توقع السلاسل الزمنية من شأنه أن يزود المنظمات والشركات بالمعلومات الضرورية لاتخاذ القرارات الهامة، وبسبب أهمية هذا المجال من الناحية التطبيقية فإن الكثير من الأعمال البحثية التي جرت ضمنه خلال السنوات الماضية، إضافةً إلى العدد الكبير من النماذج والخوارزميات التي تم اقتراحها في أدب البحث العلمي والتي كان هدفها تحسين كل من الدقة والكفاءة في نمذجة وتوقع السلاسل الزمنية.
في هذا البحث, نقارن ثلاثة طرق نمذجة أهداف مباريات كرة القدم مع الأخذ بعين الاعتبار الأداء المتنبئ به اعتمادا على جميع المباريات في كؤوس الفيفا الأربعة السابقة 2002--2014: نماذج الانحدار بواسون, طرق الغابات العشوائية, وطرق الترتيب.
3424 - MIT press 1999 كتاب
أصبحت الأساليب الإحصائية لمعالجة اللغات الطبيعية مهيمنة في السنوات الأخيرة. يوفر هذا الكتاب تغطية واسعة وعميقة للأسس الرياضية واللغوية لهذه الطرائق، بالإضافة إلى ذلك, يزوّد الكتاب شرح مفصل للأساليب الإحصائية ، مما يسمح للطلاب والباحثين ببناء تطبيقاتهم الخاصة.
1950 - MIT press 2016 كتاب
هذا الكتاب تم وضعه من قبل ثلاثة خبراء في المجال, وهو الكتاب الوحيد الذي يشرح تفاصيل واضحة في هذا الموضوع - ايلون موسك
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا