ترغب بنشر مسار تعليمي؟ اضغط هنا

اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
أصبحت قضية استرجاع المعلومات في يومنا هذا من أهم القضايا والتحدّيات التي تشغل العالم كنتيجة منطقية للتطوّر التكنولوجي المتسارع والتقدم الهائل في الفكر الإنساني والبحوث والدراسات العلمية في شتى فروع المعرفة وما رافقه من ازدياد في كميات المعلومات إلى ح دّ يصعب التحكم بها والتعامل معها. لذا نهدف في مشروعنا إلى تقديم نظام استرجاع معلومات يقوم بتصنيف المستندات حسب محتواها إلا أن عمليّة استرجاع المعلومات تحوي درجة من عدم التأكد في كل مرحلة من مراحلها لذا اعتمدنا على شبكات بيز للقيام بعملية التصنيف وهي شبكات احتماليّة تحوّل المعلومات إلى علاقات cause-and-effect و تعتبر واحدة من أهم الطرق الواعدة لمعالجة حالة عدم التأكد . في البدء نقوم بالتعريف بأساسيّات شبكات بيز ونشرح مجموعة من خوارزميّات بنائها وخوارزميّات الاستدلال المستخدمة ( ولها نوعان دقيق وتقريبي). يقوم هذه النظام بإجراء مجموعة من عمليّات المعالجة الأوليّة لنصوص المستندات ثم تطبيق عمليات إحصائية واحتمالية في مرحلة تدريب النظام والحصول على بنية شبكة بيز الموافقة لبيانات التدريب و يتم تصنيف مستند مدخل باستخدام مجموعة من خوارزميات الاستدلال الدقيق في شبكة بيز الناتجة لدينا. بما أنّ أداء أي نظام استرجاع معلومات عادة ما يزداد دقّة عند استخدام العلاقات بين المفردات (terms) المتضمّنة في مجموعة مستندات فسنأخذ بعين الاعتبار نوعين من العلاقات في بناء الشبكة: 1- العلاقات بين المفردات(terms). 2- العلاقات بين المفردات والأصناف(classes).
تم تطوير نظام خبير لإعراب مفردات الجمل العربية دون تشكيل. يقوم النظام أولاً بإيجاد تصريف الكلمات و نوعها باستخدام أداة (Microsoft (ATK، ويستمد خبرته من قواعد اللغة العربية في إيجاد إعراب مفردات الجمل الإسمية. استجاب النظام بشكل صحيح بنسبة جيدة جداً و تمت مقارنة النتائج الصادرة عنه مع نتائج خبير باللغة العربية.
3424 - MIT press 1999 كتاب
أصبحت الأساليب الإحصائية لمعالجة اللغات الطبيعية مهيمنة في السنوات الأخيرة. يوفر هذا الكتاب تغطية واسعة وعميقة للأسس الرياضية واللغوية لهذه الطرائق، بالإضافة إلى ذلك, يزوّد الكتاب شرح مفصل للأساليب الإحصائية ، مما يسمح للطلاب والباحثين ببناء تطبيقاتهم الخاصة.
التدقيق اللغوي هو عملية فحص نص لاكتشاف الأخطاء الأملائية والقواعدية والدلالية وتصحيحها. يعد تدقيق قواعد ومعاني اللغات الطبيعية من الأهداف الأساسية للمهتمين باللغوات الحاسوبية، لأنه أصبح ضرورياً لتدقيق النصوص المكتوبة على الحواسيب في مجالات متعددة مث ل تدقيق رسائل البريد الالكتروني والنصوص على صفحات المواقع الالكترونية وتدقيق المقالات والأبحاث العلمية، ويمكن استخدامه في تصحيح إجابات الطلاب المكتوبة بالطريقة التقليدية في امتحانات التعليم الالكتروني. يتناول هذا البحث دراسة لمراحل بناء مترجم اختبار المضمون الآلي، حيث يقدم دراسة لمراحل بناء نظام يهتم بالتدقيق القواعدي لجمل اللغة الانكليزية ليتأكد من أنها صحيحة قواعدياً، كما أنه يبين خطوات التحليل المفرداتي الذي يعد نقطة انطلاق لمرحلة التحليل القواعدي، إضافة إلى أنه يوضح مراحل انجاز التحليل القواعدي الذي تمثل ببناء نموذج قواعدي يوصف الجمل البسيطة في اللغة الانكليزية، وتم ذلك من خلال دراسة قواعد اللغة الانكليزية ثم اقتراح أجزاء من هذا النوذج تتناسب مع كل قاعدة، ويعرض تطبيقا برمجيا يتحقق من البناء القواعدي الصحيح لجمل اللغة الانكليزي ويرسم أشجار الاشتقاق الخاصة بها.
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.
البحوث العلمية حول تحليل المشاعر في اللغة العربية محدودة جدا في الوقت الحالي. بينما يوجد العديد من تطبيقات تحليل المشاعر في اللغة الانكليزية, اللغة العربية مازالت تخطو خطى بطيئة في هذا المجال. في هذا البحث، نقوم بعرض تطبيق حول تحليل المشاعر في اللغ ة العربية عبر تطبيق مصنف مشاعر لتغريدات عربية. التغريدات تم تحليلها لكي نحصل على قطبية مشاعر (ايجابية او سلبية)، بما أن البيانات تم جمعها من شبكة التواصل الاجتماعي تويتر, فهذا يعكس أهميتها الكبيرة في الشرق الأوسط، حيث اللغة العربية هي اللغة المحكية.
قمنا في هذا البحث باتباع نهج تحليل المشاعر المعتمد على المعجم لتحديد التوجه العام للطلاب، ايجابي او سلبي او محايد، اذ قمنا بداية ببناء معجم مشاعر انطلاقا من بعض المعاجم المعدة مسبقا ليتم اعتماده في عملية تحليل المشاعر، ثم قمنا بوضع نموذج يوجد رأي الط لاب العام بالاعتماد على المعجم السابق، يعالج النموذج الكتابي الكلمات التي تزيد من حدة المشاعر والرموز التعبيرية وبعض حالات النفي، وقمنا باضافة تفاعلات المستخدمين الأخرين مع المنشورات عند ايجاد التوجه العام بهدف اخذ أراء الطلاب الذين لم يعبروا عن أرائهم بنصوص مكتوبة.
بناء حواسيب تستغني عن أدوات الإدخال محدودة الفضاء (مثل لوحة المفاتيح) وامتلاكها لمقدرة السمع و القراءة ظل من مجالات البحث النشطة في علوم الحاسوب , قدم فيها الباحثون عدد مقدر من الطرق و الخوارزميات لحوسبةالسمع و القراءة ضمن ما يعرف بالتعرف على الأنماط في علوم الحاسوب. ومن بين هذه الطرق الطريقة الشمولية (Holistic approach)، التي أثبتت كفاءتها في التعرف السريع (سمعاً أو قراءة) بالإضافة إلي مفهوم التعلم العميق الذي يعتبر ثورة في مجال تعلم الآلة في الوقت الحالي,وزاد الإهتمام به حديثاً خصوصاً بعد الزيادة الكبيرة في سرعة المعالجة الحاسوبية و التقدم في المعالجة المتوازية. هذه الدراسة تقدم تجارب إدراك ناجحة للشبكات العصبية العميقة في التعرف شمولياً على الأسماء العربية الأكثر شيوعاً، حيث تم إستخدام أدوات التعلم العميق و تمت تجربتها على السبعة أسماءالاكثر شيوعا بحسب مجموعة بيانات جامعة السودان للاسماء (SUST-ARG names) وبعد إجراء مراحل التدريب الخمسة , إستطاعت الشبكة أن تتعرف علي كل الأسماء وبنسبة 100% .
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا