ترغب بنشر مسار تعليمي؟ اضغط هنا

تمثل قدرة التنقيب في المعطيات ( Data Mining ) على استخلاص معلومات تنبوئية من قواعد معطيات ضخمة أداة فعالة في يد الشركات و الأفراد تتيح لهم التركيز على النواحي التي تهمهم من المعطيات الضخمة التي تولدها مسيرة عملهم اليومية. و مع تزايد أهمية هذا العلم ت زايدت بشكل متسارع الأدوات التي بنيت لتطبيق مفاهيمه النظرية بأسرع ما يمكن , حتى غدا من الصعب اتخاذ القرار حول أي من هذه الأدوات هو الأمثل لأداء مهمتك المرجوة. تقدم الدراسة مقارنة بين أداتي التنقيب في المعطيات الأكثر استخداما وفقا لاستطلاعات الرأي و هما Rapidminer و لغة البرمجة R بهدف مساعدة الباحث أو المطور على اختيار الأنسب بينهما. اعتمدت المقارنة على سبعة معايير : منصة العمل , الخوارزميات المضمنة, الصيغ المتاحة للدخل و الخرج , إمكانية التمثيل الرسومي , تقييم المستخدمين , البنية و امكانيات التطوير , الأداء بتطبيق مجموعة من خوارزميات التصنيف على عدد من مجموعات البيانات ( data set ) و باستخدام تقنيتي تقسيم cross validation و hold-out للتأكد من النتائج . من خلال الدراسة تبين أن R هي الأداة التي تدعم أكبر عدد من الخوارزميات و صيغ الدخل و الخرج و التمثيل الرسومي بينما تفوق Rapidminer من حيث سهولة الاستخدام و دعمه لعدد أكبر من منصات العمل. أما من حيث الأداء فدقة المصنفات التي بنيت باستخدام مكتبات كانت أعلى إلا في بعض الحالات التي فرضتها طبيعة المعطيات حيث لم يضف أي مرحلة معالجة مسبقة. و أخيرا يغدو الخيار في تفضيل أي الأداتين معتمدا على مدى خبرة المستخدم و هدفه من استخدام الأداة.
تقدم هذه الورقة البحثية مقارنة لمجموعة من خوارزميات التنقيب في البيانات Data Mining Algorithms فيما يتعلق بتحليل حوادث المرور، انطلاقاً من مرحلة إدخال البيانات، و ذلك من خلال تحليل بنية التقارير الإحصائية الموجودة في فرع مرور اللاذقية وصولاً إلى مرحل ة التنقيب في البيانات التي تستطيع إيجاد آلية قادرة على دراسة العوامل التي تلعب دوراً في حادث المرور بذكاء من أجل الربط و تحديد مدى العلاقة بينها و أهميتها في تسبب الحادث المروري، و ذلك بعد تصميم بنية مستودع البيانات على أساس قاعدة البيانات التي تم بناؤها لتخزين المعلومات، تم في هذا البحث ذكر مجموعة من النماذج التي تم اختبارها و التي تشكل عينة عن الاختبارات التي بنيت عليها نتائج البحث.
قواعد الارتباط هي حقل هام في التنقيب عن البيانات، و الذي يُستخدم لاكتشاف معرفة مفيدة من قواعد بيانات ضخمة. و تُستخدم قواعد الارتباط لاستخلاص معلومات من صفقات قواعد البيانات. و خوارزمية الأسبقية هي التطبيق العملي لقواعد الارتباط، و بدورها تُستخدم ل إيجاد مجموعات من البيانات المتكررة في صفقات قواعد البيانات. نقدّم في هذا البحث تحسيناً جديداً لخوارزمية الأسبقية بتخفيض توليد مجموعات بنود البيانات المُرشّحة مما يؤدي إلى زيادة فعّالية خوارزمية الأسبقية.
نقدم في بحثنا طريقة بسيطة, لتمييز صور المحارف المكتوبة يدوياً بالاعتماد على عمليات التنقيب التنبئي. و ذلؾ من خلال استخراج إحداثيات النقاط السوداء من صور المحارف الثنائية اللون (أسود, أبيض) المستخدمة في مراحل التدريب و الاختبار. و تخزينها في قاعدة بيانات, و فق بنية مناسبة لعمليات التنقيب التنبئي (بيانات تدريب و بيانات اختبار). و من ثم استخدام بيانات التدريب المستخرجة لبناء نموذج تنبئي يساعد على تمييز صور الاختبار, اعتماداً على خصائصها المستخرجة. و قد أجرينا عدة اختبارات على عينات مختلفة من صور المحارف المكتوبة يدوياً, و حصلنا على نتائج دقيقة, ضمن الشروط المطلوبة.
إن الهدفَ الرئيسي من عمليةِ التنقيب في البيانات هو استخراج المعلومات و اكتشاف المعرفةِ من قواعدِ البياناتِ الضخمة، حيث تُعتبر العنقدة أحد أهم الوظائف التي يمكن القيامَ بها في هذا المجال. يوجدُ العديدُ من طرقِ و خوارزمياتِ العنقدة، إلا أن تحديد أو تقدير عدد العناقيد التي يجبُ استخراجها من عينةٍ ما يعتبر من أهم القضايا التي تواجها معظمُ هذه الطرق. يركز هذا البحث على مسألةِ تقديرِ عدد العناقيد في حالةِ العنقدة الهرمية. نقَدم في هذا البحث تقييماً لثلاثةٍ من أكثرِ الطرقَ شيوعاً في تقديرِ عددِ العناقيد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا