ترغب بنشر مسار تعليمي؟ اضغط هنا

مع التطور الهائل في جميع المجالات العلمية و الاقتصادية و السياسية و غيرها ظهرت الحاجة لإيجاد طرق غير تقليدية للتعامل من خلالها مع البيانات بجميع أنماطها ( النصية و المرئية و الصوتية و غيرها ) والتي أصبحت ذات حجوم كبيرة جداً في هذه الأيام. فكان لابد م ن إيجاد طرق جديدة لاستنباط المعرفة و المعلومات المخبأة ضمن هذا الكم الهائل من البيانات كالاستعلام عن الزبائن الذين لديهم عادات شرائية متماثلة أو التوقعات المحتلمة لبيع سمعة معينة في إحدى المناطق الجغرافية و غيرها من الاستعلامات الاستنتاجية و التي تعتمد على تقنية التنقيب في البيانات. و تتم عملية التنقيب بعدة أساليب من أهمها أسلوب العنقدة (التجميع) Clustering و الذي يتم بعدة خوارزميات. سوف نرّكز في بحثنا هذا على استخدام طريقة مدروسة لإيجاد المراكز الابتدائية لخوارزمية K-Medoids التي تقوم على مبدأ تقسيم البيانات إلى عناقيد كل عنقود يحوي بيانات متماثمة يَسهل التعامل معها بدلاً من اختيارها بالشكل العشوائي الذي يؤدي بدوره لظهور نتائج مختلفة وبطئ في تنفيذ الخوارزمية .
تصنف خوارزمية K-Means الكائنات إلى عدد محدد مسبقا من العناقيد و هو K عنقود. و تتم عملية اختيار المراكز العنقودية في هذه الخوارزمية بشكل العشوائية، و يفضل أن تكون هذه المراكز بعيدة عن بعضها البعض قدر الإمكان. تؤثر نقطة البدء العشوائية على فعالية عملي ة التجميع و النتائج. و تعتمد عملية المقاربة المعنقدة على قيم المراكز الأولية بشكل رئيسي. نركّز في هذا البحث على طريقة اختيار مركز العنقود لتحسين أداء العنقدة في الخوارزمية K-Means كما نستخدم مراكز العناقيد الأولية و التي حصلنا عليها من البيانات المقسّمة على طول محور البيانات وفقا لأعلى فرق لتعيين مركز العنقود الأفضل.
تمثل قدرة التنقيب في المعطيات ( Data Mining ) على استخلاص معلومات تنبوئية من قواعد معطيات ضخمة أداة فعالة في يد الشركات و الأفراد تتيح لهم التركيز على النواحي التي تهمهم من المعطيات الضخمة التي تولدها مسيرة عملهم اليومية. و مع تزايد أهمية هذا العلم ت زايدت بشكل متسارع الأدوات التي بنيت لتطبيق مفاهيمه النظرية بأسرع ما يمكن , حتى غدا من الصعب اتخاذ القرار حول أي من هذه الأدوات هو الأمثل لأداء مهمتك المرجوة. تقدم الدراسة مقارنة بين أداتي التنقيب في المعطيات الأكثر استخداما وفقا لاستطلاعات الرأي و هما Rapidminer و لغة البرمجة R بهدف مساعدة الباحث أو المطور على اختيار الأنسب بينهما. اعتمدت المقارنة على سبعة معايير : منصة العمل , الخوارزميات المضمنة, الصيغ المتاحة للدخل و الخرج , إمكانية التمثيل الرسومي , تقييم المستخدمين , البنية و امكانيات التطوير , الأداء بتطبيق مجموعة من خوارزميات التصنيف على عدد من مجموعات البيانات ( data set ) و باستخدام تقنيتي تقسيم cross validation و hold-out للتأكد من النتائج . من خلال الدراسة تبين أن R هي الأداة التي تدعم أكبر عدد من الخوارزميات و صيغ الدخل و الخرج و التمثيل الرسومي بينما تفوق Rapidminer من حيث سهولة الاستخدام و دعمه لعدد أكبر من منصات العمل. أما من حيث الأداء فدقة المصنفات التي بنيت باستخدام مكتبات كانت أعلى إلا في بعض الحالات التي فرضتها طبيعة المعطيات حيث لم يضف أي مرحلة معالجة مسبقة. و أخيرا يغدو الخيار في تفضيل أي الأداتين معتمدا على مدى خبرة المستخدم و هدفه من استخدام الأداة.
إن استخدام الطرق التقليدية لتحليل الكميات الهائلة من مجموعات البيانات لا يساعد على اكتشاف أنماط معرفية جديدة تدعم عملية اتخاذ القرار. و بالتالي إن الغرض من هذه المقالة تصميم نظام تحليل مرئي يدعم عملية تحليل مجموعات البيانات من خلال استخدام التحليل ا لآلي الذي يتضمن العديد من التقنيات مثل (clustering) التجميع, و التنصنيف (classification), وَ قاعدة (association Rule) الإرتباط, و تقنيات الإظهار المتمثلة بعملية استكشاف البيانات المرئية، و من ثم المقارنة مع تقنيات الإظهار الأخرى لمجموعات البيانات و تقييم نظام الإظهار المقترح.
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
تقدم هذه الورقة البحثية مقارنة لمجموعة من خوارزميات التنقيب في البيانات Data Mining Algorithms فيما يتعلق بتحليل حوادث المرور، انطلاقاً من مرحلة إدخال البيانات، و ذلك من خلال تحليل بنية التقارير الإحصائية الموجودة في فرع مرور اللاذقية وصولاً إلى مرحل ة التنقيب في البيانات التي تستطيع إيجاد آلية قادرة على دراسة العوامل التي تلعب دوراً في حادث المرور بذكاء من أجل الربط و تحديد مدى العلاقة بينها و أهميتها في تسبب الحادث المروري، و ذلك بعد تصميم بنية مستودع البيانات على أساس قاعدة البيانات التي تم بناؤها لتخزين المعلومات، تم في هذا البحث ذكر مجموعة من النماذج التي تم اختبارها و التي تشكل عينة عن الاختبارات التي بنيت عليها نتائج البحث.
يعد التعقب باستخدام شبكات الحساسات اللاسلكية من التطبيقات التي تشهد نمواً كبيراً. و نظرا لمحدودية شبكات الحساسات اللاسلكية من حيث مصدر الطاقة، تستمر الأبحاث لتحسين طرق نقل المعلومات و توجيهها بما يضمن استهلاكاً أقل للطاقة. لذلك قمنا في هذا البحث بتحس ين طريقة توجيه معلومات موقع الهدف في الشبكة و ذلك بتقديم خوارزمية جديدة، تستفيد من مفهوم العنقدة في شبكة الحساسات اللاسلكية، مع إضافة إمكانية التفاعل ما بين الحساسات الحقلية التي تنتمي لعناقيد مختلفة، حيث لا يمكن التفاعل فيما بينها في الحالة التقليدية لعمل الشبكات العنقودية، و ذلك اعتماداً على بارامتر شدة الإشارة المستقبلة من الهدف في الحساسات لغاية التخلص من تكرار نقل نفس المعلومة، مما ينعكس إيجاباً على عمر الشبكة و الحصول أيضاً على إشارة أكثر دقة لموقع الهدف. قمنا بتطبيق الخوارزمية المقترحة و إظهار نتائجها باستخدام محاكي OPNET الذي يعد من أفضل المحاكيات في مجال الشبكات بأنواعها المختلفة.
إن الهدفَ الرئيسي من عمليةِ التنقيب في البيانات هو استخراج المعلومات و اكتشاف المعرفةِ من قواعدِ البياناتِ الضخمة، حيث تُعتبر العنقدة أحد أهم الوظائف التي يمكن القيامَ بها في هذا المجال. يوجدُ العديدُ من طرقِ و خوارزمياتِ العنقدة، إلا أن تحديد أو تقدير عدد العناقيد التي يجبُ استخراجها من عينةٍ ما يعتبر من أهم القضايا التي تواجها معظمُ هذه الطرق. يركز هذا البحث على مسألةِ تقديرِ عدد العناقيد في حالةِ العنقدة الهرمية. نقَدم في هذا البحث تقييماً لثلاثةٍ من أكثرِ الطرقَ شيوعاً في تقديرِ عددِ العناقيد.
نقدم في هذا البحث خوارزمية جديدة لحل بعض المشاكل التي تعاني منها خوارزميات عنقدة البيانات كالK-Means. هذه الخوارزمية الجديدة قادرة على عنقدة مجموعة من البيانات بشكل منفرد دون الحاجة لخوارزميات عنقدة أخرى.
يعرض هذا البحث دراسة مرجعية حول استخدام تقنيات الذكاء الصنعي والتنقيب عن المعطيات في أنظمة مكافحة غسيل الأموال. نقارن بين عدة منهجيات متبعة في أوراق بحثية مختلفة بهدف تسليط الضوء على تطبيقات الذكاء الصنعي في حل مشاكل الحياة الواقعية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا