تكشف دراسات حديثة أن منصات الذكاء الاصطناعي تحقق انتشاراً واسعاً على رغم استمرار الهلاوس والأخطاء، إذ تبقى دقة الإجابات موضع شك وبخاصة في القطاعات الحساسة.
بعد ثلاثة أعوام فقط من ظهور "شات جي بي تي" للعلن، تبدلت العلاقة بين الإنسان والتقنية على نحو غير مسبوق. فالدردشة الآلية، التي بدأت كأداة مساعدة في الكتابة وصياغة النصوص، تحولت خلال فترة قصيرة إلى منصة قادرة على تحليل البيانات وابتكار الشيفرات، وإنتاج ملخصات معقدة في ثوان معدودة، لتصبح إحدى أهم ثورات الذكاء الاصطناعي في الإعلام والتعليم والخدمات.
ومع هذا الانتشار المتسارع، اتسعت الأسئلة حول مدى دقة هذه النماذج وموثوقيتها، خصوصاً بعدما أصبحت جزءاً من أعمال يومية تمس قطاعات شديدة الحساسية.
وتكشف أحدث المؤشرات عن توسع عالمي هائل في استخدام الدردشة الآلية، إذ تجاوز عدد المستخدمين النشطين أسبوعياً لمنصة "شات جي بي تي" 800 مليون شخص عام 2025 وفق تقارير تقنية دولية، فيما تشير تقارير إخبارية إلى أن المنصة تستقبل أكثر من مليارين ونصف المليار طلب يومياً، وهو حجم تفاعل ضخم في عالم الذكاء الاصطناعي.
لكن هذا النمو المذهل لا يحجب التحدي الأعمق المتمثل في استمرار "الهلاوس" والأخطاء السياقية، وهي مشكلة أقرت بها الشركات المطورة وأكدتها دراسات حديثة، بينها بحث أصدره اتحاد البث الأوروبي بالتعاون مع هيئة الإذاعة البريطانية يشير إلى أن الدقة ما زالت ساحة اختبار مفتوحة أمام هذه التقنيات الصاعدة.
تشير نتائج الدراسة، التي جمعت بيانات بين مايو (أيار) ويونيو (حزيران) الماضيين إلى أن نحو 48 في المئة من إجابات الدردشات الآلية المجانية تضمنت مشكلات دقة، سواء في المعلومة نفسها أو أسلوب الاستشهاد أو السياق العام. وشملت الدراسة أربعة نماذج واسعة الانتشار هي النسخ المجانية من "شات جي بي تي" و"جيميني" و"كوبايلوت" و"بيربلكسيتي".
وأظهر الباحثون أن 17 في المئة من هذه الإجابات صنفت كـ"أخطاء كبيرة" تمثلت غالباً في الاستناد إلى مصادر غير صحيحة، أو الربط بين سياقات لا علاقة لها بالسؤال الأصلي أو تقديم معلومات مبتورة تخفي جزءاً جوهرياً من الحقيقة.
وعلى رغم أن الأرقام تشير إلى أن ما يقارب نصف الإجابات لا يزال يعاني ضعف الموثوقية، فإن المقارنة مع نهاية عام 2024 تكشف تحسناً ملموساً، إذ سجلت دراسة سابقة للاتحاد نفسه معدل عدم دقة بلغ 72 في المئة، بينها 31 في المئة أخطاء جوهرية.
ويوضح هذا التراجع أن الدقة تتحسن مع الوقت، غير أن بقاء النسبة الحالية عند حدود مرتفعة يعني أن الطريق لا يزال طويلاً قبل الوصول إلى مستوى يمكن الاعتماد فيه بالكامل على هذه النماذج.
تعود أخطاء الدردشة الآلية إلى مجموعة من العوامل التقنية والسلوكية المتداخلة. والسبب أن النماذج تعتمد في جوهرها على أنماط لغوية إحصائية مبنية على ملايين الجمل لا على فهم بشري حقيقي، مما يجعلها "تتوقع" الجملة الأكثر احتمالاً بدلاً من "معرفة" الحقيقة أو التحقق منها، ولهذا قد تنتج أحياناً معلومات تبدو منطقية لكنها غير موجودة في الواقع.
وأن افتقاد النموذج إلى السياق الكامل يفاقم حجم الخطأ، خصوصاً عندما تكون الأسئلة عامة أو معقدة أو تتطلب خبرة تخصصية دقيقة، وفي أحيان أخرى يظهر ما يسمى "اليقين المفرط" حين يقدم النموذج إجابات واثقة المظهر على رغم أنها غير صحيحة، وهو ما يجعل المستخدم العادي أقل قدرة على اكتشاف الخلل.
ويضاف إلى ذلك أن تسارع التحديثات والمعارف في العالم يفرض على النماذج تدريباً مستمراً على بيانات حديثة، فأي نقص في هذا الجانب ينعكس مباشرة في الإجابات، ولا سيما في المجالات التي تتغير وتتحرك بسرعة مثل الجغرافيا السياسية، والاقتصاد والعلوم الطبية.
على رغم انتشار الدردشة الآلية في الاستخدام العام، تظل أخطاء الدقة خطراً حقيقياً في قطاعات مثل الصحة والقانون والتعليم.
إذ يمكن لأية معلومة مغلوطة في تشخيص طبي أو تفسير قانوني أو محتوى تعليمي أن تقود إلى نتائج مضرة، وضمن هذا السياق تزداد أهمية مسؤوليات الشركات التقنية التي تسعى إلى تطوير نماذج أكثر انضباطاً، سواء عبر تحسين أساليب التدريب أو إضافة طبقات تَحقق تعتمد على قواعد بيانات موثوقة.
وتتنامى مطالب المنصات الإعلامية والمؤسسات البحثية بضرورة اعتماد نظم تحقق موازية لأي إنتاج يشارك فيه الذكاء الاصطناعي.
وتدل المؤشرات إلى أن المستخدمين باتوا أكثر دراية بمحدودية الدردشة الآلية، فبينما تستفيد أعداد متزايدة من قدرات النماذج في الكتابة والترجمة والتحليل، فإن الشك ما زال حاضراً في كل ما يتعلق بالحقائق والتواريخ والبيانات العلمية. لهذا، تنصح معظم الجهات المتخصصة بالاستعانة بالدردشة الآلية كأداة تمهيدية، لا كمرجع نهائي.
يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)
وفي المقابل، تبدو الشركات المطورة واعية تماماً للضغوط المتزايدة من المستخدمين والجهات التنظيمية، لذلك يتوقع خبراء التقنية أن يشهد عام 2026 انتقالاً نحو نماذج أكثر أمناً وارتباطاً بمصادر تحقق خارجية، وربما إدماج تقنيات "منع الهلاوس" التي بدأت تظهر في إصدارات تجريبية لدى بعض الشركات.
كشفت الحكومة الأسترالية أن شركة "ديلويت" أعادت جزءاً من قيمة عقد استشاري بعد اكتشاف تقرير مؤلف من 237 صفحة أعدته الشركة، تضمن مراجع ملفقة واستشهادات غير موجودة نتجت من استخدام أدوات الذكاء الاصطناعي التوليدي في صياغته.
وتفجرت القضية عندما اكتشف الباحث كريس رادج أن التقرير ينسب كتاباً غير موجود إلى الأكاديمية ليزا بيرتون كروفورد، مما دفعه لإبلاغ الصحافة بأن التقرير "مليء بالمراجع الملفقة". وبعد الضجة، رفعت ديلويت نسخة منقحة خلال الـ26 من سبتمبر (أيلول) الماضي، وتضمنت اعترافاً باستخدام نظام Azure OpenAI في إعداد أجزاء من العمل، مع حذف المراجع المختلقة.
وعلى رغم أن ديلويت أكدت أن مضمون التوصيات لم يتغير، فإن الحادثة أصبحت مثالاً صارخاً على أخطار الاعتماد على الذكاء الاصطناعي في إعداد التقارير المهنية دون تدقيق بشري صارم.
وبحسب دراسة منهجية تناولت دقة المراجع الأكاديمية ونشرها موقع "ستادي فايندز"، تبين أن نموذج GPT-4 قدم مراجع غير صحيحة أو مختلقة في نحو 20 في المئة من الاقتباسات التي ولدها.
وأوضحت الدراسة أن النموذج قادر على صياغة مراجع تبدو واقعية ومقنعة لكنها في الحقيقة لا وجود لها، مما يجعل هذا النوع من الأخطاء من أخطر صور "الهلوسة" وأصعبها كشفاً على المستخدم العادي.
وفي سياق مشابه، كشفت دراسة بحثية منشورة في "أو يو بي أكاديميك"عام 2024 أن نماذج الدردشة الآلية تهلوس في 58 في المئة من الإجابات القانونية المتخصصة، عبر اختلاق حالات قضائية غير موجودة أو ربط سوابق قانونية لا علاقة لها بالسؤال الأصلي.
وأشارت الدراسة إلى أن هذه الأخطاء تعكس محدودية النماذج في المجالات التي تتطلب دقة عالية وفهماً سياقياً عميقاً، مما يجعل الاعتماد عليها في القضايا القانونية الحساسة محفوفاً بالأخطار.
وتكشف الأرقام التي طرحها اتحاد البث الأوروبي و"بي بي سي" حقيقة مزدوجة تتمثل في تحسن الدقة بوتيرة واضحة مقابل بقاء الأخطاء واسعة الانتشار.