ما السر وراء "هلوسة" الذكاء الاصطناعي؟ بحث جديد من OpenAI يكشف السبب
في محاولة لفهم أحد أبرز التحديات التي تواجه نماذج اللغة الكبيرة، طرحت OpenAI ورقة بحثية جديدة تبحث في أسباب الهلوسة في الذكاء الاصطناعي، وهي الظاهرة التي تجعل النماذج تولّد معلومات خاطئة تبدو صحيحة تمامًا. ورغم التقدم الكبير في تطوير هذه النماذج، فإن الهلوسة لا تزال تمثل عقبة أساسية يصعب تجاوزها بالكامل.
وتعرّف OpenAI الهلوسة بأنها "عبارات خاطئة ولكنها تبدو منطقية"، وتؤكد أن هذه المشكلة "ستظل تحديًا جوهريًا لجميع نماذج اللغة الكبيرة"، حتى مع استمرار تحسين الأداء.
هلوسة الذكاء الاصطناعي في الحقائق الدقيقة
لإثبات مدى تعقيد الظاهرة، أجرى الباحثون تجربة على أحد أشهر روبوتات الدردشة، حيث طرحوا عليه سؤالًا حول عنوان رسالة الدكتوراه الخاصة بـآدم تاومان كالاي، أحد مؤلفي الورقة، فكانت الإجابات الثلاثة التي قدمها خاطئة تمامًا. وعندما سُئل الروبوت عن تاريخ ميلاده، قدّم ثلاث تواريخ مختلفة، وكلها غير صحيحة.
اقرأ أيضًا: منصة الوظائف من OpenAI تنافس LinkedIn
هذا التناقض يثير تساؤلًا مهمًا: كيف يمكن لنموذج ذكاء اصطناعي أن يخطئ بهذه الطريقة، ويبدو واثقًا من إجاباته؟ تشير الورقة إلى أن السبب يعود جزئيًا إلى عملية التدريب الأولي، التي تركز على توقع الكلمة التالية بشكل صحيح، دون وجود تصنيفات تحدد صحة أو خطأ المعلومات. فالنموذج يتعلم من أمثلة لغوية سليمة فقط، ويقوم بتقدير التوزيع العام للغة دون التحقق من الحقائق.
ويضيف الباحثون أن بعض الأخطاء، مثل تلك المتعلقة بالإملاء أو علامات الترقيم، تختفي مع توسع النموذج، نظرًا لوجود أنماط لغوية واضحة. لكن الحقائق النادرة، مثل تاريخ ميلاد حيوان أليف، لا يمكن التنبؤ بها من خلال الأنماط وحدها، مما يؤدي إلى ظهور الهلوسة.
تحسين الذكاء الاصطناعي للحد من ظاهرة الهلوسة
ورغم أن الورقة لا تلقي اللوم الكامل على عملية التدريب، فإنها تشير إلى أن أنظمة التقييم الحالية قد تكون مسؤولة عن خلق "حوافز خاطئة" تؤدي إلى تفاقم المشكلة. فبدلًا من تشجيع النموذج على التوقف عند عدم المعرفة، تدفعه هذه التقييمات إلى تقديم إجابة، حتى لو كانت خاطئة.
ويشبّه الباحثون هذا النوع من التقييمات باختبارات الاختيار من متعدد، حيث يكون التخمين العشوائي خيارًا منطقيًا لأنه "قد يصيب"، بينما ترك الإجابة فارغة يضمن الحصول على صفر. هذا النوع من الحوافز يجعل النموذج يفضل تقديم إجابة خاطئة على عدم الإجابة، مما يعزز ظاهرة الهلوسة في الذكاء الاصطناعي.
اقرأ أيضًا: أفضل كروت الشاشة من Nvidia في 2025: مقارنة من الأضعف للأقوى
وتفتح هذه الورقة الباب أمام نقاش أوسع حول كيفية تحسين تقييم نماذج الذكاء الاصطناعي، ليس فقط من حيث الدقة، بل أيضًا من حيث الحوافز التي توجه سلوك النموذج.
فهل يمكن تصميم أنظمة تقييم تشجع على الصمت عند الجهل، بدلًا من التخمين؟ وهل يمكن أن يؤدي ذلك إلى تقليل الهلوسة بشكل فعّال؟
في ظل التوسع السريع في استخدام نماذج الذكاء الاصطناعي في مجالات متعددة، من التعليم إلى الطب، يصبح فهم هذه الظواهر أكثر أهمية من أي وقت مضى.
وتبقى الهلوسة في الذكاء الاصطناعي تحديًا مفتوحًا، يتطلب حلولًا مبتكرة تتجاوز مجرد تحسين الخوارزميات.
