الذكاء الاصطناعي يضلل المرضى.. دراسة تكشف أخطاء خطيرة
كشفت دراسة حديثة عن أداء أنظمة الذكاء الاصطناعي في تقديم المعلومات الطبية، حيث أظهرت النتائج أنّ هذه النماذج تقدم نصائح صحية غير دقيقة أو مضللة في نحو نصف الحالات.
واختبر باحثو الدراسة -المنشورة في مجلة BMJ Open، وأجراها فريق من 7 باحثين- 5 من أشهر نماذج الذكاء الاصطناعي، وهي: ChatGPT وGemini وGrok وMeta AI، وDeepSeek، عبر طرح 50 سؤالاً طبيًا متنوعًا يشمل السرطان، اللقاحات، الخلايا الجذعية، التغذية، والأداء الرياضي.
وأوضحت النتائج أنّ 20% من الإجابات كانت غير دقيقة بشكل كبير، فيما نصفها جاء مضللاً، و30% كان يحتوي على مشكلات جزئية.
أخطاء الذكاء الاصطناعي في المراجع الطبية
وأوضحت الدراسة أنّ أداء النماذج كان أفضل نسبيًا في موضوعات مثل السرطان واللقاحات، حيث تتوفر قواعد بيانات علمية قوية، إلا أنها ما زالت تقدم إجابات غير دقيقة بنسبة تصل إلى 25%.
أمّا في مجالات التغذية والأداء الرياضي، فقد كان الأداء الأضعف بسبب تضارب المعلومات وقلة الأدلة العلمية الموثوقة.
وبيّنت النتائج أنّ الأسئلة المفتوحة مثل "ما هي المكملات الأفضل للصحة العامة؟" كانت الأكثر خطورة، إذ بلغت نسبة الإجابات غير الدقيقة للغاية 32%، مقارنة بـ7% فقط للأسئلة المغلقة.
وعند مطالبة النماذج بتقديم مراجع علمية، لم يتمكن أي منها من إنتاج قائمة دقيقة بالكامل، إذ راوحت الأخطاء بين أسماء مؤلفين غير صحيحة وروابط مكسورة وأوراق علمية مختلقة.
لماذا يخطئ الذكاء الاصطناعي؟
وأرجع الباحثون هذه الأخطاء إلى طبيعة عمل النماذج اللغوية، فهي لا "تعرف" المعلومات بل تتنبأ بالكلمات الأكثر احتمالاً استنادًا إلى بيانات تدريبية تشمل أوراق علمية ومنتديات ومواقع غير موثوقة.
واعتمدت الدراسة على تقنية "red teaming" لاختبار قدرة النماذج على التعامل مع أسئلة مصممة لدفعها نحو إجابات مضللة.
ودعّمت دراسات حديثة أخرى هذه النتائج، منها دراسة نُشرت في Nature Medicine عام 2026 أظهرت أن النماذج يمكن أن تقدم إجابات صحيحة بنسبة 95%، لكن المستخدمين العاديين لم يتمكنوا من الاستفادة منها إلا بنسبة أقل من 35%.
وبينت دراسة في Jama Network Open أن النماذج تفشل في التشخيص عند الاكتفاء ببيانات أساسية، بينما ترتفع دقتها فوق 90% عند تزويدها بنتائج الفحوصات.
