دراسة تكشف تراجع أداء الذكاء الاصطناعي في الأسئلة الطبية المعدلة
كشفت دراسة جديدة في مجلة JAMA Network Open أن نتائج نماذج الذكاء الاصطناعي الطبي في اختبارات الترخيص قد تكون مضللة رغم تفوقها الظاهر في السنوات الأخيرة.
الدراسة التي أشرفت عليها الباحثة سوهانا بيدي من جامعة ستانفورد أوضحت أن هذه النماذج لا تعتمد بالضرورة على استدلال سريري حقيقي، وإنما تميل إلى التعرف على أنماط الإجابات المألوفة.
ولإثبات ذلك، ابتكر فريق البحث نسخة معدلة من اختبار MedQA استُبدلت فيها الإجابة الصحيحة بخيار "لا شيء من الإجابات الأخرى"، ما أجبر النماذج على إظهار قدراتها الفعلية في التفكير الطبي.
وقد دقّق هذه التعديلات أطباء مختصون لضمان صحتها، وشملت 68 سؤالًا يعكسون سيناريوهات إكلينيكية شائعة تستلزم قرارات تشخيصية وعلاجية دقيقة.
اقرأ أيضًا: سام ألتمان والأبوة.. نقطة تحول في مسيرته مع الذكاء الاصطناعي
نتائج صادمة لانخفاض دقة نماذج الذكاء الاصطناعي الطبي
عند تطبيق التعديلات، أظهرت النتائج تراجعًا كبيرًا في أداء ستة نماذج بارزة من الذكاء الاصطناعي، منها GPT-4o، Claude 3.5 Sonnet، Gemini 2.0 Flash، وLlama 3.3-70B.
بعض النماذج الأكثر تطورًا مثل DeepSeek-R1 وo3-mini سجلت انخفاضًا يتراوح بين 9 و16%، في حين شهدت نماذج أخرى تراجعًا تجاوز 25%، بل إن نموذج Llama خسر ما يقارب 40% من دقته السابقة.
الباحثون شبّهوا الأمر بالطالب الذي يحقق علامات مرتفعة في التدريبات لكنه يفشل عند مواجهة صياغة مختلفة للأسئلة.
هذه النتائج أوضحت أن النماذج لم تكن "تفكر طبيًا" بقدر ما كانت تعيد إنتاج أنماط محفوظة، وهو ما يثير قلقًا بشأن جاهزيتها للتعامل مع مواقف طبية حقيقية، حيث يعاني الأطباء عادة من بيانات ناقصة، وأعراض متداخلة، وحالات غير مألوفة.
مستقبل الذكاء الاصطناعي الطبي بين الاختبارات والواقع السريري
شددت الدراسة على أن الاعتماد على نتائج الاختبارات وحدها لا يعكس كفاءة الذكاء الاصطناعي الطبي في بيئة العمل الحقيقية. الباحثون أوصوا بثلاثة مسارات أساسية للمستقبل: أولًا تطوير أدوات تقييم جديدة تفصل بين الاستدلال الحقيقي والتعرف على الأنماط، ثانيًا زيادة الشفافية بشأن كيفية استجابة النماذج للمشكلات الجديدة، وثالثًا ابتكار تقنيات تركز على القدرات الاستدلالية لا مجرد التوقعات الإحصائية.
اقرأ أيضًا: أبل تستعد لمؤتمر سبتمبر: آيفون 17 وساعة Ultra 3 ونظام ذكي جديد للمنازل
ورغم أن العينة كانت محدودة (68 سؤالًا فقط)، فإن تكرار النتائج على جميع النماذج المشاركة يعزز مصداقية الاستنتاجات.
الفريق البحثي دعا إلى اختبارات أوسع تشمل بيانات مرضى فعلية وأدوات مثل "الاسترجاع المعزز بالمعلومات" أو التدريب المتخصص على البيانات السريرية.
الهدف النهائي، بحسب بيدي وزملائها، هو ضمان أن النماذج المستقبلية لا تكتفي بالنجاح في الامتحانات بل تكون قادرة على مساعدة الأطباء بشكل مسؤول وآمن في الممارسة الطبية اليومية.
