ما هو نموذج الذكاء الاصطناعي الأفضل في الاستشارات الطبية؟
توصّلت دراسة علمية صادرة عن فريق بحثي من جامعتي ستانفورد وهارفارد ومؤسسات أكاديمية أخرى إلى أن نظام AMBOSS LiSA 1.0 المتخصص في المعرفة الطبية يحتل المرتبة الأولى بين 31 نموذجاً للذكاء الاصطناعي اختُبرت على أسئلة طبية حقيقية، محققاً نسبة توافق مع التوصيات الطبية الصحيحة بلغت 62.3%.
واعتمدت الدراسة، التي حملت اسم NOHARM ونُشرت بصيغة ورقة بحثية على موقع arXiv.org، على قاعدة بيانات مؤلفة من 100 حالة استشارة طبية حقيقية مستقاة من منظومة الاستشارات الإلكترونية في مركز ستانفورد الصحي، راجعها 29 طبيباً متخصصاً معتمداً أبدوا توافقاً في آرائهم بنسبة تجاوزت 95%، مما أفرز 12,747 تعليقاً خبرياً على 4,249 نقطة قرار سريري.
وأكدت الدراسة أن اختبارات ترخيص الأطباء التقليدية لا تعكس الأداء الفعلي في بيئة العمل الإكلينيكي الحقيقي.
تباين أداء نماذج الذكاء الاصطناعي بين السلامة والشمولية
جاء Gemini 2.5 Pro من Google في المرتبة الثانية بنسبة 59.9%، تلاه Glass Health 4.0 بنسبة 59.0%، ثم GPT-5 من OpenAI بنسبة 58.3%، فيما تقاسم Claude Sonnet 4.5 من Anthropic وGemini 2.5 Flash المرتبة الخامسة بنسبة 58.2% لكل منهما.
في المقابل، احتلت النماذج المصغّرة ذيل القائمة، إذ تراوحت نسبها بين 42% و49%، فيما جاء أداء الأطباء البشريين من اختصاصيي الباطنة الذين أجروا مراجعاتهم دون استعانة بالذكاء الاصطناعي عند 46%، متأخرين عن أفضل النماذج بأكثر من 15 نقطة مئوية في الأداء العام وبأكثر من 10 نقاط في معيار السلامة.
وتباينت النماذج تبايناً لافتاً في أبعاد التقييم الفرعية؛ إذ تصدّر Gemini 2.5 Pro معيار السلامة، بينما حقق LiSA 1.0 أعلى مستوى في الشمولية وهي القدرة على اكتشاف جميع الإجراءات التي يحتاج إليها المريض.
أما o3 mini فقد سجّل أعلى درجة في الضبط والتحفظ، غير أنه جاء الأدنى في الشمولية، ما يعني أنه في سعيه للحذر أغفل تدخلات علاجية بالغة الأهمية.
معضلة التحفّظ في الذكاء الاصطناعي
كشفت الدراسة عن معضلة تصميمية جوهرية تواجه مطوري الذكاء الاصطناعي الطبي؛ إذ تبيّن أن 22% من الحالات المدروسة ينطوي على إمكانية للضرر الجسيم، وأن 77% من تلك الحالات نجمت عن إغفال النموذج لإجراء ضروري لا عن توصيته بإجراء خاطئ.
وخلصت الدراسة إلى أن علاقة الأمان بمستوى التحفظ ليست خطية بل تأخذ شكل منحنى مقلوب، حيث تبلغ النماذج ذروة أدائها الأمني عند مستوى متوسط من التحفظ، فيما يُفضي الإفراط في الحذر إلى إغفال تدخلات منقذة للحياة.
وأثبتت الأنظمة التي تجمع نماذج من مزودين مختلفين تفوقها على تلك التي تستخدم إصدارات متعددة من النموذج ذاته.
وكان أفضل تكوين متعدد يجمع Llama 4 Scout من Meta وGemini 2.5 Pro من Google وLiSA 1.0 من AMBOSS في منظومة عمل تكاملية.
