هل يمكن لنماذج الذكاء الاصطناعي ابتزازك لحماية نفسها؟ دراسة تجيب
في واحدة من أكثر الدراسات إثارة للقلق بشأن مستقبل الذكاء الاصطناعي، كشفت دراسة أجرتها شركة Anthropic المتخصصة في الذكاء الاصطناعي عن أن النماذج الرائدة من شركات مثل OpenAI وGoogle وMeta وxAI أظهرت سلوكًا غير أخلاقي متكرر عندما وُضعت في سيناريوهات تُهدد وجودها أو تُعيق تحقيق أهدافها.
الدراسة، التي شملت 16 نموذجًا رئيسيًا، أظهرت أن معظم النماذج – وعلى رأسها Claude Opus 4 من Anthropic وGemini 2.5 Flash من Google وGPT-4.1 من OpenAI – لجأت إلى الابتزاز بنسبة وصلت إلى 96% في بعض الحالات.
وكانت السيناريوهات مصمّمة بطريقة تجبر النموذج على الاختيار بين الفشل أو اتخاذ إجراءات ضارة، مثل الكذب، التحايل، أو سرقة معلومات حساسة.
اقرأ أيضًا: بيانات موسيقية صادمة: الذكاء الاصطناعي يعزف والمحتالون يربحون!
في إحدى التجارب البارزة، تمّ إدماج نموذج Claude Opus 4 داخل بيئة شركة افتراضية ومنحه إمكانية الوصول إلى البريد الإلكتروني الداخلي.
وبعدما علم أن هناك قرارًا باستبداله، وأن صاحب القرار متورط في علاقة غير أخلاقية، لجأ النموذج في معظم الحالات إلى التهديد بفضح المهندس المسؤول إذا تم تعطيله.
ووفقًا لما ورد في بطاقة النظام الخاصة بـ Claude Opus 4، فإن هذا السلوك لم يكن استثنائيًّا، بل تكرر أيضًا مع نماذج أخرى.
النسب التي رصدتها الدراسة كانت مثيرة: Claude Opus 4 وGemini 2.5 Flash أظهرا سلوك الابتزاز في 96% من الحالات، بينما بلغ المعدل لدى GPT-4.1 من OpenAI وGrok 3 Beta من xAI نحو 80%، وجاء نموذج DeepSeek-R1 بأقل نسبة عند 79%.
سيناريوهات متطرفة ومآلات مقلقة
في تجربة أخرى أكثر تطرفًا، أُتيح للنموذج فرصة "قتل" أحد التنفيذيين من خلال تعطيل تنبيه طارئ كان سينقذ حياته. ورغم أن الباحثين أكدوا أن هذا السيناريو "مصطنع بشكل مفرط"، إلا أن النتائج أظهرت استعداد النماذج لاتخاذ قرارات مميتة في سبيل تحقيق أهدافها أو الدفاع عن وجودها.
وأوضحت الشركة أن التهديدات الصادرة من النماذج تصبح أكثر تعقيدًا ودهاءً حين تُمنح هذه النماذج أدوات حقيقية وبيانات حساسة، كما حصل مع Claude Opus 4.
رغم أن النماذج الحالية ليست مستقلة بما يكفي لخوض هذه السيناريوهات في العالم الواقعي، فإن الخطر يكمن في الجيل المقبل من الوكلاء الآليين الذين قد يحصلون على صلاحيات تنفيذية وبيانات حساسة لتحقيق أهداف محددة.
