دراسة جديدة عن توليد الصور بالذكاء الاصطناعي تكشف مفاجأة
كشف دراسة حديثة أن نماذج توليد الصور بالذكاء الاصطناعي تميل إلى الاعتماد على عدد محدود من الأنماط البصرية، رغم قدرتها النظرية على إنتاج تصاميم لا حصر لها.
ووجد باحثون من قسم تحليل البيانات، جامعة دالارنا في السويد، أن هذه النماذج، عند تقديم سلسلة من الطلبات المتتابعة، تميل بشكل شبه دائم إلى إعادة إنتاج مجموعة صغيرة من الأساليب المتكررة، ما يؤدي إلى نتائج بصرية متجانسة وشائعة.
الذكاء الاصطناعي يكرر نفس 12 أسلوبًا بصريًا
نشرت الدراسة في مجلة Patterns، واختبرت نموذجين لتوليد الصور بالذكاء الاصطناعي: Stable Diffusion XL وLLaVA، من خلال لعبة تشبه "التليفون البصري".
بدأت اللعبة بإعطاء Stable Diffusion XL وصفًا نصيًا تفصيليًا لإنشاء صورة، ثم طُلب من نموذج LLaVA وصف الصورة الناتجة. بعد ذلك، أعيد الوصف إلى Stable Diffusion لإنشاء نسخة جديدة، واستمرت العملية لمدة 100 جولة.
أظهرت النتائج أن الصورة الأصلية تضيع بسرعة، لكن المفاجأة كانت في أن النماذج تعود دائمًا إلى أنماط بصرية محددة.
بعد اختبار 1,000 سلسلة مختلفة، وجد الباحثون أن معظم الصور النهائية تنتمي إلى 12 نمطًا بصريًا فقط، مثل المنارات البحرية، الديكورات الداخلية الرسمية، المدن الليلية، والهندسة المعمارية الريفية.
وصف الباحثون هذه الظاهرة بـ"الموسيقى التصويرية البصرية"، في إشارة إلى الطابع الشائع والمعتاد لهذه الأنماط، كما لو كانت صورًا معلقة في فنادق.
لماذا لا يتميز الذكاء الاصطناعي بالإبداع؟
تشير النتائج إلى أن الذكاء الاصطناعي لا يتمتع بمرونة الإبداع البشري. ففي لعبة "التلفون" بين البشر، تتغير الرسالة بشكل كبير بسبب الفروق الفردية في الإدراك والتفسير.
أما الذكاء الاصطناعي، فحتى مع أوصاف غريبة أو معقدة، فإنه يميل دائمًا إلى إعادة إنتاج الأنماط الشائعة من البيانات التي تم تدريبه عليها.
وبالرغم من تبديل النماذج المستخدمة، استمرت نفس الاتجاهات في الظهور، ما يؤكد أن المشكلة ليست في نموذج بعينه، بل في طبيعة التدريب على مجموعات بيانات محددة تعتمد على أذواق الإنسان وما يختاره من صور.
الخلاصة، بحسب الباحثين، أن نسخ الأنماط أسهل بكثير من تعليم الذكاء الاصطناعي "الذوق الفني" والإبداع الحقيقي.
