أبل تفجّر مفاجأة بقاعدة بيانات غامضة بالتعاون مع جوجل.. ما القصة؟
في خطوة تُبرز اهتمامها المتزايد بالذكاء الاصطناعي المرئي، أعلنت شركة آبل (Apple) عن إطلاق Pico-Banana-400K، وهي مجموعة بيانات بحثية جديدة تتضمن 400,000 صورة عالية الجودة مخصصة لتدريب نماذج تحرير الصور الموجهة بالنصوص.
المجموعة، التي وصفتها الشركة بأنها "الأكثر شمولًا في هذا المجال"، تمثل موردًا جديدًا للمجتمع الأكاديمي، وتُتاح تحت ترخيص بحثي غير تجاري، ما يعني أن استخدامها يقتصر على الأبحاث الأكاديمية وتطوير تقنيات الذكاء الاصطناعي دون أي أغراض تجارية.
تفاصيل تعاون أبل وجوجل
المفاجأة في المشروع هي أن أبل استخدمت نموذج Gemini-2.5-Flash-Image من جوجل، المعروف داخليًا باسم Nano-Banana، لتوليد الصور المعدلة ضمن المجموعة.
وقالت آبل في الورقة البحثية التي نشرتها على موقع arXiv: "على الرغم من التقدم الكبير في نماذج الذكاء الاصطناعي البصري، فإن البحث المفتوح لا يزال يعاني من نقص في مجموعات البيانات الواسعة والعالية الجودة التي يمكن مشاركتها بحرية".
وأضاف الباحثون أن مجموعات البيانات الحالية غالبًا ما تعاني من نقص التنوع وعدم التوازن في أنواع التحرير، بالإضافة إلى غياب الرقابة المتسقة على جودة الصور، ما يجعل تطوير نماذج فعالة أمرًا صعبًا.
كيف بُنيت مجموعة Pico-Banana-400K؟
استند المشروع إلى منهجية دقيقة ومتعددة المراحل. بدأ فريق آبل باختيار صور حقيقية من قاعدة بيانات OpenImages، لضمان التنوع البصري في الأشخاص والأشياء والمشاهد. ثم أنشأ الباحثون قائمة تضم 35 نوعًا من أوامر التحرير، موزعة على ثماني فئات رئيسية، من بينها:
التأثيرات الضوئية والبصرية: مثل إضافة حبيبات الفيلم أو الفلاتر القديمة.
تعديلات على الأشخاص: كتحويل الصورة إلى نمط مجسمات “فانكو بوب”.
تغيير المشهد أو الطقس: مثل جعل الصورة مشمسة أو ممطرة أو ثلجية.
تغييرات موضعية: كتحريك العناصر أو إعادة ترتيبها داخل الإطار.
التحكم في الحجم: عبر تكبير أو تصغير الصور دون فقدان التفاصيل.
بعدها، استخدم الباحثون نموذج Nano-Banana لتطبيق أوامر التحرير على الصور، ثم استعانوا بنموذج Gemini-2.5-Pro لتحليل النتائج وتصنيفها. إذا اعتبر النموذج أن الصورة المعدلة متوافقة مع الطلب وتحافظ على الجودة البصرية، تُضاف إلى مجموعة البيانات. وإلا تُرفض وتُستبدل بمحاولة جديدة.
اقرأ أيضا: هل تخطط آبل لإحضار الإنترنت الفضائي إلى هواتف iPhone 18؟
تضم مجموعة Pico-Banana-400K ثلاثة أنواع من البيانات المفيدة للتدريب:
تعديلات فردية (Single-Prompt Edits) – تغييرات مبنية على أمر نصي واحد.
تعديلات متعددة المراحل (Iterative Edits) – تسلسل من التعديلات المتتابعة.
أزواج المقارنة (Preference Pairs) – صور تُظهر نتائج ناجحة مقابل فاشلة، ما يُساعد النماذج على فهم معايير الجودة البصرية والتناسق.
ويأمل فريق آبل أن تُسهم هذه البنية المتنوعة في تحسين دقة نماذج التحرير المستندة إلى النصوص، خاصةً في المهام المعقدة مثل إعادة تركيب الصور، أو التحكم في المواقع، أو دمج النصوص داخل الصور بدقة عالية.
بحسب الدراسة، يُمكن لمجموعة Pico-Banana-400K أن تُصبح نقطة انطلاق قياسية لتقييم أداء نماذج تحرير الصور مستقبلًا، مثل DALL·E وImagen وFirefly وغيرها. كما يُتوقع أن تُمكّن الباحثين من تدريب أنظمة جديدة على التعديلات الدقيقة والمتعددة المراحل، مما يُقربها أكثر من إبداع بشري حقيقي في التعامل مع الصور الرقمية.
وقال الباحثون في ختام الورقة: "ندرك محدودية النماذج الحالية في التحرير المكاني الدقيق والتخطيط البصري، لكننا نأمل أن يُقدّم Pico-Banana-400K قاعدة بيانات صلبة تُسهم في تطوير الجيل القادم من أدوات تحرير الصور بالذكاء الاصطناعي".
تتوفر الدراسة الكاملة الآن على منصة arXiv، بينما يمكن للباحثين تحميل مجموعة البيانات من مستودع GitHub الرسمي لآبل، مع تفاصيل حول تراخيص الاستخدام وهيكل الفئات والأنماط.
