خطوة ديب مايند نحو المستقبل: روبوتات قادرة على الفهم والتعلّم الذاتي
أعلنت غوغل ديب مايند عن خطوة كبيرة نحو انتاج الروبوتات البشرية متعددة الأغراض، من خلال تعاونها مع شركة أبترونيك لتطوير روبوت Apollo المتقدم.
ويستخدم الروبوت تقنيات Gemini 3 و Gemini Robotics AI في تطوير نظام موحد، قادر على أداء مجموعة واسعة من المهام في العالم الحقيقي، دون الحاجة إلى إعادة تدريب الروبوتات لكل بيئة أو جسم جديد، مما يمثل تقدمًا كبيرًا في مجال الروبوتات.
الذكاء الاصطناعي والتجسيد المتعدد
تم تصميم Gemini Robotics خصيصًا للتحكم في "التجسيد المتعدد" (multi-embodiment)، ما يتيح للروبوت تشغيل آلات صناعية متعددة الذراعين أو روبوتات بشرية كاملة مثل "Apollo".
ويعزز هذا الابتكار قدرة الروبوت على مراقبة العروض وفهم التعليمات بلغة طبيعية، والتخطيط لإجراءات متعددة الخطوات، والتفاعل مع الأشياء غير المألوفة.
وأظهر روبوت "Apollo" خلال التجارب، أداء مهام يومية مثل تحضير الطعام، وفرز الملابس، ووضع الأشياء في الحاويات، والتفاعل مع بيئات غير متوقعة، مثل تلك الموجودة في المنازل.
يعد هذا التقدم نتاجًا لتطورات سريعة في كل من الذكاء الاصطناعي والأجهزة على مدار العامين الماضيين، بدعم من النماذج المحسنة والمكونات الأرخص.
وتؤكد ديب مايند أن الخطوات المستقبلية يجب أن تركز على كفاءة البيانات، حيث يتطلب تدريب الروبوتات كميات ضخمة من البيانات التي تتضمن التفاعل والمناولة، كما تبقى السلامة أحد التحديات الرئيسية، خصوصًا بالنسبة للآلات التي من المفترض أن تعمل بالقرب من البشر والحيوانات والأشياء الهشة.
روبوتات قادرة على التكيف مع البيئات المعقدة
رغم أن الروبوتات الحالية تفتقر إلى الدقة اللازمة للقيام بمهام دقيقة مثل غلق كيس، إلا أن دمج الأجهزة الخاصة بروبوت Apollo مع الذكاء الاصطناعي المتطور من ديب مايند يشير إلى تحول ملحوظ في هذا المجال، وإذا أثبتت هذه التكنولوجيا فعاليتها خارج المختبر، فقد تساهم في اقترابنا من إنشاء روبوت عالمي قادر على فهم التعليمات، التكيف بسرعة، وأداء المهام المادية مع عدد أقل من القيود.
وتعمل ديب مايند على تطوير تقنية جديدة قد تُحدث تحولًا في طريقة تعلم الروبوتات، من خلال إعطائها "مونولوج داخلي"، في إطار طلب براءة اختراع حديث، حيث يشرح النظام كيف يمكن لوكلاء الذكاء الاصطناعي مشاهدة مقاطع فيديو أو صور لشخص يؤدي مهمة معينة، ثم توليد أوصاف باللغة الطبيعية لما يلاحظونه.
ويتمكن الروبوت من مشاهدة شخصًا يرفع كوبًا، على سبيل المثال، ثم يصف الفعل داخليًا بعبارة "الشخص يرفع الكوب"، ومن خلال دمج الإدخال البصري مع هذا الكلام الداخلي، يساعد النظام الروبوتات على فهم الأفعال بشكل أوضح، وتذكر كيفية أدائها في المواقف المماثلة.
وهذه الطريقة تمكّن الروبوتات من التعلم بلا تدريب مسبق، مما يتيح لها التعامل مع الأشياء أو المهام غير المألوفة دون الحاجة إلى تدريب مسبق، كما تقول ديب مايند إن هذه الطريقة تقلل من احتياجات الذاكرة والمعالجة، مما يجعلها أكثر كفاءة من التقنيات الحالية.
