شاهد: نهج جديد يُمكّن الروبوت من ترتيب الطاولة

شاهد: نهج جديد يُمكّن الروبوت من ترتيب الطاولة

هذه بداية مقال أطول.
المحتوى: “

شارك هذه
المقالة

أنت حر في مشاركة هذه المقالة بموجب رخصة المشاع الإبداعي 4.0 الدولية.

يُمكن نهج جديد الروبوتات من التعامل مع أجسام جديدة في بيئات متنوعة.

يُعدّ تنظيف طاولة الطعام مهمة سهلة بما فيه الكفاية لإتقانها من قبل طفل، لكنها تمثل تحديًا كبيرًا للروبوتات.

تُبرع الروبوتات في أداء المهام المتكررة، لكنها تكافح عندما يتعين عليها القيام بشيء جديد أو التفاعل مع الفوضى و الفوضى في العالم الحقيقي. وتصبح هذه المهام صعبة بشكل خاص عندما تتضمن عدة خطوات.

“لا تريد إعادة برمجة الروبوت لكل مهمة جديدة،” يقول مرتضى دلال، طالب دكتوراه في معهد الروبوتات بكلية علوم الحاسوب (SCS) بجامعة كارنيجي ميلون. “أنت تريد فقط أن تخبر الروبوت بما يجب فعله، ويفعله. هذا ضروري إذا أردنا أن تكون الروبوتات مفيدة في حياتنا اليومية.”

لتمكين الروبوتات من القيام بمجموعة واسعة من المهام التي لم تصادفها من قبل، طور دلال وباحثون آخرون في كلية علوم الحاسوب وشركة أبل نهجًا للتحكم في الروبوتات يسمى ManipGen أثبت نجاحًا كبيرًا في هذه المهام متعددة الخطوات، المعروفة بالمهام طويلة الأفق.

الفكرة الرئيسية، كما يشرح دلال، هي تقسيم مهمة تخطيط كيفية تحرك الذراع الروبوتية إلى جزأين.

تخيل فتح باب: الخطوة الأولى هي الوصول إلى مقبض الباب، والخطوة التالية هي تدويره. لحل المشكلة الأولى، يستخدم الباحثون طرقًا قائمة على البيانات راسخة في مجال رؤية الكمبيوتر وتخطيط الحركة لتحديد موقع الجسم وتحريك مُتحكم ذراع آلي بالقرب من الجسم. تُبَسّط هذه الطريقة الجزء الثاني من العملية، حيث تقتصر على التفاعل مع الجسم القريب. في هذه الحالة، مقبض الباب.

“في تلك المرحلة، لا يهتم الروبوت بمكان وجود الجسم. يهتم الروبوت فقط بكيفية إمساكه،” كما تقول دلال.

عادةً ما يتم تدريب الروبوتات على أداء مهمة ما باستخدام كميات هائلة من البيانات المستمدة من عروض توضيحية لهذه المهمة. يمكن جمع هذه البيانات يدوياً، مع قيام البشر بالتحكم في الروبوت، ولكن هذه العملية مكلفة وتستغرق وقتاً طويلاً. أما الطريقة البديلة فهي استخدام المحاكاة لتوليد البيانات بسرعة. في هذه الحالة، ستضع المحاكاة الروبوت في مجموعة متنوعة من المشاهد الافتراضية، مما يمكنه من تعلم كيفية إمساك الأشياء ذات الأشكال والأحجام المختلفة، أو فتح وإغلاق الأدراج أو الأبواب.

تقول دلال إن فريق البحث استخدم طريقة المحاكاة هذه لإنشاء البيانات وتدريب الشبكات العصبونية على تعلم كيفية التقاط ووضع آلاف الأشياء وفتح وإغلاق آلاف الأدراج والأبواب، باستخدام تقنيات التعلم المعزز التجريبية. وقد طور الفريق حلول تدريب وأجهزة محددة لنقل هذه الشبكات المدربة في المحاكاة إلى العالم الحقيقي. ووجدوا أن هذه المهارات يمكن إعادة دمجها حسب الضرورة لتمكين الروبوت من التفاعل مع العديد من الأشياء المختلفة في العالم الحقيقي، بما في ذلك تلك التي لم يسبق له مواجهتها.

وتقول دلال عن نشر الروبوت في العالم الحقيقي: “لا نحتاج إلى جمع أي بيانات جديدة. نقوم فقط بإخبار الروبوت بما يجب فعله باللغة الإنجليزية، وهو يقوم بذلك”.

يُطبّق الفريق عمليّة المرحلتين باستخدام نماذج أساسيّة مثل GPT-4o، والتي تستطيع النظر إلى بيئة الروبوت وتحليل المهمّة – مثل تنظيف الطاولة – إلى سلسلة من المهارات التي يُنفّذها الروبوت. ثم يُنفّذ الروبوت تلك المهارات، ويُقدّر أولاً المواقع القريبة من الأجسام باستخدام رؤية حاسوبيّة، ثم ينتقل إلى هناك باستخدام تخطيط الحركة، وأخيراً يتلاعب بالجسم باستخدام كاميرا عمق لقياس المسافات.

طبّق الباحثون طريقتهم على مهام متعددة المراحل صعبة مثل فتح الأدراج ووضع الأجسام فيها أو إعادة ترتيب الأجسام على رف. وقد أثبتوا أنّ هذا النهج يعمل مع مهام الروبوتات التي تتضمن ما يصل إلى ثماني خطوات، “ولكن أعتقد أنه يمكننا أن نذهب إلى أبعد من ذلك”، كما تقول دلال.

وبالمثل، فإن جمع البيانات من خلال العروض التوضيحية يمكن أن يُمكّن هذا النهج من التوسّع ليشمل الأجسام التي لا يمكن محاكاتها حاليًا، مثل الأجسام الناعمة والمرنة.

“هناك الكثير لاستكشافه مع ManipGen. فالأساس الذي وضعناه من خلال هذا المشروع يفتح إمكانيات مثيرة للتطورات المستقبلية في التلاعب الآلي ويقربنا من هدف تطوير الروبوتات متعددة الاستخدامات،” هذا ما يقوله مين ليو، طالب ماجستير في قسم تعلم الآلة والمسؤول المشارك في المشروع.

“يُظهر ManipGen حقًا قوة نقل المحاكاة إلى الواقع كنظام أساسي لإنتاج روبوتات يمكنها التعميم على نطاق واسع، وهو ما رأيناه في الحركة، ولكن حتى الآن، ليس في التلاعب العام،” هذا ما يقوله ديباك باتاك، أستاذ مساعد في علوم الكمبيوتر في معهد الروبوتات.

يعتمد ManipGen على البحث لتمكين الروبوتات من حل المهام الأطول والأكثر تعقيدًا، كما يقول رسلان سالاخوتدينوف، الباحث الرئيسي في المشروع وأستاذ علوم الكمبيوتر في قسم تعلم الآلة.

“في هذه النسخة”، يقول، “نُظهر أخيرًا ذروة العمل المُمتد لسنوات: وكيل قادر على التعميم وحل مجموعة هائلة من المهام في العالم الحقيقي.”

يُحدد كل من دلال وليو برنامج ManipGen في ورقة بحثية مُنشورة حديثًا.

المصدر: جامعة كارنيجي ميلون