تعزيز تعلم الآلة يزيد من سرعة الجري لدى سبوت

تعزيز تعلم الآلة يزيد من سرعة الجري لدى سبوت

قبل حوالي عام، أصدرت بوستون ديناميكس نسخة بحثية من روبوت سبوت رباعي الأرجل، والذي يأتي مع واجهة برمجة تطبيقات (API) تسمح بالتحكم المباشر في مفصلاته. وحديثًا، أثبت معهد الروبوتات والذكاء الاصطناعي (RAI) أن هذه الواجهة ساهمت في تحسين أداء سبوت، وزيادة سرعته بشكلٍ ملحوظ. 🚀

اليوم، نُشاركُكم بعضَ أعمال معهد RAI الرائعة في تطبيق تقنيات التعلم المعزز لتحقيق أداءٍ أعلى بكثيرٍ من روبوت Spot. فهذه التقنيات تُساعدُ الروبوتات الديناميكية على العمل بثباتٍ، بل إنها تفتح آفاقًا جديدةً! مثالٌ على ذلك هو دراجةٍ ذاتيةٍ القيادةٍ قادرةٍ على القفز! 🚴‍♂️


شاهدوا Spot يجري!

يُظهرُ هذا الفيديو Spot وهو يُجري بسرعةٍ مُذهلةٍ تبلغُ 5.2 أمتارٍ في الثانية (11.6 ميلٍ في الساعة)! 🤯 سرعةُ Spot المُصنّعةُ المُبدئية هي 1.6 م/ثانية، مما يعني أنَّ روبوت Spot لدى معهد RAI قد زادَ من سرعةِ الرباعية الأرجل المُصنّعة بثلاثة أضعافٍ تقريبًا! 💪

هل تبدو هذه السرعة غريبة؟ ربما! طريقة حركة أرجل وجسم هذا الكلب الروبوت أثناء الركض لا تشبه ركض الكلب الحقيقي، لكن الأهم هو الكفاءة. يشرح فربود فرشيديّان، عالم الروبوتات في معهد RAI، بأن “الخطوة ليست بيولوجية، لكن الروبوت ليس بيولوجيًا. محركات Spot الفاعلة تختلف عن العضلات، وحركيته تختلف، لذلك فإن الخطوة المناسبة لكلبٍ للركض بسرعة ليست بالضرورة أفضل لهذا الروبوت”.

أفضل وصف لفارسيديان لكيفية تحرك Spot هو أنه يشبه الركض، باستثناء مرحلة طيران إضافية تجعلها تقنيًا جريًا. وهذا ضروري للحفاظ على السرعة.

تعلم التدعيم مقابل التحكم التنبؤي بالنموذج

مُتحكم Spot القياسي قائم على التحكم التنبؤي بالنموذج (MPC)، والذي يتضمن إنشاء نموذج برمجي يُقارب ديناميكيات الروبوت. هذا النهج مُتوقّع وموثوق، لكنه مُتصلّب. في المقابل، يتعلم التعلم المعزز (RL) خارجيًّا، ما يسمح بتدريب سياسة تحكم عالية الكفاءة على الروبوت.


في المحاكاة، يمكن تدريب زوج من Spot (أو مئات من Spot) بالتوازي لتحقيق أداء قوي في العالم الحقيقي.
معهد الروبوتات والذكاء الاصطناعي

في مثال سرعة Spot القصوى، من غير الممكن تصميم كل محركات الروبوت بدقة داخل نظام تحكم قائم على النموذج. لذا، تُبنى افتراضات مبسطة حول أداء المحركات، مما يضمن أداءً آمنًا وموثوقًا.

لكن هذه الافتراضات تُعيق فهم القيود الفعلية للأداء. يُدرك العديد من روّاد مجال الروبوتات أن أحد قيود السرعة العالية هو الوصول إلى الحد الأقصى من عزم الدوران والسرعة لنظام التشغيل. لكن السؤال المهم هنا هو ما إذا كانت هناك ظواهر أخرى تحدد الأداء بالفعل.

بحثُ هذه الظواهر الأخرى شمل إدخال بيانات جديدة إلى خط أنابيب التعلم المعزز، مثل نماذج محددة للفاعلات مُستنتجة من أداء الروبوت في العالم الحقيقي. واتضح أن ما كان يُحدّد سرعة Spot ليس محركاتها، بل بطارياته، حيث لم تكن قادرة على توفير الطاقة الكافية. هذا كان مفاجئًا!

نظام توليد الطاقة في Spot معقد بما فيه الكفاية، ويشير فرشيديان إلى أنَّه الشيء الوحيد الذي منعه من دفع سرعة Spot القصوى إلى ما يتجاوز 5.2 م/ث هو عدم امتلاكهم لبيانات جهد البطاريات، مما حال دون دمج هذه البيانات الواقعية في نموذج التعلم الآلي الخاص بهم. لو كانت لدينا بطاريات أقوى، لكنا استطعنا تحقيق سرعات أعلى.

تُعد تقنية RAI قابلةً للتعميم، ويمكن استخدامها لتحسين كفاءة الروبوتات، وجعلها أكثر هدوءًا، لتحسين أدائها في بيئاتٍ مختلفة.

مركبة فائقة الحركة: تدريس دراجات الروبوت القفز

التعلم المعزز ليس جيدًا فقط لزيادة أداء الروبوت، بل يمكنه أيضًا جعل هذا الأداء أكثر موثوقية. لقد جرب معهد RAI نوعًا جديدًا من الروبوت: دراجة صغيرة مُتَنقلة تسمى “مركبة الحركة الفائقة” أو UMV، والتي تم تدريبها على أداء باركور باستخدام نفس خط أنابيب التعلم المعزز الأساسي.

لا يوجد نظام استقرار جسدي مستقل يحافظ على عدم سقوط UMV. إنه مجرد دراجة عادية يمكنها التحرك للأمام والخلف ودوران عجلتها الأمامية. يُظهر الفيديو كيف تساعد التعلم المعزز في جعل UMV قويًا للغاية في قدرات القيادة، وكيف يسمح فهم قدرات الروبوتات الديناميكية لنا بأداء أشياء جديدة، مثل القفز.

يقول ماركو هوتر، مدير مكتب زيوريخ بمعهد RAI: “مفتاح التعلم المعزز في كل هذا هو اكتشاف سلوك جديد وجعله قويًا وموثوقًا به في ظروف يصعب جدًا تصميمها. هذا هو المكان الذي يتألق فيه التعلم المعزز حقًا حقًا”.

إنّ الركوب للخلف حالةٌ غير مستقرة للغاية. لم يكن ممكناً القيام بذلك باستخدام وحدة التحكم الكلاسيكية [MPC]، لا سيّما على أرضٍ وعرة أو مع وجود اضطرابات.

إخراج هذا الروبوت من المختبر وإلى التضاريس ليس عملاً سهلاً، لكنه قيد التطوير. يقول معهد RAI إنه سيتمكن من إظهاره في المستقبل القريب. الهدف هو إظهار ما يمكن لـ *أيّ* روبوت أن يفعله من خلال التعلم المعزز. فهم هذه القيود الخفية في أنظمة الأجهزة يسمح لنا بتحسين الأداء والحفاظ على دفع حدود التحكم.


تعليم الروبوت UMV القيادة بنفسه أسفل السلالم في المحاكاة يؤدي إلى روبوت حقيقي يمكنه التعامل مع السلالم بأي زاوية.
معهد الروبوتات والذكاء الاصطناعي

تعزيز تعلم الآلة للروبوتات في كل مكان

لقد أعلن معهد RAI مؤخرًا عن شراكة جديدة مع بوستون ديناميكس لتطوير الروبوتات البشرية الشبيهة باستخدام التعلم المعزز. هذه الروبوتات معقدة للغاية، ونهج التعلم المعزز أكثر فاعليةً في هذا المجال.

يقول هوتر: “من طموحاتنا كمعهد أن نمتلك حلولاً تشمل جميع أنواع المنصات المختلفة”. “ذلك يتعلق ببناء الأدوات، وبناء البنية التحتية، وبناء الأساس لكي يتم ذلك في سياق أوسع. لذا، ليس فقط الروبوتات البشرية الشكل، بل قيادة المركبات، والرباعيات، ما شئت”.

لطالما كانت عملية نقل المهارات إلى العالم الحقيقي تحديًا للروبوتات المدربة في المحاكاة. إذا قضيت وقتًا كافيًا في المحاكاة، يمكنك إيجاد وظيفة مكافأة حيث سيقوم الروبوت بما تريد، لكن ما غالبًا ما يفشل هو نقل سلوك المحاكاة إلى الأجهزة، لأن التعلم المعزز جيد جدًا في إيجاد أخطاء في محاكاتك واستغلالها لإنجاز المهمة.

لقد تحسنت المحاكاة بشكلٍ كبير، مع أدواتٍ جديدة، وديناميكياتٍ أكثر دقة، وكثير من قوة الحوسبة. فائدة هذه البيانات تكمن في اتصالها بالواقع. ويعتقد هوتر أن إرجاع البيانات الفيزيائية التي تم جمعها على الأجهزة الحقيقية إلى المحاكاة، نهجٌ واعدٌ للغاية.