أستاذة جامعة ستانفورد في-في لي قد حجزت بالفعل مكانًا في تاريخ الذكاء الاصطناعي. لعبت دورًا رئيسيًا في ثورة التعلم العميق بالتعلم العميق من خلال العمل لسنواتٍ لإنشاء مجموعة بيانات إيميج نت ومسابقة، والتي تحدت أنظمة الذكاء الاصطناعي في التعرف على الكائنات والحيوانات عبر 1000 فئة. في عام 2012، أحدثت شبكة عصبية تُدعى أليكس نت هزةً في مجتمع أبحاث الذكاء الاصطناعي عندما تفوقت بشكلٍ واضح على جميع أنواع النماذج الأخرى وفازت بمسابقة إيميج نت. ومن ثمّ، ارتفعت الشبكات العصبية، مدفوعةً بالكميات الهائلة من بيانات التدريب المجانية المتوفرة حاليًا على الإنترنت ووحدات المعالجة الرسومية التي توفر قوة حسابية غير مسبوقة.
في السنوات الثلاثة عشر الماضية منذ إطلاق ImageNet، تمكن باحثو الرؤية الحاسوبية من إتقان التعرف على الأجسام وانتقلوا إلى توليد الصور والفيديوهات. أسست لي معهدًا للذكاء الاصطناعي المُركّز على الإنسان (HAI) في جامعة ستانفورد، وواصلت دفع حدود الرؤية الحاسوبية. أطلقت هذا العام شركة ناشئة، World Labs، تُولّد مشاهد ثلاثية الأبعاد يمكن للمستخدمين استكشافها. تُعنى World Labs بإكساب الذكاء الاصطناعي “الذكاء المكاني”، أو القدرة على توليد العوالم ثلاثية الأبعاد، والتفكير داخلها، والتفاعل معها. قدّمت لي محاضرة رئيسية أمس في مؤتمر NeurIPS الضخم للذكاء الاصطناعي حول رؤيتها للرؤية الآلية، وأجرت مقابلة حصرية مع مجلة IEEE Spectrum قبل محاضرتها.
لماذا سُمّيت محاضرتك “صعود سلم الذكاء البصري”؟
فيفي لي: أعتقد أنه بديهي أن الذكاء له مستويات مختلفة من التعقيد والتحصيل. في هذا الكلام، أرغب في إيصال الشعور بأن ما تعلمناه في مجال الذكاء البصري خلال العقود الماضية، وخصوصًا خلال السنوات العشر الماضية من ثورة التعلم العميق [[LINK10]]، مُذهل حقًا. لقد أصبحنا أكثر قدرةً مع التكنولوجيا. كما تأثرت أيضًا بـ “سلم السببية” لـ جوديا بيرل [في كتابه [[LINK11]] *كتاب لماذا* [[LINK11]] لعام 2020].
يتضمن الكلام أيضًا عنوانًا فرعيًا، “من الرؤية إلى الفعل”. وهذا ما لا يقدره الناس بما فيه الكفاية: أن الرؤية مرتبطة ارتباطًا وثيقًا بالتفاعل والقيام بالأشياء، سواء بالنسبة للحيوانات أو وكلاء الذكاء الاصطناعي. وهذا انحراف عن اللغة. اللغة أداة اتصال أساسية تُستخدم لنقل الأفكار. في رأيي، هذه وسيلتان متكاملتان، وعميقتان على حد سواء، من الذكاء.
هل تقصد أننا نستجيب بشكل غريزي لبعض الرؤى؟
لي: لستُ أتحدث فقط عن الغريزة. فإذا نظرتَ إلى تطور الإدراك وتطور ذكاء الحيوانات، ستجد ارتباطًا وثيقًا جدًّا. كلما استطعنا الحصول على المزيد من المعلومات من البيئة، تدفع القوة التطورية القدرات والذكاء إلى الأمام. إذا لم تُحسّ بالبيئة، فإن علاقتك بالعالم تكون سلبية للغاية؛ سواء أكلت أم أُكلت، فإنها فعلٌ سلبي للغاية. ولكن بمجرد أن تتمكّن من أخذ الإشارات من البيئة من خلال الإدراك، يزداد الضغط التطوري حقًّا، وهذا يدفع الذكاء إلى الأمام.
هل تعتقد أننا بذلك نُنشئ ذكاءً آليًّا أعمق وأعمق؟ من خلال السماح للآلات بإدراك المزيد من البيئة؟
لي: لست متأكداً من كون “عميق” هو الصفة التي سأستخدمها. أعتقد أننا نخلق المزيد من القدرات. أعتقد أنها أصبحت أكثر تعقيداً، وأكثر قدرة. أعتقد أنه صحيح تماماً أن معالجة مشكلة الذكاء المكاني خطوة أساسية وحرجة نحو الذكاء الكامل.
لقد شاهدت عروض مختبرات العالم. لماذا تريدون البحث في الذكاء المكاني وبناء هذه العوالم ثلاثية الأبعاد؟
“`html
لي: أعتقد أن الذكاء المكاني هو الاتجاه الذي يسلكه الذكاء البصري. إذا كنا جادين في حل مشكلة الرؤية وربطها بالعمل، فهناك حقيقة بسيطة وواضحة تمامًا: العالم ثلاثي الأبعاد. نحن لا نعيش في عالم مسطح. وكلاءنا الماديون، سواء كانوا روبوتات أو أجهزة، سيعيشون في عالم ثلاثي الأبعاد. حتى العالم الافتراضي أصبح أكثر فأكثر ثلاثية الأبعاد. إذا تحدثت إلى الفنانين ومطوري الألعاب والمصممين والمهندسين المعماريين والأطباء، حتى عندما يعملون في عالم افتراضي، فإن الكثير من هذا العمل ثلاثي الأبعاد. إذا خصصت لحظة ولاحظت هذه الحقيقة البسيطة ولكن العميقة، فلا شك أن حل مشكلة الذكاء ثلاثي الأبعاد أمر أساسي.
“`
أود معرفة كيف تُحافظ مشاهد مختبرات العالم على ثبات الأجسام وتوافقها مع قوانين الفيزياء. يبدو ذلك خطوة مثيرة إلى الأمام، نظرًا لأن أدوات توليد الفيديو مثل Sora [[LINK12]] ما زالت تواجه صعوبة في هذه الأمور[[LINK12]].
لي: بمجرد احترامك للبعد الثلاثي للعالم، فإن الكثير من هذا الأمر يكون طبيعيًا. على سبيل المثال، في أحد مقاطع الفيديو التي نشرناها على وسائل التواصل الاجتماعي، تم إسقاط سلالات كرة سلة في المشهد. نظرًا لأنها ثلاثية الأبعاد، فإنها تُتيح لك امتلاك هذا النوع من القدرات. إذا كان المشهد مُولّدًا ثنائي الأبعاد من بكسلات، فلن تذهب الكرة إلى أي مكان.
أو، كما هو الحال في Sora، قد تذهب إلى مكان ما ثم تختفي. ما هي أكبر التحديات التقنية التي تواجهونها أثناء محاولتكم دفع هذه التكنولوجيا إلى الأمام؟
لي: لم يحلّ أحد هذه المشكلة، أليس كذلك؟ إنها صعبةٌ جدًا، جدًا. يمكنك أن ترى [في فيديو عرض مختبرات العالم] أننا قد أخذنا لوحةً لفان جوخ وأنتجنا المشهدَ بأكمله حولها بنمطٍ متسق: النمط الفني، والإضاءة، وحتى نوع المباني التي ستكون في تلك المنطقة. لو دارت المشاهد فجأةً لتصبح ناطحات سحاب، فسيكون ذلك غير مقنع على الإطلاق، أليس كذلك؟ وذلك يجب أن يكون ثلاثي الأبعاد. يجب أن تستطيع التنقل داخله. لذا، إنها ليست مجرد بكسلات.
هل يمكنك أن تُفصح عن شيءٍ حول البيانات التي استخدمتها في تدريبه؟
لي: الكثير.
هل لديك تحديات تقنية تتعلق بعبء الحوسبة؟
لي: إنه قدر كبير من الحوسبة. إنه نوع الحوسبة التي لا يُمكن القطاع العام من تحمل تكاليفه. هذا جزء من السبب الذي يجعلني أشعر بحماسٍ لأخذ إجازة دراسية، للقيام بذلك بطريقة القطاع الخاص. وهو أيضاً جزء من السبب الذي جعلني أُدافع عن وصول القطاع العام إلى الحوسبة، لأن تجربتي الخاصة تُبرز أهمية الابتكار مع قدرٍ كافٍ من الموارد.
سيكون من الجميل تمكين القطاع العام، لأنه عادةً ما يكون أكثر حماسًا لاكتساب المعرفة من أجل معرفةٍ ذاتها، والمعرفة من أجل مصلحة الإنسانية.
لي: يُلزم اكتشاف المعارف دعمًا من الموارد، أليس كذلك؟ في زمن غاليلي، كان أفضل تلسكوب يسمح للعلماء بمراقبة الأجرام السماوية الجديدة. هوك هو من أدرك أن العدسات المكبرة يمكن أن تُصبح مجاهر واكتشف الخلايا. في كل مرة تظهر أدوات تكنولوجية جديدة، فهي تساعد في البحث عن المعارف. والآن، في عصر الذكاء الاصطناعي، تتضمن الأدوات التكنولوجية الحوسبة والبيانات. يجب علينا أن ندرك ذلك في القطاع العام.
ما الذي ترغبون به على المستوى الاتحادي لتوفير الموارد؟
لي: كان هذا عمل معهد هـ.آي. في جامعة ستانفورد خلال السنوات الخمس الماضية. لقد عملنا مع الكونغرس، والشيوخ، والبيت الأبيض، والصناعة، وجامعات أخرى لإنشاء NAIRR، مورد الأبحاث الوطني للذكاء الاصطناعي.
بافتراض أننا نستطيع جعل أنظمة الذكاء الاصطناعي تفهم العالم ثلاثي الأبعاد حقًا، فماذا يُعطينا ذلك؟
لي: سيُطلق هذا الكثير من الإبداع والإنتاجية لدى الناس. أودّ تصميم منزلي بطريقة أكثر كفاءة. أعلم أن الكثير من الاستخدامات الطبية تتضمن فهم عالم ثلاثي الأبعاد مُحدد للغاية، وهو جسم الإنسان. نحن نتحدث دائمًا عن مستقبل حيث سيصنع البشر روبوتات لمساعدتنا، لكن الروبوتات تتحرك في عالم ثلاثي الأبعاد، وتحتاج إلى ذكاء مكاني كجزء من دماغها. نتحدث أيضًا عن عوالم افتراضية ستسمح للناس بزيارة أماكن أو تعلم مفاهيم أو الترفيه، وتُستخدم فيها تقنيات ثلاثية الأبعاد، خاصةً الهجينة، ما نسميه الواقع المعزز [الواقع المعزز]. أودّ أن أسير عبر متنزه وطني بزوج من النظارات تُعطيني معلومات عن الأشجار، والمسار، والسحب. أودّ أيضًا تعلم مهارات مختلفة بمساعدة الذكاء المكاني.
ما هي أنواع المهارات؟
“`html
لي: مثاليٌّ ضعيفٌ إنْ كان لديّ إطارٌ مسنونٌ على الطريق السريع، ماذا أفعل؟ حاليًّا، أفتح فيديو “كيفية تغيير الإطار”. ولكن لو استطعتُ أن أضع نظاراتٍ وأرى ما يجري مع سيارتي ثمَّ يُرشدني خلال تلك العملية، سيكون ذلك رائعًا. لكن هذا مثالٌ ضعيفٌ. يمكنك التفكير في الطبخ، والنحت – أمورٌ ممتعةٌ.
إلى أي مدى تعتقد أننا سنصل بهذه التقنية في حياتنا؟
لي: أعتقد أنه سيحدث في حياتنا لأن وتيرة تقدم التكنولوجيا سريعة جدًّا. لقد رأيتَ ما جلبته السنوات العشر الماضية. إنه بالتأكيد مؤشرٌ لما سيأتي بعد ذلك.
من مقالات موقعك
مقالات ذات صلة من مواقع أخرى على الويب
“`
المصدر: المصدر