“`html
أندرو نغ يتمتع بسمعة طيبة في مجال ذكاء اصطناعي. لقد كان رائداً في استخدام وحدات معالجة الرسومات (وحدات معالجة الرسومات) لتدريب نماذج التعلم العميق في أواخر عام 2000 مع طلابه في جامعة ستانفورد. وقد أسس معهم مجموعة جوجل للذكاء الاصطناعي في عام 2011، ثم عمل لمدة ثلاث سنوات كعالم رئيسي في بيدو، حيث ساعد في بناء مجموعة الذكاء الاصطناعي العملاقة التكنولوجية الصينية. لذا، عندما يقول إنه حدد التحول الكبير التالي في مجال الذكاء الاصطناعي، فإن الناس يستمعون. وهذا ما أخبر به مجلة IEEE Spectrum في حوار حصري.
“`
تركز جهود نغ الحالية على شركته Landing AI، التي بنت منصةً تُسمى LandingLens لمساعدة المصنعين على تحسين التفتيش البصري باستخدام الرؤية الحاسوبية. كما أصبح بمثابة داعية لما يُسميه حركة الذكاء الاصطناعي المُركز على البيانات، والتي يقول إنها تُنتج حلولاً “لبيانات صغيرة” لمشاكل كبيرة في الذكاء الاصطناعي، بما في ذلك كفاءة النماذج، ودقتها، وتحيزها.
أندرو نغ حول…
لقد تمّتْ التطورات الكبيرة في التعلم العميق خلال العقد أو نحو ذلك الماضي بفضل نماذج أكبر وأكبر تتعامل مع كميات أكبر وأكبر من البيانات. يجادل بعض الناس بأنّ ذلك مسارٌ غير مستدام. هل توافق على أنه لا يمكن أن يستمر بهذه الطريقة؟
أندرو نق: هذا سؤال كبير. لقد رأينا نماذج الأساس في معالجة اللغة الطبيعية [NLP]. أنا متحمس بشأن نماذج NLP التي تصبح أكبر، وكذلك حول إمكانية بناء نماذج أساس في رؤية الكمبيوتر. أعتقد أن هناك الكثير من الإشارات التي لم تُستغل بعد في الفيديو: لم نتمكن بعد من بناء نماذج أساس لفيديو بسبب عرض النطاق الترددي الحسابي وتكلفة معالجة الفيديو، على عكس النص المُجزأ. لذا أعتقد أن هذا المحرك لتكبير خوارزميات التعلم العميق، الذي يعمل منذ حوالي 15 عامًا، لا يزال لديه قوة دفع. مع ذلك، ينطبق فقط على بعض المشكلات، وهناك مجموعة من المشكلات الأخرى التي تحتاج إلى حلول بيانات صغيرة.
عندما تقول إنك تريد نموذج أساس لرؤية الكمبيوتر، ماذا تقصد بذلك؟
نغ: هذا مصطلح ابتكره بيرسي ليانغ و بعض أصدقائي في جامعة ستانفورد للإشارة إلى النماذج الضخمة للغاية، المدربة على مجموعات بيانات ضخمة للغاية، والتي يمكن ضبطها لتطبيقات محددة. على سبيل المثال، جي بي تي-3 مثال على نموذج أساسي [للتعلم الآلي اللغوي]. تقدم النماذج الأساسية الكثير من الوعد كنمط جديد في تطوير تطبيقات التعلم الآلي، ولكن أيضًا تحديات فيما يتعلق بالتأكد من أنها عادلة ومنصفة وخالية من التحيز، خاصةً إذا كان الكثير منا سيبني فوقها.
ماذا يجب أن يحدث حتى يتمكن شخص ما من بناء نموذج أساسي للفيديو؟
نغ: أعتقد أن هناك مشكلة في قابلية التوسع. إن قوة الحوسبة اللازمة لمعالجة حجم كبير من الصور للفيديو كبيرة، وأعتقد أن هذا هو السبب في ظهور نماذج الأساس أولاً في معالجة اللغات الطبيعية. يعمل العديد من الباحثين على ذلك، وأعتقد أننا نشهد علامات مبكرة على تطوير مثل هذه النماذج في مجال رؤية الحاسوب. لكنني واثق من أنه إذا قدم لنا صانع أشباه الموصلات قوة معالجة أكبر بعشر مرات، فسوف نجد بسهولة عشر مرات أكثر من الفيديو لبناء مثل هذه النماذج للرؤية.
بمجرد أن نقول ذلك، فإن الكثير مما حدث خلال العقد الماضي هو أن التعلم العميق حدث في شركات تركز على المستهلكين لديها قواعد مستخدمين كبيرة، أحيانًا مليارات المستخدمين، وبالتالي مجموعات بيانات ضخمة. بينما دفع ذلك النموذج من التعلم الآلي قيمة اقتصادية كبيرة في برامج المستهلكين، أجد أن وصفة المقاييس هذه لا تعمل في الصناعات الأخرى.
من المضحك سماعك تقول ذلك، لأن عملك المبكر كان في شركة تُواجه المستهلكين لديها ملايين المستخدمين.
نج: قبل أكثر من عقد من الزمن، عندما اقترحت بدء مشروع Google Brain لاستخدام بنية حوسبة جوجل لبناء شبكات عصبية ضخمة للغاية، كان ذلك خطوة مثيرة للجدل. شخص كبير السن للغاية سحبني جانباً وحذرني من أن بدء مشروع Google Brain سيكون ضاراً بمسيرتي المهنية. أعتقد أنه شعر بأن العمل لا يمكن أن يكون فقط في زيادة الحجم، وأنني ينبغي أن أركز بدلاً من ذلك على ابتكار الهياكل.
“في العديد من الصناعات التي لا توجد فيها مجموعات بيانات عملاقة ببساطة، أعتقد أن التركيز يجب أن يتحول من البيانات الضخمة إلى البيانات الجيدة. يمكن أن يكون وجود 50 مثالاً مُصمماً بعناية كافياً لشرح ما تريد من الشبكة العصبية أن تتعلمه.”
—أندرو نج، الرئيس التنفيذي والمؤسس، Landing AI
أتذكر عندما نشر طلابي وأنا الورقة الأولى لحُلقَة عمل NeurIPS تدعو إلى استخدام CUDA، منصة لمعالجة المعالجات الرسومية (GPUs)، للتعلم العميق – جلس بي كبيرٌ آخر في مجال الذكاء الاصطناعي وقال: “برمجة CUDA معقدة للغاية. كنمط برمجة، هذا يبدو وكأنه عملٌ مرهقٌ”. تمكنت من إقناعه؛ الشخص الآخر لم أتمكن من إقناعه.
أتوقع أنهم مقتنعون الآن كلاهما.
نج: أظن ذلك، نعم.
خلال العام الماضي، بينما كنت أتحدث مع الناس حول حركة الذكاء الاصطناعي المُركّزة على البيانات، كنت أُعاني من ذكرياتٍ عن عندما كنت أتحدث مع الناس عن التعلم العميق وقابلية التوسع قبل 10 أو 15 عامًا. خلال العام الماضي، كنت أواجه نفس المزيج من “لا يوجد جديد هنا” و “هذا يبدو اتجاهًا خاطئًا”.
كيف تُعرّف الذكاء الاصطناعي المُركّز على البيانات، ولماذا تعتبره حركةً؟
نج: الذكاء الاصطناعي المُركّز على البيانات هو منهجية هندسة البيانات بشكلٍ منهجيٍّ لنجاح بناء نظام ذكاء اصطناعي. لأيّ نظام ذكاء اصطناعي، عليك تنفيذ خوارزمية ما، مثل شبكة عصبونية، بلغة برمجة، ثم تدريبها على مجموعة البيانات الخاصة بك. كانت النموذج السائد خلال العقد الماضي هو تنزيل مجموعة البيانات، بينما تركز على تحسين الكود. بفضل هذا النموذج، تحسّنت شبكات التعلم العميق بشكلٍ كبير خلال العقد الماضي، إلى درجة أن الكود -هيكل الشبكة العصبونية- أصبح مشكلةً مُحلولةً عمليًا في العديد من التطبيقات. لذا، فمن أجل العديد من التطبيقات العملية، أصبح من المُنتِج أكثر تثبيت هيكل الشبكة العصبونية، والبحث عن طرق لتحسين البيانات بدلاً من ذلك.
عندما بدأتُ أتحدث عن هذا الموضوع، رفع العديد من المُمارسين، وبشكلٍ مُناسب تمامًا، أيديهم وقالوا: “نعم، نقوم بذلك منذ عشرين عامًا”. لقد حان الوقت لجعل ما كان يقوم به بعض الأفراد بشكلٍ بديهي، منهجًا هندسيًا منهجيًا.
حركة الذكاء الاصطناعي المُركز على البيانات أكبر بكثير من شركة أو مجموعة باحثين. نظمتُ أنا وزملائي ورشة عمل حول الذكاء الاصطناعي المُركز على البيانات في مؤتمر NeurIPS [[LINK21]]، وكنتُ مسرورًا حقًا بعدد المُؤلفين والمُقدمين الذين حضروا.
كثيراً ما تتحدث عن الشركات أو المؤسسات التي تمتلك كميةً قليلةً من البيانات. كيف يمكن للذكاء الاصطناعي المُركز على البيانات أن يساعدهم؟
نغ: تسمع الكثير عن أنظمة الرؤية المبنية باستخدام ملايين الصور – لقد بنيت ذات مرة نظامًا للتعرف على الوجوه باستخدام 350 مليون صورة. الهندسات المبنية لمئات الملايين من الصور لا تعمل مع 50 صورة فقط. لكن اتضح أنه إذا كان لديك 50 مثالًا جيدًا حقًا، يمكنك بناء شيء قيّم، مثل نظام تفتيش العيوب. في العديد من الصناعات التي لا توجد فيها مجموعات بيانات ضخمة، أعتقد أن التركيز يجب أن ينتقل من البيانات الضخمة إلى البيانات الجيدة. يمكن أن يكون امتلاك 50 مثالًا مُصمّمًا بعناية كافيًا لشرح ما تريد من الشبكة العصبية أن تتعلمه.
عندما تتحدث عن تدريب نموذج باستخدام 50 صورة فقط، هل هذا يعني حقًا أنك تأخذ نموذجًا موجودًا تم تدريبه على مجموعة بيانات كبيرة جدًا وتُحسّنه؟ أم تقصد نموذجًا جديدًا بالكامل مصممًا ليتعلم فقط من تلك المجموعة الصغيرة من البيانات؟
نغ: اسمحوا لي أن أوضح ما تقوم به Landing AI. عند إجراء الفحص البصري للمصنعين، غالبًا ما نستخدم نوعًا خاصًا من شبكة RetinaNet. إنها نموذج مُدرب مسبقًا. ومع ذلك، فإن التدريب المسبق هو جزء صغير من اللغز. الجزء الأكبر من اللغز هو توفير الأدوات التي تمكّن المُصنّع من اختيار المجموعة الصحيحة من الصور [لاستخدامها في التكيّف] ووضع التسميات عليها بطريقة متسقة. هناك مشكلة عملية جدًا رأيناها في الرؤية، ومعالجة اللغة الطبيعية، والخطاب، حيث حتى المُلصقون البشريون لا يتفقون على التسمية المناسبة. في تطبيقات البيانات الكبيرة، كان الاستجابة الشائعة هي: إذا كانت البيانات ضوضائية، دعنا نحصل على الكثير من البيانات وسيتوسّط الخوارزمية عليها. ولكن إذا كنت تستطيع تطوير أدوات تُشير إلى أين توجد عدم الاتساق في البيانات وتمنحك طريقة مُستهدفة للغاية لتحسين اتساق البيانات، فإن ذلك يُصبح طريقةً أكثر كفاءةً للحصول على نظام عالي الأداء.
“جمع المزيد من البيانات غالبًا ما يساعد، ولكن إذا حاولت جمع المزيد من البيانات لكل شيء، فقد يكون ذلك نشاطًا مكلفًا للغاية.”
—أندرو نغ
مثلاً، إذا كان لديك 10,000 صورة، و30 صورة منها من فئة واحدة، وهذه الصور الـ 30 مصنفة بشكل غير متسق، فإن أحد الأمور التي نفعلها هو بناء أدوات تُلفت انتباهك إلى مجموعة البيانات غير المتسقة. لذلك، يمكنك إعادة تصنيف هذه الصور بسرعة لتصبح أكثر اتساقًا، وهذا يؤدي إلى تحسن في الأداء.
هل يمكن أن يساعد التركيز على بيانات عالية الجودة في معالجة التحيز في مجموعات البيانات؟ إذا كنت قادرًا على تنظيم البيانات بشكل أفضل قبل التدريب؟
نغ: بالتأكيد. لقد أشار العديد من الباحثين إلى أن البيانات المتحيزة هي عامل واحد من بين العديد من العوامل التي تؤدي إلى أنظمة متحيزة. وقد بذلت جهودٌ مُتأنيةٌ في هندسة البيانات. في ورشة عمل NeurIPS، قدمت [[LINK23]] أولغا روسكوفسكي[[LINK23]] محاضرةً رائعةً للغاية حول هذا الموضوع. وفي مؤتمر NeurIPS الرئيسي، استمتعت أيضًا جدًا بِعرض [[LINK24]] ماري غراي،[[LINK24]] الذي تناول كيف أن الذكاء الاصطناعي المُركز على البيانات هو جزءٌ من الحل، ولكنه ليس الحل الكامل. يبدو أن الأدوات الجديدة مثل [[LINK25]] ورقة بيانات حول مجموعات البيانات[[LINK25]] جزءًا هامًا من اللغز.
من الأدوات القوية التي يمنحنا إياها الذكاء الاصطناعي المُعتمد على البيانات القدرة على هندسة مجموعة فرعية من البيانات. تخيل تدريب نظام تعلم آلي ووجدت أن أداءه جيد بالنسبة لمعظم مجموعة البيانات، لكن أداءه متحيز لمجموعة فرعية فقط من البيانات. إذا حاولت تغيير بنية الشبكة العصبية بأكملها لتحسين الأداء على تلك المجموعة الفرعية فقط، فإنه سيكون أمرًا صعبًا للغاية. ولكن إذا تمكنت من هندسة مجموعة فرعية من البيانات، فيمكنك معالجة المشكلة بطريقة أكثر استهدافًا.
عندما تتحدث عن هندسة البيانات، ماذا تقصد بالضبط؟
نغ: في مجال الذكاء الاصطناعي، تُعدّ تنظيف البيانات مهمةً، لكنّ طريقة تنظيف البيانات غالبًا ما تكون يدوية للغاية. في مجال رؤية الحاسوب، قد يُشاهد شخص ما الصور عبر دفتر Jupyter ربما يكتشف المشكلة، ويصلحها. لكنني متحمسٌ لأدوات تسمح لك بامتلاك مجموعة بيانات كبيرة، أدوات تُلفت انتباهك بسرعة وكفاءة إلى مجموعة فرعية من البيانات حيث، على سبيل المثال، تكون التسميات ضوضائية. أو لجذب انتباهك بسرعة إلى فئة واحدة من بين 100 فئة من الفئات حيث من الممكن أن تستفيد من جمع بيانات إضافية. غالبًا ما يساعد جمع بيانات إضافية، ولكن إذا حاولت جمع بيانات إضافية لكل شيء، فقد يكون ذلك نشاطًا مكلفًا للغاية.
على سبيل المثال، اكتشفت ذات مرة أن نظام التعرف على الكلام كان يعمل بشكل سيئ عندما كان يوجد ضجيج من السيارات في الخلفية. علمتني هذه المعرفة جمع المزيد من البيانات مع ضجيج السيارات في الخلفية، بدلاً من محاولة جمع المزيد من البيانات لكل شيء، وهو ما كان سيُكلّف أكثر ويستغرق وقتًا أطول.
ما رأيك باستخدام البيانات الاصطناعية، هل هي حل جيد غالبًا؟
نج: أعتقد أن البيانات الاصطناعية أداة مهمة في مجموعة أدوات الذكاء الاصطناعي المُركز على البيانات. في ورشة عمل NeurIPS، أعطت أنيما أناندكومار محاضرة رائعة تناولت البيانات الاصطناعية. أعتقد أن هناك استخدامات مهمة للبيانات الاصطناعية تتجاوز كونها مجرد خطوة ما قبل المعالجة لزيادة مجموعة البيانات لتحسين خوارزمية التعلم. أتمنى رؤية المزيد من الأدوات التي تمكّن المطورين من استخدام توليد البيانات الاصطناعية كجزء من حلقة مغلقة من تطوير التعلم الآلي التكراري.
هل تقصد أن البيانات الاصطناعية ستتيح لك تجربة النموذج على مجموعات بيانات أكثر؟
ينج: ليس بالضبط. إليك مثال. لنفترض أنك تحاول الكشف عن عيوب في غلاف هاتف ذكي. هناك أنواع عديدة من العيوب في الهواتف الذكية. قد يكون خدشًا أو خَدْشًا أو علامات حفر أو تغيير لون المادة، أو أنواع أخرى من العيوب. إذا دربت النموذج، ثم وجدت من خلال تحليل الأخطاء أنه يعمل بشكل جيد بشكل عام، لكنه لا يُقدم أداءً جيدًا على علامات الحفر، فإن توليد البيانات الاصطناعية يسمح لك بمعالجة المشكلة بطريقة أكثر استهدافًا. يمكنك توليد بيانات إضافية لفئة علامات الحفر فقط.
“في الإنترنت الخاص بالبرامج الاستهلاكية، يمكننا تدريب عدد قليل من نماذج التعلم الآلي لخدمة مليار مستخدم. في مجال التصنيع، قد يكون لديك 10,000 مصنع يصنعون 10,000 نموذج ذكاء اصطناعي مخصص.”
—أندرو نغ
إن توليد البيانات الاصطناعية أداة قوية للغاية، لكن هناك أدوات أبسط كثيراً سأحاولها في الغالب أولاً. مثل تعزيز البيانات، وتحسين اتساق التسمية، أو ببساطة طلب جمع المزيد من البيانات من المصنع.
لتوضيح هذه القضايا بشكلٍ أكثر وضوحاً، هل يمكنك أن تُوضّح لي مثالاً؟ عندما تقترب شركة من Landing AI وتقول إنها تواجه مشكلة في الفحص البصري، كيف تُنضمّهم وتعمل نحو النشر؟
نج: عندما يتواصل معنا عميل، عادةً ما نتحدث معه عن مشكلة الفحص وننظر في بعض الصور للتحقق من إمكانية حلّ المشكلة باستخدام الرؤية الحاسوبية. بافتراض إمكانية ذلك، نطلب منهم تحميل البيانات على منصة LandingLens. ونقدم لهم عادةً المشورة حول منهجية الذكاء الاصطناعي المُركز على البيانات، ونساعدهم في تسمية البيانات.
من أهمّ تركيزات Landing AI تمكين شركات التصنيع من القيام بعملية التعلم الآلي بأنفسهم. نحن نُعنى بشكل كبير بتأمين سرعة وبساطة استخدام البرنامج. من خلال عملية التطوير التكراري للتعلم الآلي، نُرشد العملاء على كيفية تدريب النماذج على المنصة، ومتى وكيف يُحسّن تصنيف البيانات حتى تُحسّن أداء النموذج. يدعم تدريبنا وبرنامجنا العملاء طوال الطريق حتى نشر النموذج المُدرّب على جهاز طرفي في المصنع.
كيف تُعالَج التغيّرات في الاحتياجات؟ إذا تغيّرت المنتجات أو ظروف الإضاءة في المصنع، هل يستطيع النموذج مواكبة ذلك؟
نغ: يختلف ذلك باختلاف الشركة المصنعة. هناك انحراف في البيانات في العديد من السياقات. ولكن هناك بعض الشركات المصنعة التي تدير نفس خط الإنتاج منذ عشرين عامًا مع قليل من التغييرات، لذا فهم لا يتوقعون حدوث تغييرات في السنوات الخمس المقبلة. تُسهّل هذه البيئات المُستقرة الأمور. أما بالنسبة للشركات المصنعة الأخرى، فنحن نوفر أدواتًا لعلامة البيانات عند وجود مشكلة كبيرة في انحراف البيانات. أجد من المهم حقًا تمكين عملاء التصنيع من تصحيح البيانات، وإعادة التدريب، وتحديث النموذج. لأن إذا حدث تغيير ما وفي الساعة الثالثة صباحًا بتوقيت الولايات المتحدة، أريد أن يتمكنوا من تكييف خوارزمية التعلم الخاصة بهم على الفور للحفاظ على العمليات.
في الإنترنت الخاص ببرامج المستهلكين، يمكننا تدريب عدد قليل من نماذج التعلم الآلي لخدمة مليار مستخدم. في مجال التصنيع، قد يكون لديك 10,000 مصنع يقومون ببناء 10,000 نموذج للتعلم الآلي مخصص. التحدي هو، كيف تفعل ذلك دون أن تضطر Landing AI إلى توظيف 10,000 متخصص في التعلم الآلي؟
إذًا أنت تقول أنه لكي تتحقق القابلية للتوسّع، يجب تمكين العملاء من القيام بالكثير من التدريب وغيره من الأعمال.
نغ: نعم، بالضبط! هذه مشكلة تصيب صناعة الذكاء الاصطناعي بأكملها، وليس فقط في مجال التصنيع. انظر إلى الرعاية الصحية. كل مستشفى لديه تنسيق مختلف قليلاً لسجلات الرعاية الصحية الإلكترونية. كيف يمكن لكل مستشفى تدريب نموذج ذكاء اصطناعي مخصص خاص به؟ من غير الواقعي توقع من موظفي تكنولوجيا المعلومات في كل مستشفى اختراع بنى شبكات عصبية جديدة. الطريقة الوحيدة للخروج من هذا المأزق هي بناء أدوات تمكّن العملاء من بناء نماذجهم الخاصة من خلال منحهم أدوات لمعالجة البيانات والتعبير عن معارفهم في المجال. هذا ما تقوم به “لاندينج آي” في مجال الرؤية الحاسوبية، ويحتاج مجال الذكاء الاصطناعي إلى فرق أخرى للقيام بذلك في مجالات أخرى.
هل يوجد أي شيء آخر تعتقد أنه من المهم أن يفهمه الناس حول العمل الذي تقومون به أو حركة الذكاء الاصطناعي المُركز على البيانات؟
نج: في العقد الماضي، كان التحول الأكبر في الذكاء الاصطناعي هو التحول نحو التعلم العميق. أعتقد أنه من الممكن تمامًا أن يكون التحول الأكبر في هذا العقد هو التحول نحو الذكاء الاصطناعي المُركّز على البيانات. مع نضج بنيات الشبكات العصبونية اليوم، أعتقد أنه بالنسبة للعديد من التطبيقات العملية، ستكون العُقبة هي ما إذا كنا قادرين على الحصول على البيانات التي نحتاجها بكفاءة لتطوير أنظمة تعمل بشكل جيد. تتمتع حركة الذكاء الاصطناعي المُركّز على البيانات بحماسٍ ودافعية هائلة عبر المجتمع بأكمله. آمل أن ينضم المزيد من الباحثين والمطورين للعمل عليها.
يُظهر هذا المقال في عدد أبريل 2022 المطبوع باسم “أندرو نج، المُنَظِّر المُختصّ بالذكاء الاصطناعي”.
مقالات من موقعك
مقالات ذات صلة من مواقع الويب الأخرى
المصدر: المصدر