طريقة أقل إهدارًا لتدريب نماذج اللغة الكبيرة، مثل سلسلة GPT، تنتهي في نفس الوقت مع استهلاك طاقة أقل بنسبة تصل إلى 30%، وفقًا لدراسة جديدة.
يمكن أن يوفر هذا النهج ما يكفي من الطاقة لتزويد 1.1 مليون منزل أمريكي بالطاقة في عام 2026، استنادًا إلى توقعات ويلز فارجو لطلب الطاقة من الذكاء الاصطناعي. يمكن أن يقلل أيضًا من توقعات صندوق النقد الدولي بأن مراكز البيانات قد تمثل 1.2% من انبعاثات الكربون العالمية [[LINK0]] بحلول عام 2027—والاحتياجات المائية التي تأتي مع استخدام هذه الطاقة.
يقول بعض الخبراء إن هذه التكاليف يمكن أن تتجاوزها الفوائد البيئية. ويجادلون بأن الذكاء الاصطناعي يمكن أن يكون “مغيرًا للعبة” في [[LINK1]] محاربة تغير المناخ [[LINK1]] من خلال تحديد طرق لتحسين سلاسل الإمداد والشبكة، وإدارة احتياجاتنا من الطاقة، وتحسين البحث حول تغير المناخ.
ومع ذلك، لا يبرر ذلك إهدار الطاقة، وبعض الطاقة المستخدمة في تدريب الذكاء الاصطناعي ليس لها أي تأثير على وقت التدريب ودقة النموذج.
“لماذا ننفق شيئًا عندما لا يوجد سبب لذلك؟” يقول مشرف شودري، أستاذ مساعد في علوم الحاسوب والهندسة في جامعة ميتشيغان ومؤلف الدراسةالمقدمة في الندوة الثلاثين لمبادئ أنظمة التشغيل.
“لا يمكننا الاستمرار في بناء مراكز بيانات أكبر وأكبر لأننا لن نملك الطاقة لتشغيلها. إذا استطعنا تقليل الطاقة المستهلكة من قبل الذكاء الاصطناعي، يمكننا تقليل بصمة الكربون ومتطلبات التبريد للذكاء الاصطناعي والسماح بمزيد من العمليات الحسابية لتناسب قيود الطاقة الحالية لدينا.”
يتم إنشاء هدر الطاقة عندما يتم تقسيم تدريب الذكاء الاصطناعي بشكل غير متساوٍ بين وحدات معالجة الرسومات، وهي معالجات حاسوبية متخصصة في البيانات الكبيرة وتطبيقات الرسوميات. على الرغم من أنها تفتح الباب للهدر، إلا أن تقسيم العمل ضروري لمعالجة مجموعات البيانات الضخمة.
<
“نماذج الذكاء الاصطناعي اليوم كبيرة جداً، لدرجة أنها لا يمكن أن تتناسب داخل معالج كمبيوتر واحد،” يقول جاي-وان تشونغ، طالب دكتوراه في علوم الحاسوب والهندسة وأول مؤلف للدراسة.
“يجب تقسيمها إلى عشرات الآلاف من المعالجات لتدريبها، ولكن تقسيم النماذج إلى أحجام متساوية تماماً عبر جميع المعالجات هو أمر شبه مستحيل.”
تكون وظائف التدريب صعبة للغاية للتقسيم بشكل متساوٍ لأن بعض المهام تحتاج إلى أن تُجمع معًا على نفس المعالج—مثل كيفية تجميع كل جزء من سلسلة كتب معاً على رف منظم. اعتمادًا على كيفية تجميع المهام، قد يعلق بعض المعالجات مع ما يعادل تدريب الذكاء الاصطناعي من موسوعة بريتانيكا بينما يتم تعيين أخرى إلى ثلاثية خيالية.
<
نظرًا لأن طرق التدريب الحالية تجعل كل معالج يعمل بأقصى سرعة، فإن المعالجات التي تحمل حملاً أخف ستنتهي من حساباتها قبل المعالجات الأخرى. هذا لا يسرع من عملية التدريب، التي لا تكتمل حتى ينتهي كل معالج من وظيفته—ولكنها مضيعة للطاقة لأن الحسابات الأسرع تتطلب طاقة أكبر. بالإضافة إلى ذلك، فإن المشاكل مثل الأجهزة المعيبة أو تأخيرات الشبكة تخلق هدرًا للطاقة من خلال إبطاء سرعة حسابات معالج واحد.
للحفاظ على الطاقة، طور الباحثون أداة برمجية، تسمى بيرسيوس، تحدد مسارًا حرجًا، أو سلسلة من المهام الفرعية التي ستستغرق أطول فترة لإكمالها. ثم، تقوم بيرسيوس بإبطاء المعالجات التي ليست على المسار الحرج بحيث تنتهي جميعها من وظائفها في نفس الوقت تقريبًا—مما يلغي الاستخدام غير الضروري للطاقة.
<
“يمكن أن يكون لتقليل تكلفة الطاقة للذكاء الاصطناعي آثار هامة على الوصول العادل للذكاء الاصطناعي”، يقول تشودري. “إذا لم يكن لدى بلد ما ما يكفي من الطاقة لتشغيل نموذج كبير، فقد يحتاج إلى استخدام خدمات من بعيد، أو قد يضطر إلى تشغيل نماذج أصغر وأقل دقة. قد يؤدي هذا الفجوة إلى تفاقم الفجوة بين المجتمعات المختلفة.”
اختبر الفريق بيرسيوس من خلال تدريب GPT-3، وثلاثة نماذج لغوية كبيرة أخرى ونموذج واحد للرؤية الحاسوبية.
بيرسيوس هو أداة مفتوحة المصدر متاحة كجزء من Zeus، وهي أداة لقياس وتحسين استهلاك الطاقة للذكاء الاصطناعي.
جاء تمويل البحث من مؤسسة العلوم الوطنية، ومجلس البحث الهولندي (NWO) برنامج المواهب، وVMware، ومؤسسة موزيلا، وSalesforce، ومؤسسة كوانجيونج التعليمية. دعمت كل من شameleon Cloud و CloudLab البحث من خلال توفير الموارد الحاسوبية.
المصدر: جامعة ميتشيغان