لعبة 11-20: كيف تختلف استراتيجيات البشر عن نماذج الذكاء الاصطناعي


يمتلك الاقتصاديون لعبة تكشف مدى عمق تفكير الأفراد. تعرف هذه اللعبة بلعبة طلب المال من 11 إلى 20، حيث يلعبها لاعبان يطلب كل منهما مبلغاً من المال بين 11 و20 شيكل، مع العلم أن كليهما سيحصل على المبلغ الذي طلبه.

لكن هناك twist: إذا طلب أحد اللاعبين مبلغاً أقل بشيكل واحد فقط من الآخر، يحصل ذلك اللاعب على مكافأة قدرها 20 شيكل. هذا يختبر قدرة كل لاعب على التفكير فيما قد يفعله خصمه — وهو تحدٍ كلاسيكي للتفكير الاستراتيجي.

تعتبر لعبة 11-20 مثالاً على التفكير من المستوى k في نظرية الألعاب، حيث يحاول كل لاعب توقع عملية تفكير الآخر وتعديل اختياراته وفقاً لذلك. على سبيل المثال، قد يختار لاعب يستخدم التفكير من المستوى 1 مبلغ 19 شيكل، مع افتراض أن الآخر سيختار 20. لكن المفكر من المستوى 2 قد يطلب 18، متوقعاً أن خصمه سيختار 19. هذا النوع من التفكير يتكون من طبقات، مما يخلق رقصة معقدة من الاستراتيجية والتخمين الثاني.

هل يمكن استبدال البشر؟

في السنوات الأخيرة، اقترح العديد من الباحثين أن نماذج اللغة الكبيرة (LLMs) مثل ChatGPT وClaude يمكن أن تتصرف مثل البشر في مجموعة واسعة من المهام. وقد أثار ذلك احتمال أن LLMs يمكن أن تحل محل البشر في مهام مثل اختبار آراء المنتجات الجديدة والإعلانات قبل طرحها في السوق البشرية، وهو نهج سيكون أقل تكلفة بكثير من الطرق الحالية.

لكن ذلك يثير السؤال المهم حول ما إذا كانت سلوكيات LLM تشبه حقاً سلوكيات البشر. والآن نحصل على إجابة بفضل عمل يوان قاو وزملائه في جامعة بوسطن، الذين استخدموا مجموعة واسعة من نماذج LLM المتقدمة للعب لعبة 11-20. وقد وجدوا أن أيًا من هذه الأنظمة لم تنتج نتائج مماثلة للاعبين البشر ويقولون إن الحذر الشديد مطلوب عند استخدام LLMs كبدائل للبشر.

كان نهج الفريق بسيطًا. شرحوا قواعد اللعبة لـ LLMs، بما في ذلك عدة نماذج من ChatGPT وClaude وLlama. طلبوا من كل واحد اختيار رقم ثم شرح reasoning الخاص به. وكرروا التجربة ألف مرة لكل نموذج LLM.

لكن قاو وزملاءه لم يكونوا معجبين بالنتائج. عادةً ما يستخدم اللاعبون البشر استراتيجيات متطورة تعكس مستويات تفكير أعمق. على سبيل المثال، قد تكون اختيارات البشر الشائعة هي 17، مما يعكس افتراض أن خصمهم سيختار قيمة أعلى مثل 18 أو 19. لكن LLMs أظهرت نمطًا مختلفًا تمامًا: الكثيرون اختاروا ببساطة 20 أو 19، مما يعكس تفكيرًا من المستوى 0 أو المستوى 1.

كما حاول الباحثون تحسين أداء LLMs بتقنيات مثل كتابة طلبات أكثر ملاءمة وضبط النماذج. أظهر GPT-4 استجابات أكثر شبهًا بالبشر نتيجة لذلك، لكن البقية جميعها فشلت في ذلك.

كان سلوك LLMs أيضًا غير متسق للغاية اعتمادًا على عوامل غير ذات صلة، مثل اللغة التي تم تقديم الطلب بها.

يقول قاو وزملاؤه إن السبب وراء فشل LLMs في إعادة إنتاج سلوك البشر هو أنها لا تفكر مثل البشر. سلوك البشر معقد، مدفوع بالعواطف والتحيزات وتفسيرات متنوعة للحوافز، مثل الرغبة في هزيمة الخصم. بينما تقدم LLMs إجاباتها باستخدام أنماط في اللغة للتنبؤ بالكلمة التالية في الجملة، وهو عملية تختلف جذريًا عن تفكير البشر.

نتيجة مقلقة

من المحتمل أن تكون هذه نتيجة مقلقة لعلماء الاجتماع، الذين قد تكون فكرة أن LLMs يمكن أن تحل محل البشر في بعض أنواع التجارب مغرية.

لكن قاو وزملاؤه يقولون: “توقع الحصول على رؤى حول أنماط السلوك البشري من خلال التجارب على LLMs يشبه نفس الشيء كأن يقوم عالم نفسي بمقابلة ببغاء لفهم الحالة العقلية لمالكه البشري.” قد يستخدم الببغاء كلمات وعبارات مشابهة لمالكه ولكن بدون أي بصيرة.

“هذه LLMs تشبه البشر في المظهر ولكنها مختلفة جوهريًا وغير متوقعة في السلوك،” يقولون.

علماء الاجتماع: لقد تم تحذيركم!


مرجع: احذر عند استخدام LLMs كبدائل للبشر