تيان يوان دونغ: ملخص نهاية عام 2025 (الجزء الأول)
تقرير يوان الذكاء الجديد
تقرير يوان الذكاء الجديد
【مقدمة يوان الذكاء الجديد】من إطفاء حرائق Llama 4 إلى الفصل، ثم إلى بدء عمله الخاص بنفسه، يستعرض خبير الذكاء الاصطناعي تيان يوان دونغ بعض اللحظات الهامة في عام 2025.
كنت مشغولاً جداً مؤخراً، فلم أتمكن من كتابة ملخص نهاية العام إلا بعد الأول من يناير، وعلى أي حال، البدء في الكتابة هو أمر جيد.
عندما طُلب مني الانضمام إلىLlama4 للمساعدة في نهاية يناير 2025، وبما أنني كنت دائماً أعمل في مجال التعلم المعزز، رسمت مسبقاً مصفوفة عوائد 2x2 (reward matrix)، وحسبت الاحتمالات الأربع التالية (بالرغم من أن الضغط الشديد من الأعلى جعل الرفض شبه مستحيل في ذلك الوقت):
كنت أظن حينها أنه حتى لو لم ينجح المشروع في النهاية، فإننا بذلنا جهدنا ولن نشعر بالندم. لكن للأسف، حدث الاحتمال الخامس الذي لم يكن في الحسبان، ما جعلني أدرك تعقيد هذا المجتمع بشكل أعمق.
مع ذلك، خلال الأشهر القليلة الماضية من الجهد، استكشفنا بعض القضايا الجوهرية في تدريب التعلم المعزز مثل استقرار التدريب، التفاعل بين التدريب والتنفيذ، تصميم بنية النموذج، التفاعل بين التدريب المسبق والتدريب المتوسط، خوارزميات سلاسل التفكير الطويلة، طرق توليد البيانات، وتصميم إطار التدريب اللاحق، وغيرها.
هذه التجربة كانت مهمة جداً بحد ذاتها، وأثرت كثيراً في مسار تفكيري البحثي.
في الواقع، كنت أفكر أيضاً أنني بعد أكثر من عشر سنوات في الشركة، يجب أن أرحل يوماً ما، فلا يمكن أن أموت فيها، لكن لأسباب اقتصادية وعائلية كنت أستمر بالبقاء.
في السنة أو السنتين الأخيرتين، كان أسلوبي في الكلام والتصرف وكأنني أقول "أتمنى أن تطردني الشركة"، مما جعلني أكثر تحرراً.
في نهاية عام 2023، عندما أخذت أول إجازة طويلة، كنت على وشك الرحيل تقريباً، لكنني في النهاية لم أوقع وقررت البقاء في الشركة، لذا لم يكن اتخاذ قرار الرحيل سهلاً أبداً. الآنMeta ساعدتني في ذلك وكان ذلك جيداً.
هذه التقلبات وكل ما حدث هذا العام زودني بالكثير من المواد الجديدة لروايتي القادمة.
كما يقال: "من لم ينجح في المسار الرسمي نجح في الشعر، فالجُمل التي تُكتب بعد المعاناة تكون أكثر جودة"، إذا كانت الحياة مملة جداً، فقد تفقد متعتها. ما زلت أذكر في بداية عام 2021، عندما كتبت بعض التأملات في ملخص العمل السنوي عن "لماذا لم تُقبل أبحاثي؟"، فوجئت بحصولي على Meet Most، وكان لدي شعور مفاجئ بالفشل.
لكن بعد التفكير، بدلاً من الشكوى من عدم عدالة العالم، قررت أن أتصرف كما لو أنني قد تمت ترقيتي للتو أمام الجميع، وفعلاً رُقيت بعد نصف عام، وأصبح بحثي الذي لم يهتم به أحد في بداية 2021العمل، في يوليو 2021 حصل علىICML Best paper honorable mention، وأصبح أحد الأبحاث المعروفة في مجال التعلم التمثيلي.
بعد 22 أكتوبر، كانت كل وسائل التواصل لدي مزدحمة للغاية، مع عدد لا يحصى من الرسائل والبريد الإلكتروني، بالإضافة لدعوات الاجتماعات عن بعد أو اللقاءات، ولم أتمكن من مواكبة كل ذلك.
لم أعد إلى الوضع الطبيعي إلا بعد بضعة أسابيع. أشكر الجميع على اهتمامهم وحماستهم خلال الشهرين الماضيين. إذا كان هناك أي رسائل لم أجب عليها في الوقت المناسب حينها، أرجو المعذرة.
على الرغم من وجود العديد من العروض في النهاية، وتواصل جميع الشركات المعروفة معي، قررت أخيراً أن أغتنم شبابي وأكون شريكاً مؤسساً في شركة ناشئة جديدة، ولن أفصح عن التفاصيل حالياً وسأنشغل بهدوء لبعض الوقت.
الاتجاه الرئيسي لعام 2025 هو استدلال النماذج الكبيرة، وفتح الصندوق الأسود للنماذج.
منذ أن نشرنا عملنا حول الاستدلال في الفضاء الكامن المتصل (coconut، COLM’25) في نهاية 2024، شهد عام 25 موجة من الأبحاث في هذا الاتجاه. الجميع يستكشفون كيفية استخدام هذه الفكرة في التعلم المعزز والتدريب المسبق، وكيفية تحسين كفاءته في التدريب والحوسبة، وغيرها.
رغم أن فريقنا انشغل بعدها في العمل على llama ولم يتمكن من مواصلة البحث بعمق، إلا أن هذا أسعدني كثيراً.
مع ذلك، نشرنا في النصف الأول من العام مقالاً تحليلياً نظرياً (Reasoning by Superposition، NeurIPS‘25)، يوضح المجالات التي يتفوق فيها الاستدلال في الفضاء الكامن المتصل، وحظي باهتمام كبير.
هناك أيضاً كيفية تحسين كفاءة استدلال النماذج الكبيرة. عملناToken Assorted (ICLR’25)، حيث تم تعلم رموز متقطعة في الفضاء الكامن عبر VQVAE، ثم تم مزج الرموز المتقطعة مع رموز النص للتدريب اللاحق، مما قلل من تكلفة الاستدلال وزاد الأداء في الوقت نفسه.
عملناDeepConf استخدم فحص درجة الثقة في كل رمز مولد لتحديد ما إذا كان يجب إنهاء مسار الاستدلال في وقت مبكر، مما قلل عدد الرموز المستخدمة في الاستدلال بشكل كبير، ولكنه أدى إلى أداء أفضل في سيناريو التصويت بالأغلبية.
ThreadWeaver يقوم بإنشاء سلاسل تفكير متوازية وتدريب لاحق عليها لتسريع الاستدلال. كما استخدمنا RL لتدريب نماذج الاستدلال على dLLM (Sandwiched Policy Gradient)، كما قمنا بمحاولة تعلم الاستدلال على نماذج صغيرة (MobileLLM-R1).
في جانب القابلية للتفسير، كنت مهتماً بموضوعGrokking (الاستنارة) منذ حوالي عامين. في تحليلي السابق للتعلم التمثيلي، رغم أنني تمكنت من تحليل ديناميكيات عملية التعلم وفهم أسباب انهيار التمثيلات في النماذج، إلا أن ما تم تعلمه من تمثيلات، وعلاقتها ببنية بيانات الإدخال، ومستوى التعميم الذي يمكن تحقيقه، كانت لا تزال غامضة، ومن خلال تحليل ظاهرة بروز خاصية Grokking، والتحول من الذاكرة إلى التعميم، تمكنت من كشف هذا اللغز.
كان من الصعب في البداية، في عام 2024 أنجزت أول بحثCOGS (NeurIPS‘25، راجعطالب الحقيقة، لا يسأل عن الشتاء أو الصيف (10))، لكنه كان مقتصراً على حالات خاصة ولم أكن راضياً عنه كثيراً.
بعد أكثر من عام من الضياع، وبعد تفاعلات مكثفة مع GPT5، أحرزت الورقة الأخيرة حولProvable Scaling Laws تقدماً كبيراً، حيث تمكنت من تحليل أشياء لم تكن مرئية في البنية الخطية (NTK) السابقة، وشرحت ديناميكيات تدريب بروز الخصائص بشكل أوضح. رغم أن الأمثلة التي تم تحليلها لا تزال خاصة، إلا أن نافذة جديدة قد فُتحت. للمزيد من الشرح راجعأفكار تيان يوان دونغ.
أحببت كثيراً الورقة الأخيرة في نهاية العامThe path not taken، والتي قدمت إجابة أولية على مستوى الأوزان حول سبب عدم اتساق سلوك RL وSFT.
يتسبب SFT في زيادة التخصيص والنسيان الكارثي (catastrophic forgetting)، والسبب السطحي هو أن بيانات التدريب ليست on-policy كفاية، والسبب العميق هو أن المكون الرئيسي للأوزان يتم تعديله بشكل كبير بواسطة بيانات خارجية، مما يؤدي إلى عدم استقرار "الجذور" وانخفاض أداء النموذج بشكل كبير.
أما RL، فبسبب تدريبه على بيانات on-policy، لا يتغير المكون الرئيسي للأوزان، بل تتغير المكونات الثانوية فقط، ما يساعد على تجنب مشكلة النسيان الكارثي، كما أن توزيع الأوزان المعدلة يكون أكثر تشتتاً (خاصة مع التكميم على bf16).
يعتقد الكثيرون أن القابلية للتفسير، أو "كيف يعمل الذكاء الاصطناعي بهذا الشكل الفعال" ليست قضية مهمة، لكني أراها مهمة جداً. تخيل السيناريوهين التاليين:
السيناريو الأول: إذا استطعنا تحقيق AGI أو حتى ASI فقط من خلال التوسعة (Scaling)، وأصبح قيمة عمل جميع البشر صفراً، وأصبح الذكاء الاصطناعي صندوقاً أسود عملاقاً يحل جميع مشاكلنا، فإن السؤال العاجل هو: كيف نضمن أن يعمل الذكاء الاصطناعي كعقل خارق للخير فقط، لا يخدع ولا يرتكب الشر بطرق خفية؟ لحل هذه المشكلة نحتاج إلى القابلية للتفسير.
السيناريو الثاني: إذا فشلت في نهاية المطاف طريق التوسعة، وانهارت البشرية أمام الطلب المتزايد بشكل متسارع على الموارد، واضطررنا للبحث عن حلول أخرى، فعلينا التفكير في "لماذا تعمل النماذج؟ وما الذي يمكن أن يجعلها تفشل؟"، وفي سلسلة التفكير هذه، سنعود بالضرورة للبحث، والقابلية للتفسير ستكون الطريق المرئي الآخر.
في كلتا الحالتين، سنحتاج في النهاية إلى القابلية للتفسير للإنقاذ. حتى لو كان الذكاء الاصطناعي في النهاية إلهاً كلي العلم وكلي الخير، فإن طبيعة الفضول والاستكشاف لدى البشر ستدفعهم لدراسة سبب نجاح الذكاء الاصطناعي.
في النهاية، يعني "الصندوق الأسود" ولادة سلسلة من الشكوك، ومع انفجار تقنيات النماذج الكبيرة وبلوغها أو حتى تجاوزها لمتوسط المستوى البشري اليوم، قد تظهر قاعدة "غابة الظلام" من ثلاثية الأجسام الثلاثة بطريقة أخرى.
حالياً، لا يزال فتح الصندوق الأسود للنماذج المدربة جيداً، والعثور على الدوائر (circuit)، في مرحلة بدائية نسبياً.
الصعوبة الحقيقية في القابلية للتفسير تكمن في الانطلاق من المبادئ الأولى، أي من بنية النموذج، وانحدار التدرجات، وبنية البيانات نفسها، لشرح سبب استنتاج النموذج لهذه الخصائص المنفصلة والمتفرقة والمنخفضة الرتبة والوحداتية والقابلة للتركيب، ولماذا هناك العديد من التفسيرات المختلفة، وما علاقة هذه البنى الناشئة بمعاملات التدريب الفائقة للنموذج وكيفية ارتباطها، وغير ذلك.
عندما نتمكن من اشتقاق حتمية بروز خصائص النماذج الكبيرة مباشرة من معادلات انحدار التدرجات، عندها فقط تصبح القابلية للتفسير انتقالاً حقيقياً من جمع الأدلة البيولوجية إلى الاستنتاج الفيزيائي للمبادئ، وفي النهاية توجه التطبيق العملي، وتفتح الطريق لتصميم الجيل القادم من نماذج الذكاء الاصطناعي.
مقارنة بعلم الفيزياء قبل أربعمائة عام، لدينا الآن الكثير من "تيخو براهي" في الذكاء الاصطناعي (جمع البيانات)، وبعض "كيبلر" في الذكاء الاصطناعي (طرح الفرضيات)، لكن لا يوجد لدينا "نيوتن" في الذكاء الاصطناعي (اكتشاف المبادئ) بعد.
عندما يأتي ذلك اليوم، أؤمن أن العالم سيتغير جذرياً.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
مؤسسة المؤشرات العالمية MSCI تؤجل قرارها بشأن إزالة الشركات المرتكزة على العملات المشفرة
هوانغ رن شيون يرد على مشكلة الطاقة: الكفاءة هي الأساس
مناقشة سوق السندات في بدا ية العام

