Breaking News

يكاد يكون من المؤكد أن نماذج الاستدلال الكبيرة يمكنها التفكير



في الآونة الأخيرة، كان هناك الكثير من الجدل حول فكرة أن نماذج الاستدلال الكبيرة (LRM) غير قادرة على التفكير. ويرجع ذلك في الغالب إلى مقال بحثي نشرته شركة Apple، "وهم التفكير" تجادل شركة Apple بأن LRMs لا ينبغي أن تكون قادرة على التفكير؛ وبدلاً من ذلك، يقومون فقط بمطابقة الأنماط. الأدلة التي قدموها هي أن LRMs مع سلسلة الفكر (CoT) المنطق غير قادر على الاستمرار في الحساب باستخدام خوارزمية محددة مسبقًا مع تزايد المشكلة.

هذه حجة معيبة في الأساس. إذا طلبت من إنسان يعرف بالفعل خوارزمية حل مشكلة برج هانوي أن يحل مشكلة برج هانوي باستخدام عشرين قرصًا، على سبيل المثال، فمن المؤكد تقريبًا أنه سيفشل في القيام بذلك. وبهذا المنطق، يجب أن نستنتج أن البشر لا يستطيعون التفكير أيضًا. ومع ذلك، تشير هذه الحجة فقط إلى فكرة أنه لا يوجد دليل على أن LRMs لا يستطيعون التفكير. وهذا وحده لا يعني بالتأكيد أن LRMs قادرون على التفكير، ولكن لا يعني أننا لا نستطيع التأكد من أنهم لا يفعلون ذلك.

في هذه المقالة، سأقدم ادعاء أكثر جرأة: من المؤكد تقريبًا أن LRMs يمكنهم التفكير. أقول “تقريبًا” لأن هناك دائمًا احتمال أن يفاجئنا المزيد من البحث. لكنني أعتقد أن حجتي قاطعة جدًا.

ما هو التفكير؟

قبل أن نحاول فهم ما إذا كان بإمكان LRMs التفكير، نحتاج إلى تحديد ما نعنيه بالتفكير. لكن علينا أولًا أن نتأكد من قدرة البشر على التفكير وفقًا للتعريف. وسوف ننظر فقط في التفكير فيما يتعلق بحل المشكلات، وهو موضوع الخلاف.

1. تمثيل المشكلة (الفص الجبهي والجداري)

عندما تفكر في مشكلة ما، فإن العملية تشغل قشرة الفص الجبهي لديك. هذه المنطقة مسؤولة عن الذاكرة العاملة والانتباه والوظائف التنفيذية، وهي القدرات التي تتيح لك وضع المشكلة في ذهنك وتقسيمها إلى مكونات فرعية وتحديد الأهداف. تساعد القشرة الجدارية لديك على تشفير البنية الرمزية لمسائل الرياضيات أو الألغاز.

2. المحاكاة العقلية (ذاكرة الذاكرة والكلام الداخلي)

يتكون هذا من مكونين: الأول عبارة عن حلقة سمعية تتيح لك التحدث إلى نفسك – تشبه إلى حد كبير جيل CoT. والآخر هو الصور المرئية، والتي تسمح لك بمعالجة الأشياء بصريًا. كانت الهندسة مهمة جدًا للتنقل حول العالم لدرجة أننا طورنا قدرات متخصصة لها. ويرتبط الجزء السمعي بمنطقة بروكا والقشرة السمعية، وكلاهما يعاد استخدامهما من مراكز اللغة. تتحكم القشرة البصرية والمناطق الجدارية في المقام الأول في المكون البصري.

3. مطابقة الأنماط واسترجاعها (الحصين والفص الصدغي)

تعتمد هذه الإجراءات على التجارب السابقة والمعرفة المخزنة من الذاكرة طويلة المدى:

  • يساعد الحُصين على استرجاع الذكريات والحقائق ذات الصلة.

  • يجلب الفص الصدغي المعرفة الدلالية – المعاني والقواعد والفئات.

وهذا مشابه لكيفية اعتماد الشبكات العصبية على تدريبها لمعالجة المهمة.

4. المراقبة والتقييم (القشرة الحزامية الأمامية)

تراقب القشرة الحزامية الأمامية (ACC) لدينا الأخطاء أو الصراعات أو الطرق المسدودة – حيث تلاحظ التناقضات أو الطرق المسدودة. تعتمد هذه العملية بشكل أساسي على مطابقة الأنماط من الخبرة السابقة.

5. البصيرة أو إعادة الصياغة (شبكة الوضع الافتراضي والنصف الأيمن من الكرة الأرضية)

عندما تكون عالقًا، قد يتحول عقلك إلى الوضع الافتراضي – شبكة أكثر استرخاءً وموجهة داخليًا. يحدث هذا عندما تتراجع وتترك الخيط الحالي وأحيانًا ترى “فجأة” زاوية جديدة (لحظة “آها!” الكلاسيكية).

وهذا مشابه لكيفية ديب سيك-R1 تم تدريبه على تفكير CoT دون وجود أمثلة لـ CoT في بيانات التدريب الخاصة به. تذكر أن الدماغ يتعلم باستمرار أثناء معالجة البيانات وحل المشكلات.

في المقابل، LRMs لا يُسمح بالتغيير بناءً على تعليقات العالم الحقيقي أثناء التنبؤ أو الإنشاء. ولكن مع التدريب على CoT الخاص بـ DeepSeek-R1 والتعلم فعل يحدث أثناء محاولته حل المشكلات – التحديث بشكل أساسي أثناء التفكير.

أوجه التشابه بين تفكير CoT والتفكير البيولوجي

لا تحتوي LRM على جميع الكليات المذكورة أعلاه. على سبيل المثال، من غير المرجح أن يقوم LRM بالكثير من التفكير البصري في دائرته، على الرغم من أنه قد يحدث القليل. لكنها بالتأكيد لا تولد صورًا متوسطة في جيل CoT.

يستطيع معظم البشر عمل نماذج مكانية في رؤوسهم لحل المشكلات. هل هذا يعني أنه يمكننا أن نستنتج أن LRMs لا تستطيع التفكير؟ لا أوافق على ذلك. كما يجد بعض البشر صعوبة في تكوين نماذج مكانية للمفاهيم التي يفكرون فيها. هذا الشرط يسمى خيالي. يمكن للأشخاص الذين يعانون من هذه الحالة أن يفكروا بشكل جيد. في الواقع، فإنهم يعيشون حياتهم كما لو أنهم لا يفتقرون إلى أي قدرة على الإطلاق. العديد منهم في الواقع رائعون في التفكير الرمزي وجيد جدًا في الرياضيات – وغالبًا ما يكون ذلك كافيًا للتعويض عن افتقارهم إلى التفكير البصري. قد نتوقع أيضًا أن تكون نماذج شبكتنا العصبية قادرة على التحايل على هذا القيد.

إذا ألقينا نظرة أكثر تجريدًا على عملية التفكير البشري الموصوفة سابقًا، فيمكننا أن نرى بشكل أساسي الأشياء التالية المعنية:

1. تُستخدم مطابقة الأنماط لاستدعاء الخبرات المكتسبة وتمثيل المشكلات ومراقبة سلاسل التفكير وتقييمها.

2. الذاكرة العاملة هي تخزين جميع الخطوات الوسيطة.

3. يخلص البحث التراجعي إلى أن CoT لن يذهب إلى أي مكان ويتراجع إلى نقطة معقولة.

مطابقة الأنماط في LRM يأتي من تدريبه. الهدف الأساسي من التدريب هو تعلم معرفة العالم وأنماط معالجة تلك المعرفة بشكل فعال. نظرًا لأن LRM عبارة عن شبكة ذات طبقات، فإن الذاكرة العاملة بأكملها تحتاج إلى أن تتناسب مع طبقة واحدة. تقوم الأوزان بتخزين معرفة العالم والأنماط التي يجب اتباعها، بينما تتم المعالجة بين الطبقات باستخدام الأنماط المستفادة المخزنة كمعلمات نموذجية.

لاحظ أنه حتى في CoT، يجب أن يتناسب النص بأكمله – بما في ذلك المدخلات وCoT وجزء من المخرجات التي تم إنشاؤها بالفعل – مع كل طبقة. الذاكرة العاملة هي طبقة واحدة فقط (في حالة آلية الانتباه، يتضمن ذلك ذاكرة التخزين المؤقت KV).

في الواقع، يشبه CoT إلى حد كبير ما نفعله عندما نتحدث إلى أنفسنا (وهو ما يحدث دائمًا تقريبًا). نحن دائمًا ما نعبّر عن أفكارنا لفظيًا، وكذلك يفعل مفكر لغة CoT.

هناك أيضًا أدلة جيدة على أن مُفكر لغة CoT يمكنه اتخاذ خطوات تراجعية عندما يبدو أن خطًا معينًا من التفكير غير مجدٍ. في الواقع، هذا ما رآه باحثو Apple عندما حاولوا مطالبة LRMs بحل أمثلة أكبر من الألغاز البسيطة. أدركت LRMs بشكل صحيح أن محاولة حل الألغاز بشكل مباشر لن تتناسب مع ذاكرتهم العاملة، لذلك حاولوا اكتشاف طرق مختصرة أفضل، تمامًا كما يفعل الإنسان. وهذا دليل إضافي على أن LRMs هم مفكرون، وليسوا مجرد أتباع عمياء لأنماط محددة مسبقًا.

ولكن لماذا يتعلم المتنبئ التالي التفكير؟

يمكن للشبكات العصبية ذات الحجم الكافي أن تتعلم أي عملية حسابية، بما في ذلك التفكير. ولكن يمكن لنظام التنبؤ بالكلمات التالية أن يتعلم التفكير أيضًا. اسمحوا لي أن أوضح.

الفكرة العامة هي أن LRMs لا يمكنهم التفكير لأنهم، في نهاية المطاف، يتنبأون فقط بالرمز المميز التالي؛ إنه مجرد “إكمال تلقائي مجيد”. وجهة النظر هذه غير صحيحة بشكل أساسي – ليس لأنها “إكمال تلقائي”، ولكن “الإكمال التلقائي” لا يحتاج إلى تفكير. في الواقع، التنبؤ بالكلمة التالية هو أبعد ما يكون عن تمثيل محدود للفكر. على العكس من ذلك، فهو الشكل الأكثر عمومية لتمثيل المعرفة الذي يمكن لأي شخص أن يأمل فيه. اسمحوا لي أن أشرح.

كلما أردنا تمثيل بعض المعرفة، نحتاج إلى لغة أو نظام رمزي للقيام بذلك. توجد لغات رسمية مختلفة دقيقة للغاية من حيث ما يمكنها التعبير عنه. ومع ذلك، فإن مثل هذه اللغات محدودة بشكل أساسي في أنواع المعرفة التي يمكن أن تمثلها.

على سبيل المثال، لا يمكن للمنطق المسند من الدرجة الأولى أن يمثل خصائص جميع المسندات التي تلبي خاصية معينة، لأنه لا يسمح بالمسندات فوق المسندات.

بالطبع، هناك حسابات مسند ذات ترتيب أعلى يمكنها تمثيل المسندات على المسندات إلى أعماق عشوائية. لكن حتى هؤلاء لا يستطيعون التعبير عن أفكار تفتقر إلى الدقة أو مجردة بطبيعتها.

ومع ذلك، فإن اللغة الطبيعية مكتملة في القوة التعبيرية، حيث يمكنك وصف أي مفهوم بأي مستوى من التفصيل أو التجريد. في الواقع، يمكنك حتى وصف المفاهيم عن اللغة الطبيعية باستخدام اللغة الطبيعية نفسها. وهذا يجعلها مرشحًا قويًا لتمثيل المعرفة.

يكمن التحدي بالطبع في أن هذا الثراء التعبيري يجعل من الصعب معالجة المعلومات المشفرة باللغة الطبيعية. لكننا لا نحتاج بالضرورة إلى فهم كيفية القيام بذلك يدويًا – يمكننا ببساطة برمجة الجهاز باستخدام البيانات، من خلال عملية تسمى التدريب.

تقوم آلة التنبؤ بالرمز التالي بشكل أساسي بحساب التوزيع الاحتمالي على الرمز المميز التالي، مع الأخذ في الاعتبار سياق الرموز المميزة السابقة. وأي آلة تهدف إلى حساب هذا الاحتمال بدقة يجب أن تمثل المعرفة العالمية بشكل ما.

مثال بسيط: تأمل الجملة غير المكتملة، "أعلى قمة جبلية في العالم هي جبل…" — للتنبؤ بالكلمة التالية مثل إيفرست، يجب أن يكون لدى النموذج هذه المعرفة مخزنة في مكان ما. إذا كانت المهمة تتطلب من النموذج حساب الإجابة أو حل اللغز، فإن متنبئ الرمز المميز التالي يحتاج إلى إخراج رموز CoT المميزة للمضي قدمًا بالمنطق.

وهذا يعني أنه على الرغم من أنه يتنبأ برمز واحد في كل مرة، يجب أن يمثل النموذج داخليًا على الأقل الرموز القليلة التالية في ذاكرته العاملة – وهو ما يكفي لضمان بقائه على المسار المنطقي.

إذا فكرت في الأمر، فإن البشر يتنبأون أيضًا بالرمز التالي، سواء أثناء الكلام أو عند التفكير باستخدام الصوت الداخلي. إن نظام الإكمال التلقائي المثالي الذي يُخرج دائمًا الرموز الصحيحة وينتج الإجابات الصحيحة يجب أن يكون واسع المعرفة. بالطبع، لن نصل أبدًا إلى هذه النقطة، لأنه ليست كل إجابة قابلة للحساب.

ومع ذلك، فإن النموذج ذو المعلمات الذي يمكنه تمثيل المعرفة من خلال ضبط معلماتها، والذي يمكنه التعلم من خلال البيانات والتعزيز، يمكنه بالتأكيد أن يتعلم التفكير.

هل ينتج آثار التفكير؟

في نهاية المطاف، الاختبار النهائي للفكر هو قدرة النظام على حل المشكلات التي تتطلب التفكير. إذا تمكن النظام من الإجابة على أسئلة لم يسبق لها مثيل وتتطلب مستوى معينًا من التفكير، فلابد أنه تعلم كيف يفكر – أو على الأقل يفكر – في طريقه إلى الإجابة.

نحن نعلم أن LRMs الخاصة تعمل بشكل جيد جدًا في بعض معايير الاستدلال. ومع ذلك، نظرًا لاحتمال أن تكون بعض هذه النماذج قد تم ضبطها بدقة على مجموعات اختبار مرجعية من خلال باب خلفي، فسوف نركز فقط على نماذج مفتوحة المصدر من أجل العدالة والشفافية.

نقوم بتقييمها باستخدام المعايير التالية:

كما يمكن للمرء أن يرى، في بعض المعايير، تكون LRMs قادرة على حل عدد كبير من الأسئلة القائمة على المنطق. في حين أنه من الصحيح أنهم ما زالوا متخلفين عن الأداء البشري في كثير من الحالات، فمن المهم ملاحظة أن خط الأساس البشري غالبًا ما يأتي من أفراد مدربين خصيصًا على تلك المعايير. في الواقع، في بعض الحالات، يتفوق أداء LRMs على الإنسان العادي غير المدرب.

خاتمة

استنادًا إلى النتائج المعيارية، فإن التشابه المذهل بين تفكير CoT والتفكير البيولوجي، والفهم النظري بأن أي نظام يتمتع بقدرة تمثيلية كافية، وبيانات تدريب كافية، وقدرة حسابية كافية يمكنه أداء أي مهمة قابلة للحساب – تلبي LRMs هذه المعايير إلى حد كبير.

لذلك فمن المعقول أن نستنتج أن LRMs تمتلك بشكل شبه مؤكد القدرة على التفكير.

ديباسيش راي تشودري هو مهندس رئيسي كبير في برنامج تالنتيكا ودكتوراه. مرشح في التشفير في IIT Bombay.

اقرأ المزيد من موقعنا الكتاب الضيوف. أو فكر في إرسال مشاركة خاصة بك! انظر لدينا المبادئ التوجيهية هنا.