
وسط أ ادفع نحو عملاء الذكاء الاصطناعي، مع قيام كل من Anthropic وOpenAI بشحن أدوات متعددة الوكلاء هذا الأسبوع، فإن Anthropic أكثر من مستعدة لعرض بعض تجارب ترميز الذكاء الاصطناعي الأكثر جرأة. ولكن كما جرت العادة مع ادعاءات الإنجازات المتعلقة بالذكاء الاصطناعي، ستجد بعض التحذيرات الرئيسية في المستقبل.
يوم الخميس، الباحث الأنثروبي نيكولاس كارليني نشرت مشاركة مدونة واصفًا كيف قام بوضع 16 نسخة من نموذج Claude Opus 4.6 AI الخاص بالشركة بشكل فضفاض على قاعدة تعليمات برمجية مشتركة مع الحد الأدنى من الإشراف، وتكليفهم ببناء مترجم C من الصفر.
على مدى أسبوعين وما يقرب من 2000 جلسة Claude Code بتكلفة حوالي 20000 دولار أمريكي كرسوم واجهة برمجة التطبيقات (API)، يُقال إن وكلاء نموذج الذكاء الاصطناعي أنتجوا مترجمًا قائمًا على 100000 سطر قادر على بناء نواة Linux 6.9 قابلة للتمهيد على معماريات x86 وARM وRISC-V.
استخدمت كارليني، عالمة الأبحاث في فريق Anthropic’s Safeguards والتي قضت سابقًا سبع سنوات في Google Brain وDeepMind، ميزة جديدة تم إطلاقها مع Claude Opus 4.6 تسمى “فرق الوكيل“. من الناحية العملية، تم تشغيل كل مثيل لـ Claude داخل حاوية Docker الخاصة به، مما أدى إلى استنساخ مستودع Git مشترك، والمطالبة بالمهام عن طريق كتابة ملفات القفل، ثم دفع التعليمات البرمجية المكتملة مرة أخرى إلى المنبع. لا يوجد وكيل تنسيق يوجه حركة المرور. حددت كل حالة بشكل مستقل أي مشكلة تبدو أكثر وضوحًا للعمل عليها بعد ذلك وبدأت في حلها. عندما تنشأ تعارضات الدمج، تقوم مثيلات نموذج الذكاء الاصطناعي بحلها من تلقاء نفسها.
المترجم الناتج، الذي الأنثروبي لديه صدر على جيثب، يمكنه تجميع مجموعة من المشاريع الرئيسية مفتوحة المصدر، بما في ذلك PostgreSQL وSQLite وRedis وFFmpeg وQEMU. لقد حققت نسبة نجاح بلغت 99 بالمائة في مجموعة اختبارات التعذيب في دول مجلس التعاون الخليجي، وفيما أسماه كارليني “الاختبار النهائي للمطور”، قامت بتجميع وتشغيل الموت.
تجدر الإشارة إلى أن مترجم لغة C هو مهمة شبه مثالية لترميز نماذج الذكاء الاصطناعي شبه المستقلة: فالمواصفات عمرها عقود من الزمن، كما أن مجموعات الاختبار الشاملة والمحددة جيدًا موجودة بالفعل، وهناك مترجم مرجعي معروف جيد للتحقق منه. معظم مشاريع البرمجيات في العالم الحقيقي لا تتمتع بأي من هذه المزايا. الجزء الأصعب من معظم عمليات التطوير ليس كتابة التعليمات البرمجية التي تجتاز الاختبارات؛ إنها معرفة ما يجب أن تكون عليه الاختبارات في المقام الأول.
