انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر
شامل مسح جديد يكشف باحثون من مايكروسوفت وشركاء أكاديميون أن عملاء الذكاء الاصطناعي المدعومين بنماذج اللغة الكبيرة (LLMs) أصبحوا قادرين بشكل متزايد على التحكم في واجهات المستخدم الرسومية (GUIs)، مما قد يغير كيفية تفاعل البشر مع البرامج.
تمنح هذه التقنية أنظمة الذكاء الاصطناعي القدرة على رؤية واجهات الكمبيوتر ومعالجتها تمامًا كما يفعل البشر، مثل النقر على الأزرار، وملء النماذج، والتنقل بين التطبيقات. وبدلاً من مطالبة المستخدمين بتعلم أوامر برمجية معقدة، يمكن لـ “وكلاء واجهة المستخدم الرسومية” تفسير طلبات اللغة الطبيعية وتنفيذ الإجراءات اللازمة تلقائيًا.
يقول الباحثون: “يمثل هؤلاء الوكلاء نقلة نوعية، حيث يمكّنون المستخدمين من أداء مهام معقدة ومتعددة الخطوات من خلال أوامر محادثة بسيطة”. يكتب. “تمتد تطبيقاتهم عبر التنقل عبر الويب، وتفاعلات تطبيقات الهاتف المحمول، وأتمتة سطح المكتب، مما يوفر تجربة مستخدم تحويلية تُحدث ثورة في كيفية تفاعل الأفراد مع البرامج.”
فكر في الأمر على أنه لديك مساعد تنفيذي ذو مهارات عالية يمكنه تشغيل أي برنامج نيابة عنك. ما عليك سوى إخبار المساعد بما تريد تحقيقه، وهو يتعامل مع جميع التفاصيل الفنية لتحقيق ذلك.
إن ظهور مساعدي الذكاء الاصطناعي للمؤسسات يغير كل شيء
وتتسابق شركات التكنولوجيا الكبرى بالفعل لدمج هذه القدرات في منتجاتها. مايكروسوفت أتمتة الطاقة يستخدم LLMs لمساعدة المستخدمين على إنشاء سير عمل تلقائي عبر التطبيقات. الشركة مساعد الطيار AI يمكنه التحكم مباشرة في البرامج بناءً على الأوامر النصية. الأنثروبي استخدام الكمبيوتر تتيح وظيفة Claude للذكاء الاصطناعي التفاعل مع واجهات الويب وتنفيذ المهام المعقدة. ويقال أن جوجل تتطور مشروع جارفيس، وهو نظام ذكاء اصطناعي يستخدم متصفح Chrome لتنفيذ المهام المستندة إلى الويب مثل البحث والتسوق وحجز السفر، على الرغم من أن هذه الإمكانية لا تزال قيد التطوير ولم يتم إصدارها للعامة.
تشير الورقة إلى أن “ظهور نماذج اللغات الكبيرة، وخاصة النماذج متعددة الوسائط، قد بشر بعصر جديد من أتمتة واجهة المستخدم الرسومية”. “لقد أظهروا قدرات استثنائية في فهم اللغة الطبيعية، وتوليد التعليمات البرمجية، وتعميم المهام، والمعالجة البصرية.”
وهذا يمثل الإمكانات فرصة سوقية بقيمة 68.9 مليار دولار بحلول عام 2028، وفقًا للمحللين في BCC Analysis، حيث تتطلع الشركات إلى أتمتة المهام المتكررة وجعل برامجها في متناول المستخدمين غير التقنيين. ومن المتوقع أن ينمو السوق من 8.3 مليار دولار في عام 2022 إلى هذا الرقم، بمعدل نمو سنوي مركب (CAGR) يبلغ 43.9٪ خلال الفترة المتوقعة.
تأثير المؤسسة: التحديات والفرص في أتمتة الذكاء الاصطناعي
ومع ذلك، لا تزال هناك عقبات كبيرة قبل أن يتم اعتماد هذه التكنولوجيا على نطاق واسع في المؤسسات. يحدد الباحثون العديد من القيود الرئيسية، بما في ذلك مخاوف الخصوصية عندما يتعامل الوكلاء مع البيانات الحساسة، وقيود الأداء الحسابي، والحاجة إلى ضمانات أفضل للسلامة والموثوقية.
“على الرغم من أنها فعالة لسير العمل المحدد مسبقًا، إلا أن هذه الأساليب تفتقر إلى المرونة والقدرة على التكيف المطلوبة للتطبيقات الديناميكية في العالم الحقيقي”، كما تنص الورقة فيما يتعلق بأساليب الأتمتة السابقة.
ويقدم فريق البحث خارطة طريق مفصلة لمعالجة هذه التحديات، مع التركيز على أهمية تطوير نماذج أكثر كفاءة يمكن تشغيله محليًا على الأجهزةوتنفيذ تدابير أمنية قوية وإنشاء أطر تقييم موحدة.
ويشير الباحثون إلى أنه “من خلال دمج الضمانات والإجراءات القابلة للتخصيص، يضمن هؤلاء الوكلاء الكفاءة والأمان عند التعامل مع الأوامر المعقدة”، مما يسلط الضوء على التقدم الأخير في جعل التكنولوجيا جاهزة للمؤسسات.
بالنسبة لقادة تكنولوجيا المؤسسات، يمثل ظهور وكلاء واجهة المستخدم الرسومية (GUI) المدعومين من LLM فرصة واعتبارًا استراتيجيًا. وفي حين تعد التكنولوجيا بمكاسب إنتاجية كبيرة من خلال الأتمتة، ستحتاج المؤسسات إلى إجراء تقييم دقيق للآثار الأمنية ومتطلبات البنية التحتية لنشر أنظمة الذكاء الاصطناعي هذه.
تشرح الورقة البحثية أن “مجال وكلاء واجهة المستخدم الرسومية يتجه نحو بنيات متعددة الوكلاء، وقدرات متعددة الوسائط، ومجموعات عمل متنوعة، واستراتيجيات جديدة لصنع القرار”. “تمثل هذه الابتكارات خطوات مهمة نحو إنشاء عوامل ذكية وقابلة للتكيف وقادرة على الأداء العالي عبر بيئات متنوعة وديناميكية.”
ويتوقع خبراء الصناعة ذلك بحلول عام 2025 على الأقل 60% من المؤسسات الكبيرة سوف نقوم بتجريب أحد أشكال وكلاء أتمتة واجهة المستخدم الرسومية، مما قد يؤدي إلى مكاسب هائلة في الكفاءة ولكنه يثير أيضًا أسئلة مهمة حول خصوصية البيانات واستبدال الوظائف.
يشير الاستطلاع الشامل إلى أننا عند نقطة انعطاف حيث يمكن لواجهات الذكاء الاصطناعي للمحادثة أن تغير بشكل أساسي كيفية تفاعل البشر مع البرامج – على الرغم من أن تحقيق هذه الإمكانية سيتطلب تقدمًا مستمرًا في كل من التكنولوجيا الأساسية وممارسات النشر المؤسسية.
وخلص الباحثون إلى أن “هذه التطورات تضع الأساس لعوامل أكثر تنوعًا وقوة قادرة على التعامل مع البيئات الديناميكية المعقدة”، مشيرين إلى المستقبل حيث يصبح مساعدو الذكاء الاصطناعي جزءًا لا يتجزأ من كيفية عملنا مع أجهزة الكمبيوتر.