تريد رؤى أكثر ذكاء في صندوق الوارد الخاص بك؟ اشترك في النشرات الإخبارية الأسبوعية لدينا للحصول على ما يهم فقط للمؤسسات AI والبيانات وقادة الأمن. اشترك الآن
الارتفاع ميزات البحث العميق أدى التحليل الآخر الذي يعمل بالطاقة الذكاء الاصطناعى إلى ظهور المزيد من النماذج والخدمات التي تتطلع إلى تبسيط هذه العملية وقراءة المزيد من المستندات التي تستخدمها الشركات بالفعل.
شركة الذكاء الاصطناعى الكندي التحم يتم وضعها على نماذجها ، بما في ذلك النموذج المرئي الذي تم إصداره حديثًا ، لإثبات أن ميزات البحث العميق يجب أيضًا تحسينها لحالات استخدام المؤسسات.
أصدرت الشركة الأمر رؤية ، نموذج مرئي يستهدف بشكل خاص حالات استخدام المؤسسات ، مبنية على ظهرها قيادة نموذج. وتقول الشركة إن نموذج المعلمة 112 مليار يمكن أن “يمكن أن يفتح رؤى قيمة من البيانات البصرية ، واتخاذ قرارات دقيقة للغاية تعتمد على البيانات من خلال التعرف على الأحرف البصرية المستند (OCR) وتحليل الصور” ، كما تقول الشركة.
وقالت الشركة: “سواء كان ذلك يفسر كتيبات المنتجات مع مخططات معقدة أو تحليل صور لمشاهد العالم الحقيقي للكشف عن المخاطر ، فإن الرؤية تتفوق على معالجة التحديات الأكثر تطلبًا للمؤسسات”. في منشور مدونة.
تعود سلسلة AI Impression إلى سان فرانسيسكو – 5 أغسطس
المرحلة التالية من الذكاء الاصطناعي هنا – هل أنت مستعد؟ انضم إلى القادة من Block و GSK و SAP لإلقاء نظرة حصرية على كيفية إعادة تشغيل الوكلاء المستقلين من مهام سير عمل المؤسسة-من اتخاذ القرارات في الوقت الفعلي إلى الأتمتة الشاملة.
تأمين مكانك الآن – المساحة محدودة: https://bit.ly/3guuplf
هذا يعني أن الرؤية يمكن أن تقرأ وتحليل أكثر أنواع الصور شيوعًا التي تحتاجها المؤسسات: الرسوم البيانية ، المخططات ، المخططات ، المستندات الممسوحة ضوئيًا و PDF.
نظرًا لأنه مبني على بنية Command A ، فإن Command A تتطلب رؤية اثنين أو أقل من وحدات معالجة الرسومات ، تمامًا مثل نموذج النص. يحتفظ نموذج الرؤية أيضًا بقدرات النص على الأمر A لقراءة الكلمات على الصور ويفهم ما لا يقل عن 23 لغة. قال Cohere إنه ، على عكس النماذج الأخرى ، فإن الرؤية تقلل من التكلفة الإجمالية للملكية للمؤسسات ويتم تحسينها بالكامل لحالات استخدام الاسترجاع للشركات.
كيف تتمثل في تعليم الأمر أ
قال Cohere إنه يتبع أ LLAVA العمارة لبناء أمرها A Fashions ، بما في ذلك النموذج المرئي. تحول هذه البنية الميزات المرئية إلى رموز الرؤية الناعمة ، والتي يمكن تقسيمها إلى بلاطات مختلفة.
وقالت الشركة إن هذه البلاط يتم تمريرها إلى البرج النص ، “معلمات كثيفة ، 111 ب. “بهذه الطريقة ، تستهلك صورة واحدة ما يصل إلى 3328 رمزًا.”
قال كويدل إنه قام بتدريب النموذج البصري في ثلاث مراحل: محاذاة لغة الرؤية ، والضبط الخاضع للإشراف (SFT) وتعلم التعزيز بعد التدريب مع التعليقات البشرية (RLHF).
وقالت الشركة: “يتيح هذا النهج تعيين ميزات تشفير الصور إلى مساحة تضمين نموذج اللغة”. “على النقيض من ذلك ، خلال مرحلة SFT ، قمنا بتدريب مشفر الرؤية في وقت واحد ، ومحول الرؤية ونموذج اللغة على مجموعة متنوعة من المهام المتعددة الوسائط المتابعة للتعليم.”
تصور المؤسسة AI
أظهرت الاختبارات القياسية الأوامر أن الرؤية تتفوق على نماذج أخرى ذات إمكانات مرئية مماثلة.
COLELE COMPET Command رؤية ضد OpenaiGPT 4.1 ، ميتالاما 4 مافريك ، خطأ's pixtral كبيرة وسوء الخاطئ 3 في تسعة اختبارات القياسية. لم تذكر الشركة ما إذا كانت قد اختبرت النموذج ضد Mistral الذي يركز على الحروف API ، Mistral OCR.
تتفوقت على الرؤية على النماذج الأخرى في اختبارات مثل Chartqa و Ocrbench و AI2D و TextVQA. بشكل عام ، بلغت الرؤية درجة 83.1 ٪ مقارنة بـ GPT 4.1's 78.6 ٪ ، و Llama 4 Maverick's 80.5 ٪ و 78.3 ٪ من Mistral Medium 3.
معظم نماذج اللغة الكبيرة (LLMs) هذه الأيام هي متعددة الوسائط ، مما يعني أنها يمكن أن تنشئ أو فهم الوسائط المرئية مثل الصور أو مقاطع الفيديو. ومع ذلك ، تستخدم المؤسسات عمومًا المزيد من المستندات الرسومية مثل المخططات و PDFs ، لذلك فإن استخراج المعلومات من مصادر البيانات غير المهيكلة هذه غالباً ما يثبت صعوبة.
مع وجود بحث عميق في ارتفاع ، فإن أهمية جلب نماذج قادرة على القراءة والتحليل وحتى تنزيل غير منظم نمت البيانات.
قالت Cohere أيضًا إنها تقدم القيادة رؤية في نظام أوزان مفتوح ، على أمل أن تبدأ الشركات التي تتطلع إلى الابتعاد عن النماذج المغلقة أو الملكية في استخدام منتجاتها. حتى الآن ، هناك بعض الاهتمام من المطورين.