المصدر: كيوبيت
علي نموذج كبير مفتوح المصدر، ونموذج جديد~
بعد Tongyi Qianwen-7B (Qwen-7B)، أطلقت Alibaba Cloud نموذج اللغة المرئية واسع النطاق Qwen-VL، وسيكون مفتوح المصدر مباشرة بمجرد دخوله عبر الإنترنت.
على وجه التحديد، Qwen-VL هو نموذج كبير متعدد الوسائط يعتمد على Tongyi Qianwen-7B، الذي يدعم مدخلات متعددة مثل الصور والنص وإطارات الكشف، ويدعم إخراج إطارات الكشف بالإضافة إلى النص.
على سبيل المثال 🌰، نقوم بإدخال صورة لـ Arnia، من خلال نموذج السؤال والجواب، ولا يستطيع Qwen-VL-Chat تلخيص محتوى الصورة فحسب، بل يمكنه أيضًا تحديد موقع Arnia في الصورة.
في مهمة الاختبار، أظهر Qwen-VL قوة “المحارب السداسي”. وفي تقييم اللغة الإنجليزية القياسي للأنواع الأربعة من المهام متعددة الوسائط (Zero-shot Caption/VQA/DocVQA/Grounding)، حقق SOTA.
بمجرد ظهور الأخبار مفتوحة المصدر، جذبت الكثير من الاهتمام.
دعونا نلقي نظرة على الأداء المحدد ~
دعونا نلقي نظرة على خصائص نماذج سلسلة Qwen-VL ككل:
فيما يتعلق بالسيناريوهات، يمكن استخدام Qwen-VL في سيناريوهات مثل الإجابة على أسئلة المعرفة، والإجابة على أسئلة الصور، والإجابة على أسئلة المستندات، وتحديد المواقع المرئية الدقيقة.
على سبيل المثال، إذا ذهب صديق أجنبي لا يفهم اللغة الصينية إلى المستشفى لرؤية الطبيب، ويواجه الخريطة الإرشادية برأس واحد ورأسين كبيرين، ولا يعرف كيفية الوصول إلى القسم المقابل، فيمكنه رمي الخريطة مباشرة والأسئلة إلى Qwen-VL، والسماح لها بمتابعة معلومات الصورة بمثابة مترجم.
لنختبر إدخال الصور المتعددة ومقارنتها:
على الرغم من أنه لم يتعرف على أرنيا، إلا أن حكمه العاطفي كان دقيقًا للغاية (رأس كلب يدوي).
من حيث القدرة على تحديد المواقع البصرية، حتى لو كانت الصورة معقدة للغاية وهناك العديد من الشخصيات، يمكن لـ Qwen-VL العثور بدقة على Hulk وSpiderman وفقًا للمتطلبات.
فيما يتعلق بالتفاصيل الفنية، يستخدم Qwen-VL Qwen-7B كنموذج لغة أساسي، ويقدم برنامج تشفير مرئي ViT في بنية النموذج، ويربط الاثنين من خلال محول لغة مرئية مدرك للموضع، بحيث يدعم النموذج إدخال الإشارة المرئية .
تنقسم عملية التدريب المحددة إلى ثلاث خطوات:
اختبر الباحثون Qwen-VL في تقييمات اللغة الإنجليزية القياسية في أربع فئات من المهام متعددة الوسائط (Zero-shot Caption/VQA/DocVQA/Grounding).
أظهرت النتائج أن Qwen-VL يحقق أفضل النتائج لـ LVLM مفتوح المصدر بنفس الحجم.
بالإضافة إلى ذلك، قام الباحثون ببناء مجموعة اختبار TouchStone استنادًا إلى آلية تسجيل GPT-4.
في اختبار المقارنة هذا، حقق Qwen-VL-Chat SOTA.
إذا كنت مهتمًا بـ Qwen-VL، فهناك عروض توضيحية على مجتمع Modak وhuggingface يمكنك تجربتها مباشرة، والرابط موجود في نهاية المقالة~
يدعم Qwen-VL الباحثين والمطورين لتنفيذ التطوير الثانوي، كما يسمح بالاستخدام التجاري، ولكن تجدر الإشارة إلى أنه بالنسبة للاستخدام التجاري، تحتاج إلى ملء طلب الاستبيان أولاً.
رابط المشروع:
-محادثة
عنوان الورقة: