Fuente: Qubit
Modelo grande de código abierto de Ali y uno nuevo ~
Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.
Específicamente, Qwen-VL es un modelo grande multimodal basado en Tongyi Qianwen-7B, que admite múltiples entradas, como imágenes, texto y cuadros de detección, y admite la salida de cuadros de detección además de texto.
Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.
En la tarea de prueba, Qwen-VL demostró la fuerza del “guerrero hexagonal”. En la evaluación estándar en inglés de los cuatro tipos de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), logró SOTA.
Tan pronto como salió la noticia de código abierto, llamó mucho la atención.
Echemos un vistazo al rendimiento específico ~
Veamos las características de los modelos de la serie Qwen-VL en su conjunto:
En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.
Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.
Probemos la entrada y comparación de múltiples imágenes:
Aunque no reconoció a Arnia, su juicio emocional fue bastante preciso (cabeza de perro manual).
En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.
En términos de detalles técnicos, Qwen-VL utiliza Qwen-7B como modelo de lenguaje base, introduce un codificador visual ViT en la arquitectura del modelo y conecta los dos a través de un adaptador de lenguaje visual con reconocimiento de posición, de modo que el modelo admita la entrada de señales visuales. .
El proceso de formación específica se divide en tres pasos:
Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
Los resultados muestran que Qwen-VL logra los mejores resultados que LVLM de código abierto del mismo tamaño.
Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.
En esta prueba de comparación, Qwen-VL-Chat logró SOTA.
Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~
Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.
Enlace del proyecto:
-Charlar
Dirección del papel: