¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente

巴比特_

2023-08-26 08:03:47

Fuente: Qubit

Modelo grande de código abierto de Ali y uno nuevo ~

Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.

Específicamente, Qwen-VL es un modelo grande multimodal basado en Tongyi Qianwen-7B, que admite múltiples entradas, como imágenes, texto y cuadros de detección, y admite la salida de cuadros de detección además de texto.

Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.

En la tarea de prueba, Qwen-VL demostró la fuerza del “guerrero hexagonal”. En la evaluación estándar en inglés de los cuatro tipos de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), logró SOTA.

Tan pronto como salió la noticia de código abierto, llamó mucho la atención.

Echemos un vistazo al rendimiento específico ~

El primer modelo general que admite el posicionamiento de dominio abierto chino

Veamos las características de los modelos de la serie Qwen-VL en su conjunto:

Diálogo multilingüe: soporte de diálogo multilingüe, soporte de extremo a extremo para reconocimiento de texto largo tanto en chino como en inglés en imágenes;
Diálogo intercalado de múltiples imágenes: admite entrada y comparación de múltiples imágenes, especifica preguntas y respuestas con imágenes, creación de literatura con múltiples imágenes, etc.;
El primer modelo de uso general que admite el posicionamiento de dominio abierto chino: el marco de detección se marca mediante la expresión del lenguaje de dominio abierto chino, es decir, el objeto de destino se puede encontrar con precisión en la pantalla;
Reconocimiento y comprensión detallados: en comparación con la resolución 224 utilizada por otros LVLM (modelo de lenguaje visual a gran escala) de código abierto, Qwen-VL es el primer modelo LVLM de código abierto con resolución 448. Las resoluciones más altas pueden mejorar el reconocimiento de texto detallado, la respuesta a preguntas de documentos y la anotación de cuadros de detección.

En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.

Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.

Probemos la entrada y comparación de múltiples imágenes:

Aunque no reconoció a Arnia, su juicio emocional fue bastante preciso (cabeza de perro manual).

En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.

En términos de detalles técnicos, Qwen-VL utiliza Qwen-7B como modelo de lenguaje base, introduce un codificador visual ViT en la arquitectura del modelo y conecta los dos a través de un adaptador de lenguaje visual con reconocimiento de posición, de modo que el modelo admita la entrada de señales visuales. .

El proceso de formación específica se divide en tres pasos:

Entrenamiento previo: optimice solo el codificador visual y el adaptador de lenguaje visual, congele el modelo de lenguaje. Utilizando datos emparejados de imagen y texto a gran escala, la resolución de la imagen de entrada es 224x224.
Preentrenamiento multitarea: introduzca datos de lenguaje visual multitarea de mayor resolución (448x448), como VQA, VQA de texto, comprensión de referencias, etc., para un preentrenamiento conjunto de múltiples tareas.
Ajuste supervisado: congelar el codificador visual, optimizar el modelo de lenguaje y los adaptadores. Utilice los datos de interacción del diálogo para realizar un ajuste rápido y obtener el modelo Qwen-VL-Chat final con capacidades interactivas.

Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).

Los resultados muestran que Qwen-VL logra los mejores resultados que LVLM de código abierto del mismo tamaño.

Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.

En esta prueba de comparación, Qwen-VL-Chat logró SOTA.

Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~

Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.

Enlace del proyecto:

-Charlar

Dirección del papel:

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios

¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente

** El primer modelo general que admite el posicionamiento de dominio abierto chino **

El primer modelo general que admite el posicionamiento de dominio abierto chino