Detalles del ejemplo de cuaderno Qwen2.5-VL: Introducción a los modelos visuales multimodales

Tutoriales prácticos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

63.6K 00

Recientemente, el equipo de Qwen lanzó con orgullo una serie de Ejemplo de cuaderno de casos de uso de Qwen2.5-VLSe trata de una demostración exhaustiva de la potencia de los modelos y API nativos. Esta colección de cuadernos cuidadosamente elaborados está diseñada para ayudar a los desarrolladores y usuarios a comprender en profundidad el Qwen2.5-VL una potente comprensión visual e inspirar aplicaciones más innovadoras.

Ejemplo de cuaderno: Primeros pasos con Qwen 2.5-VL

Con estos ejemplos detallados de Notebook, los desarrolladores pueden Póngase al día y compruebe por sí mismo el rendimiento del modelo Qwen 2.5-VL en cada tarea.Qwen2.5-VL Tanto si se trata del análisis sintáctico de documentos complejos, la realización de tareas de OCR precisas o la comprensión en profundidad de contenidos de vídeo, Qwen2.5-VL ofrece respuestas eficaces y precisas, lo que demuestra su rendimiento superior.

Al mismo tiempo, el equipo de Qwen espera los comentarios y contribuciones de la comunidad para mejorar y ampliar las capacidades de Qwen 2.5-VL, y trabajar juntos para promover el desarrollo de la tecnología multimodal.

🔗 RELACIONADO:

Repositorio GitHub. https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
Experiencia en línea. https://chat.qwenlm.ai (seleccione el modelo Qwen2.5-VL-72B-Instruct)
Enlace del modelo ModelScope: https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
Interfaz API de Parsons Brinckerhoff. https://help.aliyun.com/zh/model-studio/user-guide/vision/

Ejemplos detallados de cuadernos

01 Uso del ordenador

Este ejemplo de Cuaderno muestra cómo utilizar Qwen2.5-VL para realizar tareas relacionadas con el uso del ordenador.

Los usuarios sólo tienen que hacer una captura de pantalla del escritorio del ordenador y realizar una consulta, el modelo Qwen2.5-VL puede analizar el contenido de la captura, entender la intención del usuario y, a continuación, generar instrucciones precisas como hacer clic o teclear para lograr un control inteligente del ordenador.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

02 Comprensión espacial

Este ejemplo de bloc de notas destaca las avanzadas funciones de localización espacial de Qwen2.5-VL, incluida la detección precisa de objetos y la localización de objetivos específicos en una imagen.

Los ejemplos muestran cómo Qwen2.5-VL integra eficazmente la comprensión visual y lingüística para interpretar con precisión escenarios complejos y permitir un razonamiento espacial avanzado.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

03 Análisis sintáctico de documentos

Este ejemplo de bloc de notas pone de relieve las potentes funciones de análisis sintáctico de documentos de Qwen2.5-VL. Puede procesar documentos en diversos formatos de imagen y mostrar los resultados analizados en diversos formatos, como HTML, JSON, MD y LaTeX.

De especial interés es la innovadora introducción por parte de Qwen de un formato HTML QwenVL único. Este formato contiene información sobre la ubicación de cada componente en el documento, lo que permite reconstruirlo con precisión y manipularlo con flexibilidad.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

04 Agente móvil (Mobile Device Agent)

Este ejemplo de Notebook demuestra cómo interactuar de forma inteligente con un dispositivo móvil utilizando las capacidades de agente de Qwen2.5-VL.

El ejemplo muestra cómo el modelo Qwen2.5-VL genera y ejecuta acciones basadas en la consulta del usuario y el contexto visual del dispositivo móvil, lo que permite controlar fácilmente el dispositivo móvil.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

05 OCR (Reconocimiento Óptico de Caracteres)

Este ejemplo de Cuaderno se centra en demostrar las capacidades de OCR (Reconocimiento Óptico de Caracteres) de Qwen2.5-VL, incluyendo la extracción y reconocimiento precisos de información de texto a partir de imágenes.

A través de los ejemplos, los usuarios pueden comprender intuitivamente cómo Qwen2.5-VL puede capturar e interpretar con precisión el contenido de texto en escenarios complejos, demostrando sus potentes capacidades de reconocimiento de texto.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

06 Reconocimiento universal

Este ejemplo de Notebook muestra cómo utilizar Qwen2.5-VL para el reconocimiento genérico de objetos.

El modelo Qwen2.5-VL analiza la imagen, comprende la intención de consulta del usuario y proporciona los resultados de reconocimiento correspondientes, logrando una comprensión exhaustiva del contenido de la imagen.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

07 Vídeo Comprensión

Qwen2.5-VL tiene potentes capacidades de comprensión de vídeos largos y puede manejar contenidos de vídeo de más de 1 hora. Este ejemplo de Notebook proporciona una exploración en profundidad de las capacidades del modelo Qwen2.5-VL para tareas de comprensión de vídeo.

Qwen2.5-VL está diseñado para demostrar su potencial en una amplia gama de escenarios de análisis de vídeo, desde el OCR (reconocimiento óptico de caracteres) básico hasta la detección de eventos complejos y el resumen de contenidos.

👉 Enlaces del cuaderno. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

Mejores prácticas de Magic Hitch: Ejemplo de libro de recetas de juegos de aritmética libre

En la comunidad ModelScope Magic Hitch, los usuarios pueden experimentar fácilmente estos ejemplos de Cookbook con aritmética libre.

En primer lugar, descarga el código Qwen2.5-VL.

git clone https://github.com/QwenLM/Qwen2.5-VL.git

Utilice la API de modelos en Notebook: La API-Inferencia de la Plataforma MagicBuilder proporciona una API gratuita para la familia de modelos Qwen2.5-VL, que puede ser utilizada directamente por los usuarios de MagicBuilder a través de llamadas API sustituyendo la base-URL en el Cookbook y rellenando el MagicBuilder SDK. Ficha Listo para salir.Documentación detallada: https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAI
client = OpenAI(
    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
    base_url="https://api-inference.modelscope.cn/v1"
)


response = client.chat.completions.create(
    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
                },
                {   "type": "text",
                    "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
                },
            ],
        }
    ],
    stream=True
    )

Notebook utiliza un modelo local: Seleccione el modelo de GPU.

Conclusión: Bienvenidos a experimentar y crear juntos el futuro

En el futuro, el equipo de Qwen seguirá actualizando y ampliando estos ejemplos de Notebook para incorporar más funciones útiles y escenarios de aplicación, en un esfuerzo por ofrecer a los desarrolladores soluciones más completas. Le invitamos a visitar el repositorio GitHub de Qwen2.5-VL o ModelScope para experimentar estos ejemplos de Notebook y compartir su experiencia y aplicaciones innovadoras. El equipo de Qwen está deseando explorar las posibilidades de Qwen2.5-VL con usted.