Qwen2.5-VL Notebook 示例详解：从入门到精通多模态视觉模型

1.7K 00

近日，Qwen 团队隆重推出了一系列 Qwen2.5-VL 用例 Notebook 示例，全面展示了本地模型和 API 的强大功能。这批精心打造的 Notebook 旨在帮助开发者和用户更深入地了解 Qwen2.5-VL 强大的视觉理解能力，并启发更多创新应用。

Notebook 示例：快速上手，体验 Qwen2.5-VL 的卓越性能

通过这些详尽的 Notebook 示例，开发者能够 快速上手并亲身体验 Qwen2.5-VL 模型在各项任务中的出色表现。无论是应对复杂的文档解析、执行精准的 OCR 任务，还是进行深入的视频内容理解，Qwen2.5-VL 都能提供高效且准确的反馈，充分展现其卓越的性能。

同时，Qwen 团队也期待社区能够积极反馈并贡献力量，共同完善和拓展 Qwen2.5-VL 的能力边界，携手推动多模态技术的发展。

🔗 相关链接：

GitHub 代码仓库: https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
在线体验: https://chat.qwenlm.ai (选择 Qwen2.5-VL-72B-Instruct 模型)
ModelScope 模型链接： https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
百炼 API 接口: https://help.aliyun.com/zh/model-studio/user-guide/vision/

Notebook 示例详解

01 Computer Use (电脑使用)

此 Notebook 示例演示了如何利用 Qwen2.5-VL 执行与电脑使用相关的任务。

用户只需截取电脑桌面屏幕截图并提出查询，Qwen2.5-VL 模型即可分析截图内容，理解用户意图，进而生成精确的点击或输入等操作指令，实现对电脑的智能控制。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

02 Spatial Understanding (空间理解)

此 Notebook 示例着重展示了 Qwen2.5-VL 先进的空间定位能力，包括精准的物体检测和图像中特定目标的定位。

通过示例，可以深入了解 Qwen2.5-VL 如何有效地整合视觉和语言理解，从而准确解读复杂场景，实现高级的空间推理。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

03 Document Parsing (文档解析)

此 Notebook 示例突显了 Qwen2.5-VL 强大的文档解析能力。它可以处理各种图像格式的文档，并以 HTML、JSON、MD 和 LaTeX 等多种格式输出解析结果。

特别值得关注的是，Qwen 创新性地引入了一种独特的 QwenVL HTML 格式。这种格式包含了文档中每个组件的位置信息，从而能够实现对文档的精确重建和灵活操作。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

04 Mobile Agent (移动设备代理)

此 Notebook 示例演示了如何利用 Qwen2.5-VL 的代理功能与移动设备进行智能交互。

示例展示了 Qwen2.5-VL 模型如何根据用户的查询和移动设备的视觉上下文，生成并执行相应的操作，实现对移动设备的便捷控制。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

05 OCR (光学字符识别)

此 Notebook 示例专注于展示 Qwen2.5-VL 的 OCR (光学字符识别) 能力，包括从图像中精准提取和识别文本信息。

通过示例，用户可以直观地了解 Qwen2.5-VL 如何在复杂场景下准确捕捉和解读文本内容，展现其强大的文字识别能力。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

06 Universal Recognition (万物识别)

此 Notebook 示例演示了如何使用 Qwen2.5-VL 进行通用物体识别。

用户只需提供一张图像和一个查询，Qwen2.5-VL 模型便能分析图像，理解用户查询意图，并给出相应的识别结果，实现对图像内容的全面的理解。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

07 Video Understanding (视频理解)

Qwen2.5-VL 具备强大的长视频理解能力，可以处理时长超过 1 小时的视频内容。此 Notebook 示例将深入探索 Qwen2.5-VL 模型在视频理解任务中的各项能力。

Qwen2.5-VL 旨在展示其在各种视频分析场景中的应用潜力，从基础的 OCR (光学字符识别) 到复杂的事件检测和内容总结，均能胜任。

👉 Notebook 链接: https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

魔搭最佳实践：免费算力玩转 Cookbook 示例

在 ModelScope 魔搭社区，用户可以利用免费算力轻松体验这些 Cookbook 示例。

首先，下载 Qwen2.5-VL 代码:

git clone https://github.com/QwenLM/Qwen2.5-VL.git

Notebook 中使用模型 API： 魔搭平台 API-Inference 提供了免费的 Qwen2.5-VL 系列模型 API。魔搭用户可以通过 API 调用的方式直接使用，只需替换 Cookbook 中的 base-URL 并填写魔搭 SDK Token 即可。详细文档： https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAI
client = OpenAI(
    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
    base_url="https://api-inference.modelscope.cn/v1"
)


response = client.chat.completions.create(
    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
                },
                {   "type": "text",
                    "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
                },
            ],
        }
    ],
    stream=True
    )

Notebook 使用本地模型： 请选择 GPU 机型。

结语：欢迎体验，共创未来

未来，Qwen 团队将持续更新和扩展这些 Notebook 示例，融入更多实用功能和应用场景，力求为开发者提供更全面的解决方案。欢迎访问 Qwen2.5-VL 的 GitHub 仓库或 ModelScope 魔搭平台，体验这些 Notebook 示例，并分享您的使用心得与创新应用！Qwen 团队期待与您一同探索 Qwen2.5-VL 的更多可能性。