Qwen2.5-VL Notebook Beispiel Details: Von den Anfängen bis zur Beherrschung multimodaler visueller Modelle

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Vor kurzem hat das Qwen-Team stolz eine Reihe von Qwen2.5-VL Anwendungsfall Notebook BeispielDies ist eine umfassende Demonstration der Leistungsfähigkeit von nativen Modellen und APIs. Diese Sammlung sorgfältig gestalteter Notebooks soll Entwicklern und Anwendern helfen, ein tieferes Verständnis für die Qwen2.5-VL ein starkes visuelles Verständnis und inspirieren zu mehr innovativen Anwendungen.

Notebook-Beispiel: Erste Schritte mit Qwen2.5-VL

Mit diesen detaillierten Notebook-Beispielen sind Entwickler in der Lage Machen Sie sich selbst ein Bild von der Leistung des Qwen 2.5-VL Modells bei allen Aufgaben!Qwen2.5-VL Ganz gleich, ob es um das Parsen komplexer Dokumente, die Durchführung präziser OCR-Aufgaben oder das gründliche Verstehen von Videoinhalten geht, Qwen2.5-VL liefert effizientes und genaues Feedback und beweist damit seine überragende Leistung.

Gleichzeitig freut sich das Qwen-Team auf das Feedback und die Beiträge der Community, um die Möglichkeiten von Qwen 2.5-VL zu verbessern und zu erweitern und um gemeinsam die Entwicklung der multimodalen Technologie voranzutreiben.

🔗 VERBUNDEN:

GitHub-Repository. https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
Online-Erfahrung. https://chat.qwenlm.ai (wählen Sie das Modell Qwen2.5-VL-72B-Instruct)
ModelScope-Modellverbindung: https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
Parsons Brinckerhoff API-Schnittstelle. https://help.aliyun.com/zh/model-studio/user-guide/vision/

Qwen2.5-VL Notebook 示例概览

Notebook-Beispiele im Detail

01 Computernutzung

Dieses Notebook-Beispiel zeigt, wie Qwen2.5-VL verwendet wird, um Aufgaben im Zusammenhang mit der Computernutzung durchzuführen.

Das Qwen2.5-VL-Modell ist in der Lage, den Inhalt des Screenshots zu analysieren, die Absicht des Benutzers zu verstehen und dann präzise Anweisungen wie Klicken oder Tippen zu geben, um eine intelligente Steuerung des Computers zu erreichen.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

Computer Use 示例

02 Räumliches Verstehen

Dieses Notebook-Beispiel verdeutlicht die fortschrittlichen räumlichen Lokalisierungsfähigkeiten von Qwen2.5-VL, einschließlich der genauen Erkennung von Objekten und der Lokalisierung bestimmter Ziele in einem Bild.

Die Beispiele geben einen Einblick, wie Qwen2.5-VL visuelles und sprachliches Verständnis effektiv integriert, um komplexe Szenarien genau zu interpretieren und fortgeschrittenes räumliches Denken zu ermöglichen.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

Spatial Understanding 示例

03 Parsing von Dokumenten

Dieses Notebook-Beispiel veranschaulicht die leistungsstarken Funktionen von Qwen2.5-VL zum Parsen von Dokumenten. Es kann Dokumente in einer Vielzahl von Bildformaten verarbeiten und die geparsten Ergebnisse in einer Vielzahl von Formaten wie HTML, JSON, MD und LaTeX ausgeben.

Von besonderem Interesse ist Qwens innovative Einführung eines einzigartigen QwenVL-HTML-Formats. Dieses Format enthält Informationen über die Position jeder Komponente im Dokument, was eine genaue Rekonstruktion und flexible Manipulation des Dokuments ermöglicht.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

Document Parsing 示例

04 Mobiler Agent (Agent für mobile Geräte)

Dieses Notebook-Beispiel demonstriert die intelligente Interaktion mit einem mobilen Gerät unter Verwendung der Agentenfunktionen von Qwen2.5-VL.

Das Beispiel zeigt, wie das Qwen2.5-VL-Modell Aktionen auf der Grundlage der Benutzerabfrage und des visuellen Kontexts des mobilen Geräts generiert und ausführt, was eine einfache Steuerung des mobilen Geräts ermöglicht.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

Mobile Agent 示例

05 OCR (Optical Character Recognition)

Dieses Notebook-Beispiel konzentriert sich auf die Demonstration der OCR-Fähigkeiten (Optical Character Recognition) von Qwen2.5-VL, einschließlich der genauen Extraktion und Erkennung von Textinformationen aus Bildern.

Anhand der Beispiele können Anwender intuitiv nachvollziehen, wie Qwen2.5-VL Textinhalte in komplexen Szenarien präzise erfassen und interpretieren kann, und so seine leistungsstarken Texterkennungsfunktionen demonstrieren.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

OCR 示例

06 Universelle Erkennung

Dieses Notebook-Beispiel zeigt, wie man Qwen2.5-VL für die allgemeine Objekterkennung verwendet.

Das Qwen2.5-VL-Modell analysiert das Bild, versteht die Suchabsicht des Benutzers und liefert die entsprechenden Erkennungsergebnisse, wodurch ein umfassendes Verständnis des Bildinhalts erreicht wird.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

Universal Recognition 示例

07 Video-Verständnis

Qwen2.5-VL verfügt über leistungsstarke Fähigkeiten zum Verstehen langer Videos und kann Videoinhalte von mehr als 1 Stunde Länge verarbeiten. Dieses Notebook-Beispiel bietet eine eingehende Untersuchung der Fähigkeiten des Qwen2.5-VL-Modells für Videoverstehensaufgaben.

Qwen2.5-VL wurde entwickelt, um sein Potenzial in einem breiten Spektrum von Videoanalyseszenarien zu demonstrieren, von einfacher OCR (Optical Character Recognition) bis hin zu komplexer Ereigniserkennung und Inhaltszusammenfassung.

👉 Notebook-Links. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

Video Understanding 示例

Magic Hitch Best Practices: Beispiel für ein freies arithmetisches Spiel im Kochbuch

In der ModelScope Magic Hitch-Community können Benutzer diese Cookbook-Beispiele mit freier Arithmetik leicht erleben.

Laden Sie zunächst den Qwen2.5-VL-Code herunter.

git clone https://github.com/QwenLM/Qwen2.5-VL.git

Verwenden Sie die Models API in Notebook: Die MagicBuilder Platform API-Inference bietet eine kostenlose API für die Qwen2.5-VL-Modellfamilie, die von MagicBuilder-Benutzern direkt über API-Aufrufe verwendet werden kann, indem die Base-URL im Cookbook ersetzt und das MagicBuilder SDK ausgefüllt wird. Token Es kann losgehen.Ausführliche Dokumentation: https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAI
client = OpenAI(
    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
    base_url="https://api-inference.modelscope.cn/v1"
)

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
                },
                {   "type": "text",
                    "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
                },
            ],
        }
    ],
    stream=True
    )

Notebook verwendet ein lokales Modell: Bitte wählen Sie das GPU-Modell aus.

alt text

Fazit: Willkommen zum gemeinsamen Erleben und Gestalten der Zukunft

In Zukunft wird das Qwen-Team diese Notebook-Beispiele weiter aktualisieren und erweitern, um weitere nützliche Funktionen und Anwendungsszenarien einzubinden und Entwicklern umfassendere Lösungen zu bieten. Besuchen Sie das GitHub-Repository von Qwen2.5-VL oder ModelScope, um diese Notebook-Beispiele kennenzulernen und Ihre Erfahrungen und innovativen Anwendungen zu teilen! Das Qwen-Team freut sich darauf, die Möglichkeiten von Qwen2.5-VL mit Ihnen zu erkunden.

Qwen2.5-VL Notebook Beispiel Details: Erste Schritte mit multimodalen visuellen Modellen

Notebook-Beispiel: Erste Schritte mit Qwen2.5-VL

Notebook-Beispiele im Detail

01 Computernutzung

02 Räumliches Verstehen

03 Parsing von Dokumenten

04 Mobiler Agent (Agent für mobile Geräte)

05 OCR (Optical Character Recognition)

06 Universelle Erkennung

07 Video-Verständnis

Magic Hitch Best Practices: Beispiel für ein freies arithmetisches Spiel im Kochbuch

Fazit: Willkommen zum gemeinsamen Erleben und Gestalten der Zukunft

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Aktuelle AI-Hotspots

Empfehlungen für AI-Tools

AI Tools Klassifizierung