Détails de l'exemple du carnet de notes Qwen2.5-VL : débuter avec des modèles visuels multimodaux
Récemment, l'équipe de Qwen a lancé avec fierté une série d'outils d'aide à la décision. Exemple de cahier de cas d'utilisation Qwen2.5-VLIl s'agit d'une démonstration complète de la puissance des modèles et des API natifs. Cette collection de carnets de notes soigneusement élaborés est conçue pour aider les développeurs et les utilisateurs à acquérir une compréhension plus approfondie de l'interface utilisateur. Qwen2.5-VL La compréhension visuelle est puissante et inspire des applications plus innovantes.
Exemple de carnet de notes : Premiers pas avec Qwen 2.5-VL
Grâce à ces exemples détaillés de Notebook, les développeurs peuvent Prenez de la vitesse et voyez par vous-même comment le modèle Qwen 2.5-VL se comporte dans toutes les tâches !Qwen2.5-VL Qu'il s'agisse d'analyser des documents complexes, d'effectuer des tâches d'OCR précises ou de comprendre en profondeur du contenu vidéo, Qwen2.5-VL fournit un retour d'information efficace et précis, démontrant ainsi ses performances supérieures.
En même temps, l'équipe de Qwen attend avec impatience les commentaires et les contributions de la communauté pour améliorer et étendre les capacités de Qwen 2.5-VL, et pour travailler ensemble à la promotion du développement de la technologie multimodale.
🔗 RELATED :
- Dépôt GitHub. https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
- Expérience en ligne. https://chat.qwenlm.ai (sélectionner le modèle Qwen2.5-VL-72B-Instruct)
- Lien avec le modèle ModelScope : https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
- Interface API de Parsons Brinckerhoff. https://help.aliyun.com/zh/model-studio/user-guide/vision/

Exemples de carnets de notes en détail
01 Utilisation de l'ordinateur
Cet exemple de carnet de notes montre comment utiliser Qwen2.5-VL pour effectuer des tâches liées à l'utilisation de l'ordinateur.
Les utilisateurs n'ont qu'à prendre une capture d'écran du bureau de l'ordinateur et à faire une requête. Le modèle Qwen2.5-VL peut analyser le contenu de la capture d'écran, comprendre l'intention de l'utilisateur, puis générer des instructions précises telles que cliquer ou taper pour parvenir à un contrôle intelligent de l'ordinateur.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

02 Compréhension de l'espace
Cet exemple de Notebook met en évidence les capacités avancées de localisation spatiale de Qwen2.5-VL, notamment la détection précise d'objets et la localisation de cibles spécifiques dans une image.
Ces exemples permettent de comprendre comment Qwen2.5-VL intègre efficacement la compréhension visuelle et linguistique pour interpréter avec précision des scénarios complexes et permettre un raisonnement spatial avancé.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

03 Analyse des documents
Cet exemple de Notebook met en évidence les puissantes capacités d'analyse de documents de Qwen2.5-VL. Il peut traiter des documents dans une variété de formats d'image et produire les résultats analysés dans une variété de formats, y compris HTML, JSON, MD et LaTeX.
L'introduction innovante par Qwen d'un format HTML QwenVL unique est particulièrement intéressante. Ce format contient des informations sur l'emplacement de chaque composant dans le document, ce qui permet une reconstruction précise et une manipulation souple du document.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

04 Agent mobile (agent de dispositif mobile)
Cet exemple de Notebook montre comment interagir intelligemment avec un appareil mobile en utilisant les capacités d'agent de Qwen2.5-VL.
L'exemple montre comment le modèle Qwen2.5-VL génère et exécute des actions en fonction de la requête de l'utilisateur et du contexte visuel de l'appareil mobile, ce qui permet de contrôler facilement l'appareil mobile.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

05 OCR (Reconnaissance Optique de Caractères)
Cet exemple de bloc-notes se concentre sur la démonstration des capacités OCR (reconnaissance optique de caractères) de Qwen2.5-VL, y compris l'extraction et la reconnaissance précises d'informations textuelles à partir d'images.
Grâce à ces exemples, les utilisateurs peuvent comprendre intuitivement comment Qwen2.5-VL peut capturer et interpréter avec précision le contenu d'un texte dans des scénarios complexes, démontrant ainsi ses puissantes capacités de reconnaissance de texte.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

06 Reconnaissance universelle
Cet exemple de Notebook montre comment utiliser Qwen2.5-VL pour la reconnaissance générique d'objets.
Le modèle Qwen2.5-VL analyse l'image, comprend l'intention de la requête de l'utilisateur et fournit les résultats de reconnaissance correspondants, ce qui permet d'obtenir une compréhension globale du contenu de l'image.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

07 Vidéo Compréhension
Qwen2.5-VL possède de puissantes capacités de compréhension de vidéos longues et peut traiter des contenus vidéo de plus d'une heure. Cet exemple de Notebook fournit une exploration approfondie des capacités du modèle Qwen2.5-VL pour les tâches de compréhension vidéo.
Qwen2.5-VL est conçu pour démontrer son potentiel dans un large éventail de scénarios d'analyse vidéo, de la simple ROC (reconnaissance optique de caractères) à la détection d'événements complexes et à la synthèse de contenu.
👉 Les liens du carnet de notes. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

Meilleures pratiques de Magic Hitch : Exemple de livre de recettes de jeux arithmétiques libres
Dans la communauté ModelScope Magic Hitch, les utilisateurs peuvent facilement expérimenter ces exemples de livres de cuisine avec l'arithmétique libre.
Tout d'abord, téléchargez le code Qwen2.5-VL.
git clone https://github.com/QwenLM/Qwen2.5-VL.git
Utiliser l'API Modèles dans Notebook : La plateforme MagicBuilder API-Inference fournit une API gratuite pour la famille de modèles Qwen2.5-VL, qui peut être utilisée directement par les utilisateurs de MagicBuilder via des appels API en remplaçant l'URL de base dans le Cookbook et en remplissant le MagicBuilder SDK. Jeton Prêt à partir.Documentation détaillée : https://www.modelscope.cn/docs/model-service/API-Inference/intro
from openai import OpenAI
client = OpenAI(
api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
base_url="https://api-inference.modelscope.cn/v1"
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
},
{ "type": "text",
"text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
},
],
}
],
stream=True
)
L'ordinateur portable utilise un modèle local : Veuillez sélectionner le modèle de GPU.

Conclusion : bienvenue à l'expérience et à la création de l'avenir ensemble
À l'avenir, l'équipe Qwen continuera à mettre à jour et à développer ces exemples de Notebook afin d'incorporer davantage de fonctionnalités utiles et de scénarios d'application, dans le but de fournir aux développeurs des solutions plus complètes. Nous vous invitons à visiter le dépôt GitHub de Qwen2.5-VL ou ModelScope pour découvrir ces exemples de Notebook et partager votre expérience et vos applications innovantes. L'équipe de Qwen est impatiente d'explorer les possibilités de Qwen2.5-VL avec vous.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...