Skywork-R1V : Un modèle graphique hybride de raisonnement multimodal Open Source par Kunlun Wanwen

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

15.6K 00

Introduction générale

Skywork-R1V est un modèle de raisonnement multimodal open source développé par l'équipe SkyworkAI (Kunlun Wanwei) et publié sur GitHub. Il est capable de traiter à la fois des images et du texte, d'effectuer un raisonnement logique en plusieurs étapes, et est particulièrement performant dans l'analyse de problèmes d'images complexes. Le modèle a été officiellement lancé le 18 mars 2025 avec une taille de paramètre de 3,8 milliards. Il prend en charge la chaîne de pensée (Chain-of-Thought), qui peut décomposer étape par étape le contenu d'une image pour aider les utilisateurs à résoudre des problèmes en mathématiques, en sciences, etc. Skywork-R1V vise à faire progresser la technologie de l'IA et à mettre de puissants outils de raisonnement à la disposition d'un plus grand nombre de personnes. Il n'est pas seulement puissant, il fournit également une documentation détaillée et un code que les développeurs peuvent utiliser et améliorer.

Liste des fonctions

Pensée visuelle Raisonnement en chaîneCapacité à analyser le contenu des images étape par étape, en décomposant des questions complexes et en fournissant des réponses claires.
Résolution de problèmes mathématiquesReconnaître les questions mathématiques dans les images et donner des réponses de haute précision.
Interprétation scientifique des imagesLes services d'aide à la décision : Analyser des images médicales ou scientifiques afin d'en extraire des informations clés.
compréhension multimodaleLe système d'information sur la santé : Il combine texte et images afin de fournir des résultats de recherche plus complets.
Soutien à l'Open SourceLes modèles et le code complet sont fournis, ce qui permet aux utilisateurs de les modifier et de les déployer librement.

Utiliser l'aide

Skywork-R1V est un projet open source, les utilisateurs doivent le télécharger via GitHub et configurer l'environnement localement pour l'utiliser. Voici un guide détaillé pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
- Assurez-vous que Python 3.8 ou plus est installé sur votre ordinateur. Cela peut être fait avec la commande python --version Vérifier.
- Git doit être installé pour télécharger le code ; les utilisateurs de Windows peuvent le télécharger à partir du site web officiel, et les utilisateurs de Linux ou de Mac peuvent le télécharger à partir du terminal en tapant sudo apt install git peut-être brew install git Installation.
- Un environnement GPU (par exemple une carte graphique NVIDIA) est recommandé pour améliorer les performances, et CUDA et cuDNN doivent être installés.
Télécharger le code
- Ouvrez un terminal ou une ligne de commande et entrez la commande suivante pour cloner le dépôt :
```
git clone https://github.com/SkyworkAI/Skywork-R1V.git
```
- Allez dans le dossier du projet :
```
cd Skywork-R1V
```
Installation des dépendances
- Le projet fournit un fichier de dépendance <requirements.txt>. Exécutez la commande suivante pour installer les bibliothèques requises :
```
pip install -r requirements.txt
```
- Si vous avez besoin d'accélérer le raisonnement, installez Flash Attention :
```
pip install flash-attn --no-build-isolation
```
Télécharger les modèles
- Les fichiers modèles pour Skywork-R1V sont hébergés sur Hugging Face. Accès https://huggingface.co/Skywork/Skywork-R1V-38B, téléchargez le fichier de modèle manuellement ou utilisez la commande suivante :
```
huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
```
- Placez les fichiers de modèle téléchargés dans le répertoire du projet sous le nom de model Dossier.
Configuration de l'environnement d'exécution
- S'il y a plus d'un GPU, définissez les périphériques visibles. Par exemple, utilisez deux GPU :
```
export CUDA_VISIBLE_DEVICES="0,1"
```

Comment utiliser les principales fonctionnalités

La fonction principale de Skywork-R1V est le raisonnement à travers les images et le texte. Voici la procédure à suivre.

Fonction 1 : Raisonnement par chaîne de pensée visuelle

Se préparer à entrerEnregistrer des images à analyser localement (par exemple, des sujets de mathématiques ou des diagrammes scientifiques), par exemple. image1.jpg.
Préparation des questions: Spécifiez la question dans le code. Par exemple, vous voulez demander "Quelle est la réponse à la question de mathématiques dans l'image ? .
raisonnement en cours d'exécution: : Editorial <inference_with_transformers.py> remplir le chemin d'accès à l'image et la question :
```
image_paths = ["image1.jpg"]
question = "图片中的数学题答案是什么？"
```

exécuter une commande: S'exécute dans le terminal :

python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么？"

Voir les résultatsLe programme affiche le processus de raisonnement étape par étape et la réponse finale.

Fonction 2 : Résolution de problèmes mathématiques

image d'entréeLes images contenant des formules mathématiques, telles que des titres écrits à la main ou imprimés, peuvent être téléchargées.
code en cours d'exécution: Comme pour la chaîne de pensée visuelle, définissez le problème comme suit : "Résoudre un problème de mathématiques en une image" et exécutez-le :
```
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
```
Vitrine des résultatsLe modèle reconnaît la formule, la calcule étape par étape et donne finalement la réponse.

Fonction 3 : Interprétation scientifique des images

Télécharger une imagePréparer des images médicales ou des diagrammes scientifiques, tels que des radiographies ou des images de microscopes cellulaires.
poser des questions. : Poser des questions spécifiques, telles que "Quelle est la structure de la cellule sur l'image ?" .

programme de course: :

python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么？"

analyse des résultatsLe modèle extrait les caractéristiques de l'image et fournit une explication détaillée en rapport avec le problème.

Précautions de manipulation

Format de l'imageLes formats courants tels que JPG et PNG sont pris en charge et une grande clarté d'image est recommandée.
exigences en matière de matériel: Fonctionne sur les ordinateurs sans GPU, mais est lent. Il est recommandé d'avoir au moins 16 Go de mémoire vive.
Problèmes de débogageSi vous rencontrez une erreur, vérifiez le <requirements.txt> pour une installation complète, ou consultez la page Issues sur GitHub pour obtenir de l'aide.

Avec les étapes ci-dessus, vous pouvez facilement utiliser Skywork-R1V pour traiter des tâches d'image et de texte. Pour une utilisation plus avancée, vous pouvez vous référer à la documentation officielle <Skywork_R1V.pdf>.

scénario d'application

Aides pédagogiques
Les élèves peuvent utiliser Skywork-R1V pour analyser les questions illustrées de leurs devoirs de mathématiques afin d'obtenir des réponses rapides et des étapes pour résoudre les questions, ce qui les aide à comprendre les points.
la recherche scientifique
Les chercheurs peuvent télécharger des images de leurs expériences pour permettre au modèle d'interpréter les données ou le contenu de l'image, ce qui permet de gagner du temps lors de l'analyse.
Soutien médical
Les médecins peuvent saisir des images radiographiques ou microscopiques pour un premier diagnostic, ce qui améliore l'efficacité de leur travail.

QA

Quelles sont les langues prises en charge par Skywork-R1V ?
Actuellement, le principal support est le chinois et l'anglais, l'entrée et la sortie de texte pouvant se faire dans les deux langues.
Dois-je payer ?
Skywork-R1V est entièrement open source et le code et les modèles sont disponibles gratuitement.
Fonctionne-t-il sans GPU ?
C'est possible, mais l'inférence sera beaucoup plus lente. Il est recommandé de réduire la résolution de l'image lors de l'utilisation de l'unité centrale.