Allgemeine Einführung
Skywork-R1V ist ein vom SkyworkAI-Team (Kunlun Wanwei) entwickeltes und auf GitHub veröffentlichtes Open-Source-Modell für multimodale Schlussfolgerungen, das in der Lage ist, Bilder und Text gleichzeitig zu verarbeiten, logische Schlussfolgerungen in mehreren Schritten durchzuführen und besonders gut komplexe Bildprobleme zu analysieren. Das Modell wurde offiziell am 18. März 2025 mit einer Parametergröße von 3,8 Milliarden gestartet. Es unterstützt die Gedankenkette (Chain-of-Thought), mit der Bildinhalte schrittweise zerlegt werden können, um den Nutzern bei der Lösung von Problemen in Mathematik, Wissenschaft usw. zu helfen. Skywork-R1V soll die KI-Technologie vorantreiben und leistungsfähige Denkwerkzeuge für mehr Menschen frei zugänglich machen. Skywork-R1V ist nicht nur leistungsstark, sondern bietet auch eine ausführliche Dokumentation und Code für Entwickler zur Nutzung und Verbesserung.
Funktionsliste
- Visuelles Denken Kette ReasoningDie Fähigkeit, den Inhalt von Bildern Schritt für Schritt zu analysieren, komplexe Fragen aufzuschlüsseln und klare Antworten zu geben.
- Mathematisches ProblemlösenErkennen Sie mathematische Fragen in Bildern und geben Sie hochpräzise Antworten.
- Wissenschaftliche BildinterpretationAnalyse medizinischer oder wissenschaftlicher Bilder, um wichtige Informationen zu extrahieren.
- Modulationsübergreifendes VerständnisKombiniert Text und Bilder, um umfassendere Schlussfolgerungen zu ermöglichen.
- Open-Source-UnterstützungDer vollständige Code und die Modelle werden zur Verfügung gestellt, so dass die Benutzer sie frei ändern und einsetzen können.
Hilfe verwenden
Skywork-R1V ist ein Open-Source-Projekt. Benutzer müssen es über GitHub herunterladen und die Umgebung lokal konfigurieren, um es zu verwenden. Hier finden Sie eine detaillierte Anleitung für einen schnellen Einstieg.
Ablauf der Installation
- Vorbereiten der Umgebung
- Stellen Sie sicher, dass Sie Python 3.8 oder höher auf Ihrem Computer installiert haben. Dies können Sie mit dem Befehl
python --version
Prüfen. - Um den Code herunterzuladen, muss Git installiert sein. Windows-Benutzer können ihn von der offiziellen Website herunterladen, und Linux- oder Mac-Benutzer können ihn über das Terminal herunterladen, indem sie Folgendes eingeben
sudo apt install git
vielleichtbrew install git
Einbau. - Eine GPU-Umgebung (z. B. NVIDIA-Grafikkarte) wird empfohlen, um die Leistung zu verbessern, und CUDA und cuDNN müssen installiert sein.
- Stellen Sie sicher, dass Sie Python 3.8 oder höher auf Ihrem Computer installiert haben. Dies können Sie mit dem Befehl
- Code herunterladen
- Öffnen Sie ein Terminal oder eine Befehlszeile und geben Sie den folgenden Befehl ein, um das Repository zu klonen:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- Wechseln Sie in den Projektordner:
cd Skywork-R1V
- Öffnen Sie ein Terminal oder eine Befehlszeile und geben Sie den folgenden Befehl ein, um das Repository zu klonen:
- Installation von Abhängigkeiten
- Das Projekt bietet eine Abhängigkeitsdatei
. Führen Sie den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren:
pip install -r anforderungen.txt
- Wenn Sie die Argumentation beschleunigen wollen, installieren Sie Flash Attention:
pip install flash-attn --no-build-isolation
- Das Projekt bietet eine Abhängigkeitsdatei
- Modelle herunterladen
- Die Modelldateien für Skywork-R1V werden auf Hugging Face gehostet. Zugang
https://huggingface.co/Skywork/Skywork-R1V-38B
laden Sie die Modelldatei manuell herunter, oder verwenden Sie den folgenden Befehl:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir . /Modell
- Legen Sie die heruntergeladenen Modelldateien in das Projektverzeichnis unter dem Ordner
Modell
Mappe.
- Die Modelldateien für Skywork-R1V werden auf Hugging Face gehostet. Zugang
- Konfigurieren der Laufzeitumgebung
- Wenn es mehr als einen Grafikprozessor gibt, legen Sie die sichtbaren Geräte fest. Verwenden Sie zum Beispiel zwei GPUs:
export CUDA_VISIBLE_DEVICES="0,1"
- Wenn es mehr als einen Grafikprozessor gibt, legen Sie die sichtbaren Geräte fest. Verwenden Sie zum Beispiel zwei GPUs:
Verwendung der wichtigsten Funktionen
Die Kernfunktion von Skywork-R1V ist das Durchdenken von Bildern und Texten. Im Folgenden wird die Vorgehensweise beschrieben.
Funktion 1: Visuelle Gedankenkette Reasoning
- Vorbereiten auf den EintrittSpeichern von Bildern, die lokal analysiert werden sollen (z. B. mathematische Themen oder wissenschaftliche Diagramme), z. B.
bild1.jpg
. - Vorbereitung der FragenFrage: Geben Sie die Frage im Code an. Sie möchten zum Beispiel fragen: "Wie lautet die Antwort auf die mathematische Frage im Bild?". .
- logische Schlussfolgerungen:: Leitartikel
Datei, geben Sie den Bildpfad und die Frage ein:
image_paths = ["image1.jpg"] question = "Wie lautet die Antwort auf die mathematische Frage im Bild?"
- einen Befehl ausführenLäuft im Terminal:
python inference_with_transformers.py ---model_path . /model --image_paths image1.jpg --question "Wie lautet die Antwort auf die mathematische Frage im Bild?"
- Ergebnisse anzeigenDas Programm gibt den Schritt-für-Schritt-Argumentationsprozess und die endgültige Antwort aus.
Funktion 2: Mathematisches Problemlösen
- EingabebildHochladen von Bildern, die mathematische Formeln enthalten, z. B. handgeschriebene oder gedruckte Titel.
- laufender CodeÄhnlich wie bei der visuellen Gedankenkette stellen Sie das Problem auf "Lösen Sie eine mathematische Aufgabe in einem Bild" und führen Sie es aus:
python inference_with_transformers.py ---model_path . /model --image_paths math_image.jpg --question "Lösen Sie das mathematische Problem im Bild"
- Ergebnisse ShowcaseDas Modell erkennt die Formel, errechnet sie Schritt für Schritt und gibt schließlich die Antwort.
Funktion 3: Wissenschaftliche Bildinterpretation
- Ein Bild hochladenMedizinische Bilder oder wissenschaftliche Diagramme vorbereiten, z. B. Röntgenbilder oder Bilder von Zellmikroskopen.
- Fragen stellenGeben Sie konkrete Fragen ein, z. B. "Wie sieht die Zellstruktur auf dem Bild aus?" .
- laufendes Programm::
python inference_with_transformers.py ---model_path . /model --image_paths science_image.jpg --question "Wie sieht die Zellstruktur auf dem Bild aus?"
- LeistungsanalyseDas Modell extrahiert Bildmerkmale und gibt eine detaillierte Erklärung in Verbindung mit dem Problem.
Vorsichtsmaßnahmen bei der Handhabung
- BildformatGängige Formate wie JPG und PNG werden unterstützt, und eine hohe Bildschärfe wird empfohlen.
- Hardware-VoraussetzungLäuft auf Computern ohne Grafikprozessoren, ist aber langsam. Mindestens 16 GB RAM werden empfohlen.
- Debugging-ProblemeWenn Sie auf einen Fehler stoßen, überprüfen Sie die
für eine vollständige Installation, oder schauen Sie auf der Issues-Seite auf GitHub nach Hilfe.
Mit den oben beschriebenen Schritten können Sie Skywork-R1V problemlos zur Bearbeitung von Bild- und Textaufgaben verwenden. Für fortgeschrittene Anwendungen können Sie die offizielle Dokumentation zu Rate ziehen .
Anwendungsszenario
- Pädagogische Hilfsmittel
Die Schüler können Skywork-R1V verwenden, um Bildfragen in ihren Mathehausaufgaben zu analysieren, um schnelle Antworten und Schritte zur Lösung der Fragen zu erhalten, was zum Verständnis der Punkte beiträgt. - wissenschaftliche Forschung
Forscher können Bilder ihrer Experimente hochladen, damit das Modell die Daten oder Bildinhalte interpretieren kann, was die Analysezeit verkürzt. - Medizinische Unterstützung
Ärzte können Röntgen- oder Mikroskopbilder für eine erste Diagnose eingeben und so die Arbeitseffizienz verbessern.
QA
- Welche Sprachen werden von Skywork-R1V unterstützt?
Derzeit ist die wichtigste Unterstützung für Chinesisch und Englisch, Texteingabe und -ausgabe kann in beiden Sprachen erfolgen. - Muss ich bezahlen?
Nein. Skywork-R1V ist vollständig quelloffen und der Code und die Modelle sind kostenlos erhältlich. - Funktioniert es auch ohne eine GPU?
Es ist möglich, aber die Inferenz wird viel langsamer sein. Es wird empfohlen, die Bildauflösung bei Verwendung der CPU zu verringern.