AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

R1-Onevision: ein quelloffenes visuelles Sprachmodell zur Unterstützung multimodaler Argumentation

Allgemeine Einführung

R1-Onevision ist ein vom Fancy-MLLM-Team entwickeltes, quelloffenes multimodales Großsprachenmodell, das sich auf die tiefe Kombination von Sehen und Sprache konzentriert. Es ist in der Lage, multimodale Eingaben wie Bilder und Text zu verarbeiten und zeichnet sich durch seine Fähigkeiten in den Bereichen visuelles Schlussfolgern, Bildverständnis und mathematisches Problemlösen aus. R1-Onevision wurde auf der Grundlage des Qwen2.5-VL-Modells optimiert und übertrifft ähnliche Modelle wie Qwen2.5-VL-7B in mehreren Benchmarks und stellt sogar die Fähigkeiten von GPT-4V in Frage. Das Projekt wird auf GitHub gehostet und bietet Modellgewichte, Datensätze und Code für Entwickler, Forscher zur akademischen Erforschung oder für praktische Anwendungen. Seit seiner Veröffentlichung am 24. Februar 2025 hat es viel Aufmerksamkeit erregt und besonders bei Visual-Reasoning-Aufgaben gut abgeschnitten.

R1-Onevision: ein quelloffenes visuelles Sprachmodell zur Unterstützung multimodaler Argumentation-1


 

Funktionsliste

  • multimodale InferenzUnterstützung komplexer Denkaufgaben, die Bilder und Text kombinieren, wie z.B. mathematische Problemlösungen und wissenschaftliche Problemanalysen.
  • grafisches VerständnisDie Fähigkeit, den Inhalt eines Bildes zu analysieren und eine detaillierte Beschreibung zu erstellen oder relevante Fragen zu beantworten.
  • Unterstützung von DatensätzenBietet R1-Onevision-Datensätze, die Daten aus mehreren Bereichen enthalten, wie z. B. natürliche Szenen, OCR, Diagramme und mehr.
  • ModellschulungUnterstützt die überwachte Feinabstimmung des gesamten Modells (SFT) unter Verwendung des Open-Source-Rahmens LLama-Factory.
  • Bewertung von HöchstleistungenZeigen Sie in Tests wie Mathvision, Mathverse usw. ein besseres logisches Denken als Ihre Mitschüler.
  • Open-Source-RessourceBereitstellung von Modellgewichten und Codes zur Erleichterung der Sekundärentwicklung oder Forschung.

 

Hilfe verwenden

Ablauf der Installation

R1-Onevision ist ein GitHub-basiertes Open-Source-Projekt, das eine bestimmte Programmiergrundlage und Umgebungskonfiguration erfordert. Im Folgenden finden Sie eine detaillierte Anleitung zur Installation und Verwendung:

1. die Vorbereitung der Umwelt

  • BetriebssystemLinux (z.B. Ubuntu) oder Windows (mit WSL) wird empfohlen.
  • Hardware-VoraussetzungEin NVIDIA-Grafikprozessor (mindestens 16 GB Videospeicher, z. B. A100 oder RTX 3090) wird empfohlen, um Modellinferenz und Training zu unterstützen.
  • Software-abhängig::
    • Python 3.8 oder höher.
    • PyTorch (wir empfehlen die Installation der GPU-Version, siehe die PyTorch-Website).
    • Git (zum Klonen von Code-Repositorien).

2. das Klonen von Lagern

Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den R1-Onevision-Projektcode zu erhalten:

git clone https://github.com/Fancy-MLLM/R1-Onevision.git
cd R1-Onevision

3. die Installation von Abhängigkeiten

Das Projekt stützt sich auf mehrere Python-Bibliotheken, die mit den folgenden Befehlen installiert werden können:

pip install -r anforderungen.txt

Wenn Sie die Argumentation beschleunigen möchten, empfehlen wir die Installation von Flash Attention:

pip install flash-attn --no-build-isolation

4 Herunterladen von Modellgewichten

R1-Onevision bietet vortrainierte Modelle, die von Hugging Face heruntergeladen werden können:

  • Besuchen Sie die Seite des Modells Hugging Face.
  • Laden Sie die Modelldatei herunter (z. B. R1-Überarbeitung-7B) und entpacken Sie es in das Projektverzeichnis unter dem Modelle Ordner (muss manuell erstellt werden).

5. die Konfigurationsumgebung

Vergewissern Sie sich, dass CUDA ordnungsgemäß installiert und mit PyTorch kompatibel ist, was durch Ausführen des folgenden Codes überprüft werden kann:

torch importieren
print(torch.cuda.is_available()) # output True bedeutet, dass die GPU verfügbar ist.

Verwendung

Basic Reasoning: Bild- und Textanalyse

R1-Onevision unterstützt die Ausführung von Inferenzaufgaben über Python-Skripte. Im Folgenden finden Sie ein Beispiel für das Laden eines Modells und die Verarbeitung von Bildern und Text:

  1. Schreiben von Argumentationsskripten::
    Erstellen Sie eine Datei im Stammverzeichnis des Projekts (z. B. infer.py), geben Sie den folgenden Code ein:
from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
importiere torch
von qwen_vl_utils importieren process_vision_info
# Modelle und Prozessoren laden
MODEL_ID = "models/R1-Onevision-7B" # Ersetzen durch den aktuellen Pfad des Modells
processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
MODEL_ID, trust_remote_code=True, torch_dtype=torch.bfloat16
).to("cuda").eval()
# Eingabe von Bild und Text
messages = [
{
"Rolle": "Benutzer",
"Inhalt": [
{"type": "image", "image": "path/to/your/image.jpg"}, # Ersetzen durch den lokalen Bildpfad
{"type": "text", "text": "Beschreiben Sie, worum es in diesem Bild geht und beantworten Sie die Frage: Wie viele Personen sind auf dem Bild zu sehen?"}
]
}
]
# Verarbeitung der Eingaben
inputs = processor(messages, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
Antwort = processor.decode(outputs[0], skip_special_tokens=True)
print(Antwort)
  1. Laufende Skripte::
python infer.py

Das Skript wird eine Bildbeschreibung und eine Antwort ausgeben. Wenn zum Beispiel zwei Personen auf dem Bild zu sehen sind, könnte das Modell zurückgeben: "Das Bild zeigt eine Parkszene mit zwei Personen, die auf einer Bank sitzen".

Merkmal: Mathe-Reasoning

R1-Onevision zeichnet sich durch mathematisches, visuelles Denken aus. Ausgehend von einem Bild, das ein mathematisches Problem enthält (z. B. "2x + 3 = 7, finde x"), können die folgenden Schritte befolgt werden:

  1. Änderungen Nachrichten Der Text lautet: "Beantworten Sie bitte die Mathefrage in diesem Bild und geben Sie die Berechnungen an."
  2. Führen Sie das Skript aus, und das Modell wird ähnliche Ergebnisse wie die folgenden liefern:
Die Frage im Bild lautet: 2x + 3 = 7
Lösungsverfahren:
1. Ziehe von beiden Seiten 3 ab: 2x + 3 - 3 = 7 - 3
2. vereinfachen: 2x = 4
3. Dividiere beide Seiten durch 2: 2x / 2 = 4 / 2
4. und du erhältst: x = 2
Endgültige Antwort: x = 2

Verwendung des Datensatzes

R1-Onevision stellt spezielle Datensätze zur Verfügung, die zur Feinabstimmung oder zum Testen von Modellen verwendet werden können:

  • Download des Datensatzes: Hugging Face dataset page.
  • Die Daten enthalten Bild- und Textpaare und können nach dem Entpacken direkt zum Training oder zur Validierung verwendet werden.

Feinabstimmung der Modelle

Wenn ein benutzerdefiniertes Modell benötigt wird, kann eine überwachte Feinabstimmung mit Hilfe der LLama-Factory durchgeführt werden:

  1. LLama-Factory installieren:
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Fabrik
pip install -r anforderungen.txt
  1. Konfigurieren Sie die Trainingsparameter (siehe Projektdokumentation) und führen Sie das Programm aus:
python train.py --model_name models/R1-Onevision-7B --dataset path/to/dataset

Zusammenfassung des Betriebsablaufs

  • Bildanalyse: Bereiten Sie den Bildpfad vor, schreiben Sie das Skript und führen Sie es aus, um das Ergebnis zu erhalten.
  • mathematische Argumentation: Laden Sie ein Bild des Themas hoch, geben Sie eine Frage ein und sehen Sie sich die ausführliche Antwort an.
  • Kundenspezifische EntwicklungLaden Sie den Datensatz und das Modell herunter und passen Sie die Parameter für das Training an.
    Achten Sie auf die Nutzung des GPU-Speichers. Es werden mindestens 16 GB Videospeicher empfohlen, um einen reibungslosen Betrieb zu gewährleisten.
CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " R1-Onevision: ein quelloffenes visuelles Sprachmodell zur Unterstützung multimodaler Argumentation

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)