AI Personal Learning
und praktische Anleitung
Sitzsack Marscode

DeepSeek-VL2: ein visuelles Experten-Sprachmodell für fortgeschrittenes multimodales Verstehen

Allgemeine Einführung

DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die DeepSeek-VL2-Familie besteht aus drei Varianten: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small und DeepSeek-VL2, die jeweils 1,0B, 2,8B und 4,5B Aktivierungsparameter haben. Die Modelle erreichen eine vergleichbare oder bessere Leistung als bestehende Open-Source-Density- und MoE-Modelle mit einer ähnlichen oder geringeren Anzahl von Parametern.

DeepSeek-VL2: ein visuelles Experten-Sprachmodell für fortgeschrittenes multimodales Verstehen-1

Demo: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small


DeepSeek-VL2: ein visuelles Experten-Sprachmodell für fortgeschrittenes multimodales Verstehen-1

 

Funktionsliste

  • Visuelle Fragen und AntwortenUnterstützt komplexe visuelle Quizaufgaben durch die Bereitstellung genauer Antworten.
  • Optische Zeichenerkennung (OCR)Effiziente Erkennung von Textinhalten in Bildern.
  • Dokument VerstehenParsing und Verstehen komplexer Dokumentstrukturen und -inhalte.
  • Verständnis der FormIdentifizieren und Verarbeiten von Tabellendaten, um nützliche Informationen zu extrahieren.
  • Grafisches VerständnisAnalyse und Interpretation von Daten und Trends in Diagrammen und Tabellen.
  • visuelle OrientierungGenaue Lokalisierung des Zielobjekts im Bild.
  • Multivarianten-UnterstützungEs gibt die Modelle Tiny, Small und Standard für unterschiedliche Bedürfnisse.
  • Hohe LeistungReduziert die Anzahl der Aktivierungsparameter bei gleichbleibend hoher Leistung.

 

Hilfe verwenden

Ablauf der Installation

  1. Stellen Sie sicher, dass die Python-Version >= 3.8 ist.
  2. Klonen des DeepSeek-VL2-Repositorys:
   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git
  1. Wechseln Sie in das Projektverzeichnis und installieren Sie die erforderlichen Abhängigkeiten:
   cd DeepSeek-VL2
pip install -e .

Anwendungsbeispiel

Beispiel für eine einfache Argumentation

Nachfolgend finden Sie einen Beispielcode für eine einfache Inferenz mit DeepSeek-VL2:

torch importieren
von transformers importieren AutoModelForCausalLM
from deepseek_vl2.models importieren DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
von deepseek_vl2.utils.io importieren load_pil_images
# Geben Sie den Modellpfad an
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# Bilder laden
Bilder = load_pil_images(["pfad_zu_bild.jpg"])
# Reasoning
Eingaben = vl_chat_processor(images=Bilder, return_tensors="pt")
Ausgaben = vl_model.generate(**Eingaben)
print(Ausgaben)

Detaillierte Funktionsabläufe

  1. Visuelle Fragen und Antworten::
    • Modelle und Prozessoren laden.
    • Geben Sie ein Bild und eine Frage ein, und das Modell liefert die Antwort.
  2. Optische Zeichenerkennung (OCR)::
    • ausnutzen DeepseekVLV2Prozessor Bild laden.
    • Das Modell wird zur Inferenz aufgerufen, um den Text im Bild zu extrahieren.
  3. Dokument Verstehen::
    • Lädt die Eingabe, die das Bild des Dokuments enthält.
    • Das Modell analysiert die Dokumentstruktur und gibt das Ergebnis des Parsings zurück.
  4. Verständnis der Form::
    • Geben Sie ein Bild ein, das das Formular enthält.
    • Das Modell erkennt die Struktur und den Inhalt des Formulars und extrahiert die wichtigsten Informationen.
  5. Grafisches Verständnis::
    • Laden Sie das Kartenbild.
    • Das Modell analysiert grafische Daten und liefert Interpretationen und Trendanalysen.
  6. visuelle Orientierung::
    • Geben Sie eine Beschreibung und ein Bild des Zielobjekts ein.
    • Das Modell lokalisiert das Zielobjekt im Bild und gibt die Positionskoordinaten zurück.

Mit den oben genannten Schritten können die Benutzer die Leistungsfähigkeit von DeepSeek-VL2 voll ausschöpfen, um eine Vielzahl komplexer visueller Sprachaufgaben zu lösen.

CDN
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " DeepSeek-VL2: ein visuelles Experten-Sprachmodell für fortgeschrittenes multimodales Verstehen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)