AI Personal Learning
und praktische Anleitung

VITA: Open Source Multimodale Großsprachmodelle für visuelle und sprachliche Interaktion in Echtzeit

Allgemeine Einführung

VITA ist ein führendes Open-Source-Projekt zur interaktiven multimodalen Modellierung großer Sprachen und leistet Pionierarbeit bei der Ermöglichung echter multimodaler Interaktion. Das Projekt brachte im August 2024 VITA-1.0 auf den Markt und leistete damit Pionierarbeit für das erste quelloffene interaktive multimodale große Sprachmodell. Im Dezember 2024 brachte das Projekt eine wichtige Upgrade-Version, VITA-1.5, auf den Markt, die das Interaktionserlebnis und die Leistung erheblich verbessert.Das VITA-Modell unterstützt multimodale Ein- und Ausgaben wie Bild, Video und Audio und ist mit Echtzeit-Interaktionsfunktionen ausgestattet, die die End-to-End-Latenzzeit für die Sprachinteraktion von 4 Sekunden auf 1,5 Sekunden erheblich reduzieren. Das VITA-Modell unterstützt multimodale Ein- und Ausgaben wie Bild, Video und Audio und ist mit Echtzeit-Interaktionsmöglichkeiten ausgestattet, wodurch die End-to-End-Latenzzeit für die Sprachinteraktion von 4 Sekunden auf 1,5 Sekunden deutlich reduziert wird, was das Benutzererlebnis erheblich verbessert. Als vollständig quelloffenes Projekt bietet VITA eine ideale Plattform für Forscher und Entwickler zur Erforschung multimodaler KI.

VITA: Open Source Multimodale Großsprachmodelle für Echtzeit-Interaktion zwischen Sehen und Sprechen-1


 

Funktionsliste

  • Multimodale Eingabeverarbeitung: Unterstützt Bild-, Video-, Audio- und andere Formen der Eingabe
  • Sprachinteraktion in Echtzeit: End-to-End-Latenzzeit für Sprachinteraktionen von nur 1,5 Sekunden
  • Visuelle Analysefunktionen: leistungsstarke Funktionen zum Verstehen und Analysieren von Bildern und Videos
  • Audioverarbeitung: unterstützt Spracherkennung und Sprachsynthese
  • Modalübergreifendes Verstehen: eine intelligente Korrelation zwischen Text, Bild und Ton
  • Open-Source-Unterstützung: Der gesamte Trainings- und Inferenzcode ist offen.
  • Vorgefertigte Modelle: mehrere Versionen von vorgefertigten Modellen sind verfügbar
  • Flexible Bereitstellungsoptionen: unterstützt die Bereitstellung mehrerer Hardware-Plattformen

 

VITA-1.5 Überblick

Am 12. August 2024 haben wir die VITA-1.0Dies ist Das erste quelloffene, interaktive, multimodale Makro-Sprachmodell. Und jetzt (20. Dezember 2024) bringen wir Ihnen die Neue Version VITA-1.5!

Was ist neu in VITA-1.5?

Wir freuen uns, Ihnen Folgendes präsentieren zu können VITA-1.5, die eine Reihe von Fortschritten brachte:

  1. Deutliche Reduzierung der Interaktionslatenz.. Die End-to-End-Latenzzeit für Sprachinteraktionen hat sich von Ca. 4 Sekunden Ermäßigung auf 1,5 SekundenDies ermöglicht eine nahezu sofortige Interaktion und verbessert das Nutzererlebnis erheblich.
  2. Verbesserte multimodale Leistung. Unter MME, undMMBench im Gesang antworten MathVista Die durchschnittliche Leistung bei multimodalen Benchmarks, wie dem 59.8 erhöhen sie auf 70.8.
  3. Erweiterung der Sprachverarbeitungsfähigkeiten.. Es wurde ein neues Niveau der Sprachverarbeitungsleistung erreicht, wobei die ASR WER (Word Error Rate, Test Other) von 18.4 Verringern auf 7.5. Darüber hinaus haben wir End-to-End-TTS-Modul Ersetzt das eigenständige TTS-Modul von VITA-1.0, das als Eingabe die Einbettung großer Sprachmodelle akzeptiert.
  4. Progressive Ausbildungsstrategien. Auf diese Weise hat die Einbeziehung des Sprachmoduls kaum Auswirkungen auf die anderen multimodalen Leistungen (visuell-verbal). Die durchschnittliche Leistung beim Bildverständnis sank lediglich von 71,3 auf 70,8.

Ergebnisse

  • Auswertung von Bild- und Videoverstehens-Benchmarktests

VITA: Open Source Multimodale Großsprachmodelle für Echtzeit-Interaktion zwischen Sehen und Sprechen-1

  • VITA-1.5 übertrifft professionelle Sprachmodelle in ASR-Benchmarks

VITA: Open Source Multimodale Großsprachmodelle für Echtzeit-Interaktion zwischen Sehen und Sprechen-1

  • Die Einbeziehung der Audiomodalität hat kaum Auswirkungen auf das Bild- und Videoverständnis

VITA: Open Source Multimodale Großsprachmodelle für Echtzeit-Interaktion zwischen Sehen und Sprechen-1

 

Hilfe verwenden

1. die Konfiguration und Installation der Umgebung

1.1 Anforderungen an das Fundament:

  • Python-Umgebung
  • PyTorch-Rahmenwerk
  • CUDA-Unterstützung (GPU-Beschleunigung empfohlen)

1.2 Installationsschritte:

# Klonen Sie das Projekt-Repository
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
# Abhängigkeiten installieren
pip install -r anforderungen.txt

2. die Verwendung von Modellen

2.1 Laden des vortrainierten Modells:

from vita.model.builder import load_pretrained_model
from vita.conversation.import conv_templates
from vita.util.mm_utils import get_model_name_from_path
#-Modell laden
model_pfad = 'VITA/vita'
model_name = get_model_name_from_path(model_path)
tokeniser, model, image_processor, _ = load_pretrained_model(
model_pfad, _ = load_pretrained_model(
Keine, _ = load_pretrained_model(
model_name, _ = load_pretrained_model(
model_type='mixtral-8x7b',
device_map='auto'
)

2.2 Konfiguration der Audioverarbeitung:

# Initialisierung des Audio-Encoders
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3. interaktive Funktionen in Echtzeit

  • Unterstützt Echtzeit-Spracheingabe und -Antwort
  • Integrierte Bilderkennung und -analyse
  • Unterstützt Multirunden-Dialog-Interaktionen
  • Bereitstellung eines vollständigen Dialogvorlagensystems

4. die Nutzung der erweiterten Funktionen

4.1 Multimodale Eingabeverarbeitung:

  • Unterstützt die Stapelverarbeitung von Bildern
  • Analyse von Videoströmen in Echtzeit
  • Verarbeitung und Synthese von Audioströmen

4.2 Modelltraining und Feinabstimmung:

  • Bietet vollständige Schulungsskripte
  • Unterstützung für Funktionen des kontinuierlichen Lernens
  • Unterstützung beim Training mit benutzerdefinierten Datensätzen

5. die Bewertung und Prüfung

  • Unterstützt die wichtigsten multimodalen Bewertungsmaßstäbe
  • Integriertes Auswertetool VLMEvalKit
  • Liefert detaillierte Metriken für Leistungstests

6. vorsichtsmaßnahmen

  • GPUs werden für die Modellinferenz empfohlen
  • Achten Sie auf die Speicherverwaltung, insbesondere bei großen multimodalen Eingaben
  • Prüfen Sie regelmäßig die Projektaktualisierungen auf die neuesten Funktionen und Optimierungen
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " VITA: Open Source Multimodale Großsprachmodelle für visuelle und sprachliche Interaktion in Echtzeit

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)