VITA : Open Source Multimodal Large Language Models for Real-Time Visual and Speech Interaction (modèles multimodaux de langage à grande échelle pour l'interaction visuelle et vocale en temps réel)

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

18.3K 00

Introduction générale

VITA est un projet open source de modélisation interactive multimodale du langage, pionnier dans la capacité à réaliser une véritable interaction multimodale complète. Le projet a lancé VITA-1.0 en août 2024, inaugurant le premier modèle de langage interactif multimodal à code source ouvert, et en décembre 2024, le projet a lancé une version de mise à jour majeure, VITA-1.5, qui améliore considérablement l'expérience d'interaction et les performances.Le modèle VITA prend en charge les entrées et sorties multimodales, telles que l'image, la vidéo et l'audio, et est équipé de capacités d'interaction en temps réel, réduisant considérablement la latence d'interaction vocale de bout en bout de 4 secondes à 1,5 seconde. Le modèle VITA prend en charge les entrées et sorties multimodales telles que l'image, la vidéo et l'audio, et dispose de capacités d'interaction en temps réel, ce qui réduit considérablement le temps de latence de l'interaction vocale de bout en bout de 4 secondes à 1,5 seconde, améliorant ainsi grandement l'expérience de l'utilisateur. En tant que projet à code source ouvert, VITA constitue une plateforme idéale pour les chercheurs et les développeurs qui souhaitent explorer l'IA multimodale.

Liste des fonctions

Traitement multimodal des entrées : prend en charge les images, la vidéo, l'audio et d'autres formes d'entrées.
Interaction vocale en temps réel : latence de l'interaction vocale de bout en bout de seulement 1,5 seconde
Capacités d'analyse visuelle : puissantes capacités de compréhension et d'analyse d'images et de vidéos
Traitement audio : prise en charge de la reconnaissance et de la synthèse vocales
Compréhension multimodale : vers une corrélation intelligente entre le texte, l'image et l'audio
Support open source : l'ensemble du code de formation et d'inférence est ouvert
Modèles pré-entraînés : plusieurs versions de modèles pré-entraînés sont disponibles
Options de déploiement flexibles : prise en charge des déploiements de plates-formes matérielles multiples

Vue d'ensemble de VITA-1.5

Le 12 août 2024, nous avons publié le VITA-1.0Il s'agit de Le premier modèle de macrolangue multimodale interactive tout-en-un à source ouverte. Et maintenant (20 décembre 2024), nous vous présentons la Nouvelle version VITA-1.5!

Quelles sont les nouveautés de VITA-1.5 ?

Nous avons le plaisir de vous présenter VITA-1.5qui a introduit une série d'avancées :

Réduction significative de la latence d'interaction.. La latence de l'interaction vocale de bout en bout est passée de Environ 4 secondes Réduction à 1,5 secondepermettant une interaction quasi instantanée et améliorant considérablement l'expérience de l'utilisateur.
Amélioration des performances multimodales. En MME,MMBench répondre en chantant MathVista La performance moyenne dans les benchmarks multimodaux, tels que le 59.8 l'élever à 70.8.
Amélioration des capacités de traitement de la parole.. Un nouveau niveau de puissance de traitement de la parole a été atteint, avec un ASR WER (Word Error Rate, Test Other) qui est passé de 18.4 Réduire à 7.5. En outre, nous avons utilisé Module TTS de bout en bout Remplace le module TTS autonome de VITA-1.0, qui accepte en entrée l'intégration de grands modèles linguistiques.
Stratégies d'entraînement progressif. Ainsi, l'inclusion du module vocal a peu d'effet sur les autres performances multimodales (visuelles-verbales). La performance moyenne de la compréhension des images n'a diminué que de 71,3 à 70,8.

Résultats

Évaluation des tests de référence pour la compréhension des images et des vidéos

VITA-1.5 surpasse les modèles vocaux professionnels dans les tests de référence ASR

L'inclusion de la modalité audio a peu d'effet sur la compréhension des images et des vidéos.

Utiliser l'aide

1. configuration et installation de l'environnement

1.1 Exigences relatives aux fondations :

Environnement Python
Cadre PyTorch
Prise en charge de CUDA (accélération GPU recommandée)

1.2 Étapes de l'installation :

# 克隆项目仓库
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
# 安装依赖
pip install -r requirements.txt

2. utilisation de modèles

2.1 Chargement du modèle pré-entraîné :

from vita.model.builder import load_pretrained_model
from vita.conversation import conv_templates
from vita.util.mm_utils import get_model_name_from_path
# 加载模型
model_path = 'VITA/vita'
model_name = get_model_name_from_path(model_path)
tokenizer, model, image_processor, _ = load_pretrained_model(
model_path, 
None, 
model_name, 
model_type='mixtral-8x7b', 
device_map='auto'
)

2.2 Configuration du traitement audio :

# 初始化音频编码器
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3. fonctions interactives en temps réel

Prise en charge de la saisie et de la réponse vocales en temps réel
Reconnaissance et analyse d'images intégrées
Prise en charge des interactions de dialogue à plusieurs tours
Fournir un système complet de modèles de dialogue

4. utilisation des fonctions avancées

4.1 Traitement multimodal des données :

Prise en charge du traitement d'images par lots
Analyse en temps réel des flux vidéo
Traitement et synthèse de flux audio

4.2 Entraînement et mise au point du modèle :

Fournit des scripts de formation complets
Soutien aux fonctions d'apprentissage continu
Soutien à la formation de jeux de données personnalisés

5. l'évaluation et les tests

Prise en charge des principaux critères d'évaluation multimodale
Outil d'évaluation intégré VLMEvalKit
Fournit des mesures détaillées des tests de performance

6) Précautions

Les GPU sont recommandés pour l'inférence des modèles
Veillez à la gestion de la mémoire, en particulier lorsque vous traitez des données multimodales volumineuses.
Vérifier régulièrement les mises à jour du projet pour connaître les dernières fonctionnalités et optimisations.