Aprendizagem pessoal com IA
e orientação prática

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Introdução geral

O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande multimodal interativo de código aberto e, em dezembro de 2024, o projeto lançou uma versão de atualização importante, o VITA-1.5, que melhora significativamente a experiência e o desempenho da interação. O modelo VITA é compatível com entradas e saídas multimodais, como imagem, vídeo e áudio, e é equipado com recursos de interação em tempo real, reduzindo significativamente a latência da interação de voz de ponta a ponta de 4 segundos para 1,5 segundos. O modelo VITA oferece suporte a entradas e saídas multimodais, como imagem, vídeo e áudio, e é equipado com recursos de interação em tempo real, o que reduz significativamente a latência da interação por voz de ponta a ponta de 4 segundos para 1,5 segundo, aprimorando muito a experiência do usuário. Como um projeto de código-fonte totalmente aberto, o VITA oferece uma plataforma ideal para pesquisadores e desenvolvedores explorarem a IA multimodal.

VITA: Modelos multimodais de linguagem ampla de código aberto para interação em tempo real entre visão e fala-1


 

Lista de funções

  • Processamento de entrada multimodal: suporta imagem, vídeo, áudio e outras formas de entrada
  • Interação de voz em tempo real: latência de interação de voz de ponta a ponta de apenas 1,5 segundo
  • Recursos de análise visual: recursos avançados de compreensão e análise de imagens e vídeos
  • Processamento de áudio: suporta reconhecimento e síntese de fala
  • Compreensão multimodal: rumo à correlação inteligente entre texto, imagem e áudio
  • Suporte de código aberto: o código completo de treinamento e inferência é aberto
  • Modelos pré-treinados: várias versões de modelos pré-treinados estão disponíveis
  • Opções flexíveis de implementação: suporta implementações de várias plataformas de hardware

 

Visão geral do VITA-1.5

Em 12 de agosto de 2024, lançamos o VITA-1.0Isso é O primeiro modelo de macrolinguagem multimodal interativo e completo de código aberto. E agora (20 de dezembro de 2024), trazemos a você o Nova versão VITA-1.5!

O que há de novo no VITA-1.5?

Temos o prazer de apresentar VITA-1.5que introduziu uma série de avanços:

  1. Reduzir significativamente a latência da interação.. A latência da interação de voz de ponta a ponta aumentou de Aprox. 4 segundos Redução para 1,5 segundospermitindo uma interação quase instantânea e melhorando muito a experiência do usuário.
  2. Desempenho multimodal aprimorado. Em MMEeMMBench responder cantando MathVista O desempenho médio em benchmarks multimodais, como o 59.8 aumentá-lo para 70.8.
  3. Aprimoramento do recurso de processamento de fala.. Um novo nível de poder de processamento de fala foi alcançado, com a ASR WER (Word Error Rate, Test Other) aumentando de 18.4 Diminuir para 7.5. Além disso, usamos Módulo TTS de ponta a ponta Substitui o módulo TTS autônomo do VITA-1.0, que aceita como entrada a incorporação de grandes modelos de linguagem.
  4. Estratégias de treinamento progressivo. Dessa forma, a inclusão do módulo de fala tem pouco efeito sobre o outro desempenho multimodal (visual-verbal). O desempenho médio da compreensão de imagens só diminuiu de 71,3 para 70,8.

Resultados

  • Avaliação de testes de benchmark de compreensão de imagens e vídeos

VITA: Modelos multimodais de linguagem ampla de código aberto para interação em tempo real entre visão e fala-1

  • O VITA-1.5 supera os modelos profissionais de fala em benchmarks de ASR

VITA: Modelos multimodais de linguagem ampla de código aberto para interação em tempo real entre visão e fala-1

  • A inclusão da modalidade de áudio tem pouco efeito sobre a compreensão de imagens e vídeos

VITA: Modelos multimodais de linguagem ampla de código aberto para interação em tempo real entre visão e fala-1

 

Usando a Ajuda

1. configuração e instalação do ambiente

1.1 Requisitos da fundação:

  • Ambiente Python
  • Estrutura PyTorch
  • Suporte a CUDA (recomenda-se a aceleração de GPU)

1.2 Etapas de instalação:

# Clonar o repositório do projeto
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
# instalar dependências
pip install -r requirements.txt

2. uso de modelos

2.1 Carregamento do modelo pré-treinado:

from vita.model.builder import load_pretrained_model
from vita.conversation.import conv_templates
from vita.util.mm_utils import get_model_name_from_path
Modelo de carregamento #
model_path = 'VITA/vita'
nome_do_modelo = get_model_name_from_path(model_path)
tokeniser, model, image_processor, _ = load_pretrained_model(
model_path, _ = load_pretrained_model(
None, _ = load_pretrained_model(
nome_do_modelo, _ = load_pretrained_model(
model_type='mixtral-8x7b',
device_map='auto'
)

2.2 Configuração do processamento de áudio:

# Inicializar o codificador de áudio
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3. funções interativas em tempo real

  • Suporta entrada e resposta de voz em tempo real
  • Reconhecimento e análise integrados de imagens
  • Oferece suporte a interações de diálogo em várias rodadas
  • Fornecer um sistema completo de modelos de diálogo

4. uso de funções avançadas

4.1 Processamento de entrada multimodal:

  • Suporta processamento de imagens em lote
  • Análise em tempo real de fluxos de vídeo
  • Processamento e síntese de fluxo de áudio

4.2 Treinamento e ajuste fino do modelo:

  • Fornece scripts de treinamento completos
  • Suporte para recursos de aprendizado contínuo
  • Suporte ao treinamento de conjuntos de dados personalizados

5. avaliação e teste

  • Suporta as principais referências de avaliação multimodal
  • Ferramenta de avaliação VLMEvalKit integrada
  • Fornece métricas detalhadas de testes de desempenho

6. cuidados

  • As GPUs são recomendadas para inferência de modelos
  • Preste atenção ao gerenciamento de memória, especialmente ao lidar com grandes entradas multimodais
  • Verifique regularmente as atualizações do projeto para obter os recursos e as otimizações mais recentes
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil