Aprendizagem pessoal com IA
e orientação prática

VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

Introdução geral

O VideoChat é um projeto humano digital de interação por voz em tempo real baseado em tecnologia de código aberto, compatível com esquemas de voz de ponta a ponta (GLM-4-Voice - THG) e esquemas em cascata (ASR-LLM-TTS-THG). O projeto permite que os usuários personalizem a imagem e o timbre do ser humano digital e suporta clonagem de timbre e sincronização labial, saída de streaming de vídeo e latência do primeiro pacote de até 3 segundos. Os usuários podem experimentar sua funcionalidade por meio de demonstrações on-line ou implantá-lo e usá-lo localmente por meio de documentação técnica detalhada.

Endereço de demonstração: https://www.modelscope.cn/studios/AI-ModelScope/video_chat


 

Lista de funções

  • Interação de voz em tempo real: suporte para soluções de voz de ponta a ponta e soluções em cascata
  • Imagem e tom personalizados: os usuários podem personalizar a aparência e o som da pessoa digital de acordo com suas necessidades
  • Clonagem de voz: suporta a clonagem da voz do usuário para proporcionar uma experiência de voz personalizada
  • Baixa latência: a latência do primeiro pacote é tão baixa quanto 3 segundos para garantir uma experiência de interação tranquila
  • Projeto de código aberto: com base na tecnologia de código aberto, os usuários podem modificar e ampliar livremente a função

 

Usando a Ajuda

Processo de instalação

  1. Configuração do ambiente
    • Sistema operacional: Ubuntu 22.04
    • Versão do Python: 3.10
    • Versão CUDA: 12.2
    • Versão do Torch: 2.1.2
  2. projeto de clonagem
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. Criação de um ambiente virtual e instalação de dependências
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. Faça o download do arquivo de pesos
    • Recomendamos o uso do CreateSpace para fazer o download, configuramos o git lfs para rastrear os arquivos de peso
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. Início dos serviços
    python app.py
    

Processo de uso

  1. Configuração da API-KEY::
    • Se o desempenho da máquina local for limitado, você poderá usar a API Qwen e a API CosyVoice fornecidas pela grande plataforma de serviços de modelo da Aliyun, a Hundred Refine, noapp.pyConfigure a API-KEY na seção
  2. inferência local::
    • Se você não usar a API-KEY, poderá usá-la nosrc/llm.pyresponder cantandosrc/tts.pyConfigure o método de inferência local para remover o código de chamada de API desnecessário.
  3. Início dos serviços::
    • estar em movimentopython app.pyInicie o serviço.
  4. Personalização da persona digital::
    • existir/data/video/Catálogo para adicionar um vídeo gravado da imagem humana digital.
    • modificações/src/thg.pyna avatar_list da classe Muse_Talk, adicionando o nome da imagem e bbox_shift.
    • existirapp.pyDepois de adicionar o nome da persona digital ao avatar_name no Gradio, reinicie o serviço e aguarde a conclusão da inicialização.

Procedimento de operação detalhado

  • Imagem e tom personalizados: em /data/video/ para adicionar o vídeo gravado da imagem humana digital ao diretório src/thg.py modificação Conversa sobre museus classe lista_de_avataresadicione o nome da imagem e bbox_shift Parâmetros.
  • clonagem de fala: em app.py Configuração média API do CosyVoice ou usando Borda_TTS Executar raciocínio local.
  • Soluções de voz de ponta a ponta: Uso GLM-4-Voz para fornecer geração e reconhecimento de fala eficientes.

 

  1. Visite o endereço do serviço implantado localmente e acesse a interface do Gradio.
  2. Selecione ou carregue um vídeo personalizado de persona digital.
  3. Configure a função de clone de voz para carregar a amostra de voz de um usuário.
  4. Inicie a interação de voz em tempo real e experimente os recursos de diálogo de baixa latência.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil