Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Open-LLM-VTuber: um companheiro virtual de IA animado em Live2D para interação de voz em tempo real

Introdução geral

O Open-LLM-VTuber é um projeto de código aberto que permite que os usuários interajam com modelos de linguagem grande (LLMs) por meio de fala e texto, e incorpora a tecnologia Live2D para apresentar personagens virtuais dinâmicos. Ele é compatível com Windows, macOS e Linux, é executado totalmente off-line e tem modos de cliente da Web e de desktop. Os usuários podem usá-lo como namorada virtual, animal de estimação ou assistente de desktop, criando um companheiro de IA personalizado ao personalizar sua aparência, personalidade e voz. O projeto começou como uma réplica da âncora virtual de IA de código fechado "neuro-sama" e evoluiu para uma plataforma rica em recursos que suporta vários modelos de linguagem, reconhecimento de fala, conversão de texto em fala e percepção visual. A versão atual foi refatorada com a v1.0.0 e está em desenvolvimento ativo, com mais recursos a serem adicionados no futuro.

Open-LLM-VTuber: um companheiro virtual de IA animado em Live2D para interação de voz em tempo real-1


Open-LLM-VTuber: um companheiro virtual de IA animado em Live2D para interação de voz em tempo real-1

 

Lista de funções

  • interação por vozSuporte ao diálogo de voz sem as mãos, os usuários podem interromper a IA a qualquer momento para uma comunicação tranquila.
  • Animação Live2DAvatares dinâmicos incorporados que geram expressões e ações com base no conteúdo do diálogo.
  • Suporte a várias plataformasCompatível com Windows, macOS e Linux, suporta operação de GPU e CPU NVIDIA/não-NVIDIA.
  • operação off-lineTodas as funções podem ser executadas sem rede para garantir privacidade e segurança.
  • Modo Desktop PetFundo transparente, topo global e penetração do mouse são suportados, e os caracteres podem ser arrastados para qualquer posição na tela.
  • percepção visualInteração de vídeo com IA por meio de reconhecimento de conteúdo da câmera ou da tela.
  • Suporte a vários modelosCompatível com uma ampla variedade de LLMs, como Ollama, OpenAI, Claude, Mistral e outros módulos de fala, como sherpa-onnx e Whisper.
  • Personalização de personagensModelos Live2D podem ser importados para ajustar o caráter e a voz.
  • feedback hápticoClique ou arraste o personagem para acionar uma resposta interativa.
  • Manutenção de registros de bate-papoSuporte para alternar diálogos históricos e manter o conteúdo interativo.

 

Usando a Ajuda

Processo de instalação

O Open-LLM-VTuber precisa ser implantado localmente. Aqui estão as etapas detalhadas:

1. condições prévias

  • softwareSuporte para computadores Windows, macOS ou Linux com GPUs NVIDIA recomendadas (pode ser executado sem uma GPU).
  • hardwareInstale o Git, o Python 3.10+ e o uv (a ferramenta de gerenciamento de pacotes recomendada).
  • reticulaçãoA implementação inicial requer uma conexão com a Internet para fazer o download da dependência; recomenda-se que os usuários chineses usem aceleração de proxy.

2. download do código

  • Clone o projeto por meio do terminal:
    git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive  
    cd Open-LLM-VTuber
  • Ou baixe o arquivo ZIP mais recente da versão do GitHub e extraia-o.
  • Observação: Se não for usado --recursiveNecessário para executar git submodule update --init Obtenha o submódulo de front-end.

3. instalação de dependências

  • Instale o uv:
    • Windows (PowerShell):
      irm https://astral.sh/uv/install.ps1 | iex
      
    • macOS/Linux:
      curl -LsSf https://astral.sh/uv/install.sh | sh
      
  • Execute no diretório do projeto:
    uv sync
    

    Instala automaticamente o FastAPI, o onnxruntime e outras dependências.

4. ambiente de configuração

  • A primeira execução gera um arquivo de configuração:
    uv run run_server.py
    
  • Editar o arquivo gerado conf.yamlConfigure o seguinte:
    • LLMSelecione o modelo (por exemplo Ollama (para a API llama3 ou OpenAI, a chave precisa ser preenchida).
    • ASRMódulo de reconhecimento de fala (por exemplo, sherpa-onnx).
    • TTSMódulos de conversão de texto em fala (por exemplo, Edge TTS).
  • Exemplo:
    llm:  
    provider: ollama  
    model: llama3  
    asr:  
    provider: sherpa-onnx  
    tts:  
    provider: edge-tts
    

5. ativação de serviços

  • Em execução:
    uv run run_server.py
    
  • entrevistas http://localhost:8000 Use a versão da Web ou faça o download do cliente para desktop para executá-la.

6. cliente de desktop (opcional)

  • Download da versão do GitHub open-llm-vtuber-electron(.exe para Windows, .dmg para macOS).
  • Inicie o cliente e certifique-se de que o serviço de back-end esteja em execução para experimentar o modo desktop pet.

7. atualização e desinstalação

  • atualização: após a v1.0.0 uv run update.py Atualizações, versões anteriores precisam ser reimplantadas com a documentação mais recente.
  • desinstalação: Exclua a pasta do projeto, verifique MODELSCOPE_CACHE talvez HF_HOME arquivos de modelo, desinstalar ferramentas como o uv.

Função Fluxo de operação

interação por voz

  1. Ativar vozClique no ícone "Microfone" na página da Web ou no cliente.
  2. diálogosInterrupção: Fale diretamente e a IA responderá em tempo real; pressione o botão "Interrupt" para interromper a IA.
  3. otimização: em conf.yaml Ajuste os módulos ASR e TTS para melhorar o reconhecimento e a pronúncia.

Personalização de personagens

  1. Modelo de importaçãoColoque o arquivo .moc3 na pasta frontend/live2d_models Catálogo.
  2. Ajuste de personalidade:: Editorial conf.yaml (usado em uma expressão nominal) promptComo uma "irmã mais velha gentil".
  3. Personalização de somGravação de amostras usando ferramentas como o GPTSoVITS para gerar vozes exclusivas.

Modo Desktop Pet

  1. Modo abertoNo cliente, selecione "Desktop Pets", marque "Transparent Background" e "Top".
  2. imagem em movimentoArraste para qualquer posição na tela.
  3. interatividadeToque em um personagem para acionar o feedback tátil, ver um monólogo interno ou uma mudança de expressão.

percepção visual

  1. Ativar a câmeraClique em "Video Chat" para autorizar o acesso.
  2. reconhecimento na telaSelecione "Screen Sense" para que a IA analise o conteúdo da tela.
  3. exemplo típicoPergunte "what's on the screen" (o que está na tela) e a IA descreverá a imagem.

advertência

  • navegador (software)Chrome é recomendado; outros navegadores podem afetar a exibição do Live2D.
  • performancesAceleração da GPU: a aceleração da GPU requer drivers configurados corretamente e pode ser executada mais lentamente na CPU.
  • licençaO modelo de amostra incorporado do Live2D está sujeito a uma licença separada; para uso comercial, entre em contato com a Live2D Inc.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Open-LLM-VTuber: um companheiro virtual de IA animado em Live2D para interação de voz em tempo real
pt_BRPortuguês do Brasil