Introdução geral
O Linly-Talker é um sistema inovador de diálogo humano digital que combina modelos de linguagem ampla (LLMs) com modelos visuais para criar uma nova abordagem para a interação humano-computador. O sistema integra várias tecnologias, como Whisper, Linly, Microsoft Speech Services e SadTalker O Linly-Talker permite que os usuários carreguem imagens para o diálogo e aprimora a interatividade e o realismo por meio de um sistema de diálogo de várias rodadas. O projeto é desenvolvido pela Kedreamix e tem o código aberto no GitHub para que desenvolvedores e pesquisadores possam usá-lo e aprimorá-lo.
Lista de funções
- Sistema de Diálogo Multi-RoundSuporte ao diálogo sensível ao contexto em várias rodadas para aumentar a interatividade e o realismo.
- Diálogo de upload de imagensOs usuários podem fazer upload de imagens e dialogar com pessoas digitais.
- Síntese e reconhecimento de falaIntegração com o Microsoft TTS e o FunASR para oferecer vários tipos de fala e reconhecimento rápido de fala.
- Geração de legendas de vídeoSuporte à geração de legendas de vídeo para efeitos visuais aprimorados.
- clonagem de falaCom o modelo GPT-SoVITS, as vozes podem ser clonadas usando um minuto de dados de fala.
- Geração de personagens personalizadosSuporte à geração de funções personalizadas com vários modelos e opções.
- diálogo em tempo realIntegração com o MuseTalk para funcionalidade básica de diálogo em tempo real.
Usando a Ajuda
Processo de instalação
- projeto de clonagemExecute o seguinte comando no terminal para clonar o projeto:
git clone https://github.com/Kedreamix/Linly-Talker.git
- Instalação de dependênciasInstalação de dependências: Vá para o diretório do projeto e instale as dependências necessárias:
cd Linly-Talker
pip install -r requirements_app.txt
pip install -r requirements_webui.txt
- Ambiente de configuraçãoConfigure variáveis de ambiente e certificados conforme necessário para garantir a operação adequada do sistema.
Diretrizes para uso
- Iniciando a WebUIExecute o seguinte comando para iniciar a WebUI:
python webui.py
Abra seu navegador para acessar http://localhost:7860
Se quiser acessar a interface da Web do Linly-Talker, clique no link a seguir.
- Fazer upload de imagens para o diálogo::
- Na interface da WebUI, clique no botão "Upload Image" (Carregar imagem) e selecione o arquivo de imagem a ser carregado.
- Depois que a imagem é carregada, o sistema gera automaticamente o conteúdo do diálogo e o usuário pode interagir com a pessoa digital.
- Síntese e reconhecimento de fala::
- Digite o texto na caixa de diálogo, selecione o tipo de voz, clique no botão "Generate Voice" (Gerar voz) e o sistema sintetizará a voz e a reproduzirá.
- Os usuários também podem inserir sua voz pelo microfone e o sistema reconhecerá e gerará texto automaticamente.
- Geração de legendas de vídeo::
- Faça upload de um arquivo de vídeo, o sistema gerará automaticamente as legendas e as incorporará ao vídeo, e os usuários poderão fazer download do arquivo de vídeo com as legendas.
- clonagem de fala::
- Faça upload de uma amostra de voz da pessoa-alvo e o sistema usará o modelo GPT-SoVITS para clonagem de voz a fim de gerar uma voz semelhante à da pessoa-alvo.
- Geração de personagens personalizados::
- Na interface WebUI, selecione a opção "Personalised Persona Generation" (Geração de persona personalizada), insira as informações da persona e o sistema gerará uma persona personalizada.
- diálogo em tempo real::
- Ao selecionar o módulo MuseTalk, o sistema ativará o recurso de diálogo em tempo real, que permite que o usuário interaja com a pessoa digital em tempo real.