Aprendizagem pessoal com IA
e orientação prática

Hibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz original

Este artigo foi atualizado em 2025-02-10 23:02, parte do conteúdo é sensível ao tempo, se for inválido, por favor, deixe uma mensagem!

Introdução geral

O Hibiki é um modelo de tradução de fala em tempo real de alta fidelidade desenvolvido pela Kyutai Labs. Diferentemente dos tradutores off-line tradicionais, o Hibiki gera traduções de fala naturais no idioma de destino e fornece tradução de texto em tempo real à medida que o usuário fala. O modelo emprega uma arquitetura de vários fluxos que processa simultaneamente o fluxo de fala de entrada e gera a fala de destino, garantindo traduções coerentes e precisas. O Hibiki alinha a fala e o texto de origem e de destino por meio de treinamento supervisionado e utiliza técnicas de geração de dados sintéticos para garantir traduções de alta qualidade com dados limitados do mundo real.

O Hibiki se baseia no treinamento supervisionado da fala e do texto de origem e destino alinhados do mesmo locutor. Devido à quantidade insuficiente de tais dados, contamos com a geração de dados sintéticos. A correspondência em nível de palavra entre as transcrições de origem e de destino é realizada por meio de uma abordagem fracamente supervisionada de alinhamento contextual usando o sistema de tradução automática MADLAD pronto para uso. As regras de alinhamento derivadas (uma palavra aparece no idioma de destino somente quando pode ser prevista no idioma de origem) são aplicadas inserindo silêncio ou sintetizando o discurso de destino usando TTS controlado por voz e com reconhecimento de alinhamento.

Hibiki: um modelo de tradução de fala em tempo real para tradução de streaming de alta fidelidade que preserva as características da voz original-1

 

Lista de funções

  • tradução de fala em tempo realTradução de fala natural: gere uma tradução de fala natural do idioma de destino em tempo real enquanto o usuário estiver falando.
  • tradução de textosTradução de texto sincronizada com a fala: fornece tradução de texto sincronizada com a fala.
  • arquitetura multistream (computação)Processamento simultâneo do fluxo de fala de entrada e geração da fala de destino para garantir uma tradução coerente e precisa.
  • alta fidelidadeGarantir a alta qualidade das traduções por meio de treinamento supervisionado e técnicas de geração de dados sintéticos.
  • transferência fonéticaFunção de transferência de voz opcional para uma voz de tradução mais natural.

 

Usando a Ajuda

Processo de instalação

PyTorch

  1. montagem moshi Pacote:
    pip install -U moshi
    
  2. Faça o download do arquivo de exemplo:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Execute a tradução:
    python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
    
    • Parâmetros opcionais --cfg-coef O valor padrão é 1. Quanto maior o valor, mais próxima a fala gerada está da fala original, e o valor recomendado é 3.

MLX

  1. montagem moshi_mlx (requer pelo menos a versão 0.2.1):
    pip install -U moshi_mlx
    
  2. Faça o download do arquivo de exemplo:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Execute a tradução:
    python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
    
    • Parâmetros opcionais --cfg-coef O valor padrão é 1. Quanto maior o valor, mais próxima a fala gerada está da fala original, e o valor recomendado é 3.

MLX-Swift

  • kyutai-labs/moshi-swift O repositório contém uma implementação do MLX-Swift que é executada no iPhone e foi testada no iPhone 16 Pro. Observe que esse código ainda está em fase experimental.

Ferrugem

  1. entrar em hibiki-rs Catálogo:
    cd hibiki-rs
    
  2. Faça o download do arquivo de exemplo:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. Execute a tradução:
    cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
    
    • fazer uso de --características cuda Executado em uma GPU NVIDIA ou usando o --características do metal Funciona em um Mac.

modelagem

Lançamos dois modelos de tradução do francês para o inglês:

  • Hibiki 2BPara PyTorch e MLX com 16 fluxos de RVQ.
  • Hibiki 1BPara PyTorch e MLX, com 8 fluxos de RVQ, ideal para raciocínio no lado do dispositivo.

Lista de modelos:

  • Hibiki 2B para PyTorch (bf16):kyutai/hibiki-2b-pytorch-bf16
  • Hibiki 1B para PyTorch (bf16):kyutai/hibiki-1b-pytorch-bf16
  • Hibiki 2B para MLX (bf16):kyutai/hibiki-2b-mlx-bf16
  • Hibiki 1B para MLX (bf16):kyutai/hibiki-1b-mlx-bf16

Todos os modelos são liberados sob a licença CC-BY 4.0.

Processo de uso

  1. modelo de priming: Inicie o modelo seguindo o processo de instalação.
  2. Voz de entradaFala no idioma de origem por meio do microfone.
  3. tradução em tempo realHibiki: O Hibiki gera uma tradução de fala em tempo real no idioma de destino e exibe a tradução de texto simultaneamente.
  4. Ajuste das configuraçõesAjuste as configurações, como a transferência de voz, conforme necessário para obter uma tradução mais natural.

Funções principais

  • tradução de fala em tempo realDepois de iniciar o modelo, digite sua voz diretamente no microfone e o Hibiki a traduzirá automaticamente.
  • tradução de textosO Hibiki gera uma tradução de texto ao mesmo tempo que a tradução de voz, que é exibida na interface.
  • transferência fonéticaAtivar a função de transferência de voz nas configurações para tornar a voz traduzida mais alinhada com a pronúncia natural do idioma de destino.

Procedimento de operação detalhado

  1. modelo de primingInicie o modelo após o processo de instalação para garantir que todas as dependências tenham sido instaladas corretamente.
  2. Voz de entradaDigite sua voz no idioma de origem pelo microfone e o Hibiki começará a traduzir automaticamente.
  3. Ver resultados da traduçãoTradução de texto e fala gerados em tempo real no idioma de destino na interface.
  4. Ajuste das configuraçõesAjuste recursos como a transferência de voz nas configurações, conforme necessário, para otimizar a tradução.

CDN
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Hibiki: um modelo de tradução de fala em tempo real, tradução de fluxo contínuo que preserva as características da voz original

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil