Aprendizagem pessoal com IA
e orientação prática

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Introdução geral

Projeto derivado do Fish Speech O Fish Agent é um revolucionário sistema de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um projeto inovador de arquitetura sem tags semânticas, o que elimina a necessidade de depender de codificadores/decodificadores semânticos tradicionais, como o Whisper, e permite a conversão direta de fala para fala. Com latência ultrabaixa (tão baixa quanto 150 ms), o sistema é capaz de capturar e gerar com precisão informações de áudio ambiente para obter efeitos de clonagem de fala quase em tempo real. O Fish Agent permite o download de modelos pré-treinados e suporta treinamento de implantação local e invocação de serviços em nuvem, oferecendo aos desenvolvedores e usuários um plano de uso flexível. Com funções integradas de reconhecimento e síntese de fala e um sistema preciso de controle de tom, o Fish Agent é capaz de criar uma experiência de interação de voz natural e suave.

Arquitetura de ponta a ponta, clonagem de som de amostra zero, modelo compacto com 3 bilhões de parâmetros, suporte para multilinguismo e resposta rápida. Os dados de treinamento incluem 700.000 horas de áudio multilíngue. Baseado no pré-treinamento contínuo do Qwen-2.5-3B-Instruct. O modelo, denominado Fish Agent versão 3B, integra automaticamente os componentes ASR e TTS, eliminando a necessidade de modelos externos e permitindo um verdadeiro processamento de ponta a ponta, diferenciando-o do processo tradicional de três estágios (ASR + LLM + TTS).

Fish Agent: experimente o assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real (inglês)-1

Experiência: https://huggingface.co/spaces/fishaudio/fish-agent

 

Lista de funções

  • Clonagem de voz de latência ultrabaixa: tempo de resposta de 150 ms, suporta conversão de voz em tempo real
  • Arquitetura de marcação semântica livre: uma solução inovadora de processamento de fala de ponta a ponta
  • Controle preciso do tom: ajuste preciso do tom por meio de áudio de referência
  • Processamento de áudio ambiente: reprodução de alta fidelidade de informações sonoras ambientais
  • Modelos pré-treinados abertos: suporte para implantação e treinamento localizados
  • API do serviço de nuvem: forneça chamadas de interface de nuvem convenientes
  • Treinamento personalizado: oferece suporte ao treinamento personalizado de modelos de som

 

Usando a Ajuda

1. requisitos do sistema

  • Python 3.8 ou superior
  • GPU NVIDIA (recomendado)
  • 8 GB ou mais de memória do sistema
  • Suporte a CUDA (recomendado)

2. etapas de instalação

  1. Preparação ambiental
# Criar ambiente virtual
python -m venv fish-agent-env
source fish-agent-env/bin/activate # Linux/Mac
# ou
fish-agent-env\Scripts\activate # Windows
  1. Instalação do Fish Agent
# Instalação direta
pip install fish-agent
# ou a partir da fonte
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. fluxo de uso

3.1 Uso de serviços on-line

Agora você pode experimentar nossa demonstração do SmartBody on-line seguindo a documentação para o bate-papo em inglês ao vivo, bem como para o bate-papo local em inglês e chinês.


A demonstração é uma versão inicial de teste alfa, a velocidade de inferência precisa ser otimizada e há muitos bugs a serem corrigidos. Se você encontrar um bug ou quiser corrigi-lo, ficaremos felizes em receber perguntas ou solicitações de pull.

https://fish.audio/zh-CN/demo/live/

 

3.2 Implementação local

  1. ativação do serviço
from fish_agent import VoiceAgent
# Inicializar o Fish Agent
agent = VoiceAgent()
# Iniciar o serviço local
agent.start_server(port=7860)
  1. Exemplo de clonagem de discurso
# Carregar áudio de referência
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# Gerar voz clonada
text = "Esta é uma voz de teste"
output_path = "output.wav"
agent.generate_speech(text, output_path)
  1. Configurações de conversão em tempo real
# Iniciar conversão de voz em tempo real
agent.start_realtime_conversion(
input_device=0, ID do dispositivo de entrada do #
output_device=1, ID do dispositivo de saída do #
reference_audio="path/to/reference.wav"
)

4. configuração avançada de recursos

4.1 Ajuste do parâmetro de tom

  • Parâmetros de controle de tom:
    • Inclinação: -12 a 12
    • Velocidade da fala: 0,5 a 2,0
    • Emotion_intensity: 0 a 1,0

4.2 Processamento em lote

# Processamento de texto em lote
texts = ["text1", "text2", "text3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 Chamadas de API

Exemplo de chamada à API do #
importar solicitações
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "Texto a ser convertido", "reference_audio": "arquivo de áudio codificado em base64
"reference_audio": "arquivo de áudio codificado em base64"
}
response = requests.post(url, json=payload)

5 Precauções de uso

  • A qualidade do áudio de referência tem um impacto significativo nos resultados da clonagem, e é recomendável usar gravações nítidas sem ruído de fundo
  • Recomenda-se que um único processamento de texto seja limitado a 200 palavras ou menos.
  • A conversão em tempo real requer um bom microfone para obter melhores resultados
  • O uso comercial requer autorização específica
  • Recomenda-se atualizar o modelo regularmente para obter o desempenho ideal

6. resolução de problemas comuns

  1. Problemas de saída de áudio
    • Verificação das configurações do dispositivo de saída de áudio
    • Verificar a configuração do volume do sistema
    • Confirmar o suporte ao formato de áudio
  2. otimização do desempenho
    • Verifique se a GPU está ativada corretamente
    • Ajuste dos parâmetros do lote
    • Limpeza regular do cache
  3. Relacionado à instalação
    • Verificando a compatibilidade da versão do Python
    • Confirmar a configuração do ambiente CUDA
    • Considere um ambiente conda
  4. Uso da API
    • Verificar o status da conexão de rede
    • Confirmação da configuração de permissão da API
    • Verificar a resposta do servidor
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil