Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

Introdução geral

O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Szechuan) e taxa de fala ajustável e estilos de rima (por exemplo, rap). O Step-Audio implementa reconhecimento de fala, compreensão semântica, diálogo, clonagem de fala e síntese de fala por meio de um modelo multimodal de 130B parâmetros. Seu mecanismo de dados generativos elimina a dependência da coleta manual de dados TTS tradicional, gerando áudio de alta qualidade para treinar e publicar o modelo Step-Audio-TTS-3B com recursos eficientes.

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos-1


 

Lista de funções

  • Reconhecimento de fala em tempo real (ASR): converte a fala em texto e oferece suporte ao reconhecimento de alta precisão.
  • Síntese de texto para fala (TTS): converte texto em fala natural, suportando uma ampla gama de emoções e entonações.
  • Suporte a vários idiomas: lida com idiomas como chinês, inglês, japonês e dialetos como cantonês e sichuan.
  • Controle de emoção e entonação: ajuste da emoção de saída da fala (por exemplo, feliz, triste) e do estilo de rima (por exemplo, RAP, cantarolar).
  • Clonagem de voz: gere uma voz semelhante com base na voz de entrada, ofereça suporte ao design de voz personalizado.
  • Gerenciamento de diálogo: mantenha a continuidade do diálogo e aprimore a experiência do usuário com o Context Manager.
  • Cadeia de ferramentas de código aberto: fornece código completo e pesos de modelos que os desenvolvedores podem usar diretamente ou desenvolver duas vezes.

 

Usando a Ajuda

O Step-Audio é uma poderosa estrutura de interação de voz multimodal de código aberto para que os desenvolvedores criem aplicativos de voz em tempo real. A seguir, apresentamos um guia passo a passo detalhado para instalar e usar o Step-Audio, bem como seus recursos, para garantir que você possa começar a usá-lo com facilidade e aproveitar todo o seu potencial.

Processo de instalação

Para usar o Step-Audio, é necessário instalar o software em um ambiente com uma GPU NVIDIA. Abaixo estão as etapas detalhadas:

  1. Preparação ambiental::
    • Certifique-se de que você tenha o Python 3.10 instalado em seu sistema.
    • Instale o Anaconda ou o Miniconda para gerenciar o ambiente virtual.
    • Verifique se o driver da GPU NVIDIA e o suporte CUDA estão instalados. Recomenda-se 4xA800/H800 GPUs (80 GB de RAM) para obter a melhor qualidade de geração.
  2. armazém de clones::
    • Abra um terminal e execute o seguinte comando para clonar o repositório Step-Audio:
      git clone https://github.com/stepfun-ai/Step-Audio.git
      cd Step-Audio
      
  3. Criação de um ambiente virtual::
    • Crie e ative um ambiente virtual Python:
      conda create -n stepaudio python=3.10
      conda activate stepaudio
      
  4. Instalação de dependências::
    • Instale as bibliotecas e ferramentas necessárias:
      pip install -r requirements.txt
      git lfs install
      
    • Clonagem de pesos adicionais do modelo:
      git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
      git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat
      git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
      
  5. Verificar a instalação::
    • Executar um script de teste simples (como no código de exemplo) run_example.py) para garantir que todos os componentes estejam funcionando corretamente.

Quando a instalação estiver concluída, você poderá começar a usar os vários recursos do Step-Audio. A seguir, há instruções detalhadas para operar as funções principais e as funções em destaque.

Funções principais

1. reconhecimento de fala em tempo real (ASR)

O recurso de reconhecimento de voz do Step-Audio converte a entrada de voz do usuário em texto, tornando-o adequado para a criação de assistentes de voz ou sistemas de transcrição em tempo real.

  • procedimento::
    • Certifique-se de que o microfone esteja conectado e configurado.
    • Use o stream_audio.py Script para iniciar a transmissão de áudio ao vivo:
      python stream_audio.py --model Step-Audio-Chat
      
    • Quando você fala, o sistema converte a fala em texto em tempo real e exibe o resultado no terminal. É possível verificar o registro para confirmar a precisão do reconhecimento.
  • Funções em destaqueReconhecimento de vários idiomas e dialetos, como entrada mista de chinês e inglês, ou fala localizada, como cantonês e sichuanês.

2. síntese de texto para fala (TTS)

Com o recurso TTS, você pode converter qualquer texto em fala natural, com suporte a uma ampla gama de emoções, velocidades de fala e estilos.

  • procedimento::
    • Prepare o texto a ser sintetizado, por exemplo, salve como input.txt.
    • fazer uso de text_to_speech.py Scripts para gerar fala:
      python text_to_speech.py --model Step-Audio-TTS-3B --input input.txt --output output.wav --emotion happy --speed 1.0
      
    • Descrição do parâmetro:
      • --emoçãoEmoção: Defina a emoção (por exemplo, feliz, triste, neutra).
      • -velocidadeVelocidade da fala: ajuste a velocidade da fala (0,5 para lenta, 1,0 para normal, 2,0 para rápida).
      • --outputEspecifica o caminho do arquivo de áudio de saída.
  • Funções em destaqueSuporte à geração de estilos de fala RAP e cantarolando, por exemplo:

python text_to_speech.py --model Step-Audio-TTS-3B --input rap_lyrics.txt --style rap --output rap_output.wav

Isso gera um trecho de áudio com uma batida RAP, perfeito para aplicativos de música ou entretenimento.
##### 3. Controle de emoções e de vários idiomas
O Step-Audio é compatível com vários idiomas e controle de emoções, adequado para o desenvolvimento de aplicativos internacionalizados.
- Etapas de operação**:
- Selecione o idioma e a emoção de destino, por exemplo, gere uma voz de tom triste em japonês:

python generate_speech.py --language japanese --emotion sad --text "私は悲しいです" --output sad_jp.wav

- Suporte a dialeto: se a saída em cantonês for necessária, ela poderá ser especificada:

python generate_speech.py --dialect cantonese --text "I'm so hung up on you" --output cantonese.wav

- Funções em destaque**: troca perfeita de idiomas e dialetos por meio de comandos, adequado para a criação de sistemas de interação de voz multiculturais.
#### 4. clonagem de voz
O Voice Clone permite que os usuários carreguem uma amostra de voz para gerar uma voz semelhante, adequada para o design de voz personalizado.
- Etapas da operação**:
- Prepare uma amostra de áudio (por exemplo, `sample.wav`) e certifique-se de que o áudio esteja nítido.
- Use o `voice_clone.py` para clonagem:

python voice_clone.py --input sample.wav --output cloned_voice.wav --model Step-Audio-Chat

- O `cloned_voice.wav` gerado imitará o tom e o estilo da amostra de entrada.
- Funções em destaque** : Oferece suporte à clonagem de alta fidelidade para âncoras virtuais ou assistentes de voz personalizados.
####5T 5. gerenciamento de diálogo e manutenção de contexto
O Step-Audio tem um gerenciador de contexto integrado para garantir a continuidade e a lógica do diálogo.
- Etapas de operação**:
- Inicie o sistema de diálogo:

python chat_system.py --model Step-Audio-Chat

  • Insira texto ou fala e o sistema gera uma resposta com base no contexto. Exemplo:
  • Usuário: "Como está o tempo hoje?"
  • SISTEMA: "Por favor, diga-me sua localização e eu verificarei".
  • Usuário: "Estou em Pequim".
  • SISTEMA: "Pequim está ensolarada hoje, com uma temperatura de 15°C."
  • Funções em destaqueSuporte a várias rodadas de diálogo, mantém informações contextuais e é adequado para bots de atendimento ao cliente ou assistentes inteligentes.

advertência

  • Requisitos de hardwareMemória: Certifique-se de que a GPU tenha memória suficiente; recomenda-se 80 GB ou mais para obter o desempenho ideal.
  • conexão de redeAlguns dos pesos do modelo precisam ser baixados do Hugging Face para garantir uma rede estável.
  • detecção de errosSe você encontrar erros de instalação ou de tempo de execução, verifique os arquivos de registro ou consulte a página de problemas do GitHub para obter ajuda.

Seguindo essas etapas, você pode aproveitar ao máximo o poder do Step-Audio, quer esteja desenvolvendo aplicativos de fala em tempo real, criando conteúdo de fala personalizado ou construindo um sistema de diálogo multilíngue. A natureza de código aberto do Step-Audio também permite modificar o código e otimizar o modelo conforme necessário para atender às necessidades específicas do seu projeto.

Download de ferramentas
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil