Introdução geral
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Szechuan) e taxa de fala ajustável e estilos de rima (por exemplo, rap). O Step-Audio implementa reconhecimento de fala, compreensão semântica, diálogo, clonagem de fala e síntese de fala por meio de um modelo multimodal de 130B parâmetros. Seu mecanismo de dados generativos elimina a dependência da coleta manual de dados TTS tradicional, gerando áudio de alta qualidade para treinar e publicar o modelo Step-Audio-TTS-3B com recursos eficientes.
Lista de funções
- Reconhecimento de fala em tempo real (ASR): converte a fala em texto e oferece suporte ao reconhecimento de alta precisão.
- Síntese de texto para fala (TTS): converte texto em fala natural, suportando uma ampla gama de emoções e entonações.
- Suporte a vários idiomas: lida com idiomas como chinês, inglês, japonês e dialetos como cantonês e sichuan.
- Controle de emoção e entonação: ajuste da emoção de saída da fala (por exemplo, feliz, triste) e do estilo de rima (por exemplo, RAP, cantarolar).
- Clonagem de voz: gere uma voz semelhante com base na voz de entrada, ofereça suporte ao design de voz personalizado.
- Gerenciamento de diálogo: mantenha a continuidade do diálogo e aprimore a experiência do usuário com o Context Manager.
- Cadeia de ferramentas de código aberto: fornece código completo e pesos de modelos que os desenvolvedores podem usar diretamente ou desenvolver duas vezes.
Usando a Ajuda
O Step-Audio é uma poderosa estrutura de interação de voz multimodal de código aberto para que os desenvolvedores criem aplicativos de voz em tempo real. A seguir, apresentamos um guia passo a passo detalhado para instalar e usar o Step-Audio, bem como seus recursos, para garantir que você possa começar a usá-lo com facilidade e aproveitar todo o seu potencial.
Processo de instalação
Para usar o Step-Audio, é necessário instalar o software em um ambiente com uma GPU NVIDIA. Abaixo estão as etapas detalhadas:
- Preparação ambiental::
- Certifique-se de que você tenha o Python 3.10 instalado em seu sistema.
- Instale o Anaconda ou o Miniconda para gerenciar o ambiente virtual.
- Verifique se o driver da GPU NVIDIA e o suporte CUDA estão instalados. Recomenda-se 4xA800/H800 GPUs (80 GB de RAM) para obter a melhor qualidade de geração.
- armazém de clones::
- Abra um terminal e execute o seguinte comando para clonar o repositório Step-Audio:
git clone https://github.com/stepfun-ai/Step-Audio.git cd Step-Audio
- Abra um terminal e execute o seguinte comando para clonar o repositório Step-Audio:
- Criação de um ambiente virtual::
- Crie e ative um ambiente virtual Python:
conda create -n stepaudio python=3.10 conda activate stepaudio
- Crie e ative um ambiente virtual Python:
- Instalação de dependências::
- Instale as bibliotecas e ferramentas necessárias:
pip install -r requirements.txt git lfs install
- Clonagem de pesos adicionais do modelo:
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
- Instale as bibliotecas e ferramentas necessárias:
- Verificar a instalação::
- Executar um script de teste simples (como no código de exemplo)
run_example.py
) para garantir que todos os componentes estejam funcionando corretamente.
- Executar um script de teste simples (como no código de exemplo)
Quando a instalação estiver concluída, você poderá começar a usar os vários recursos do Step-Audio. A seguir, há instruções detalhadas para operar as funções principais e as funções em destaque.
Funções principais
1. reconhecimento de fala em tempo real (ASR)
O recurso de reconhecimento de voz do Step-Audio converte a entrada de voz do usuário em texto, tornando-o adequado para a criação de assistentes de voz ou sistemas de transcrição em tempo real.
- procedimento::
- Certifique-se de que o microfone esteja conectado e configurado.
- Use o
stream_audio.py
Script para iniciar a transmissão de áudio ao vivo:python stream_audio.py --model Step-Audio-Chat
- Quando você fala, o sistema converte a fala em texto em tempo real e exibe o resultado no terminal. É possível verificar o registro para confirmar a precisão do reconhecimento.
- Funções em destaqueReconhecimento de vários idiomas e dialetos, como entrada mista de chinês e inglês, ou fala localizada, como cantonês e sichuanês.
2. síntese de texto para fala (TTS)
Com o recurso TTS, você pode converter qualquer texto em fala natural, com suporte a uma ampla gama de emoções, velocidades de fala e estilos.
- procedimento::
- Prepare o texto a ser sintetizado, por exemplo, salve como
input.txt
. - fazer uso de
text_to_speech.py
Scripts para gerar fala:python text_to_speech.py --model Step-Audio-TTS-3B --input input.txt --output output.wav --emotion happy --speed 1.0
- Descrição do parâmetro:
--emoção
Emoção: Defina a emoção (por exemplo, feliz, triste, neutra).-velocidade
Velocidade da fala: ajuste a velocidade da fala (0,5 para lenta, 1,0 para normal, 2,0 para rápida).--output
Especifica o caminho do arquivo de áudio de saída.
- Prepare o texto a ser sintetizado, por exemplo, salve como
- Funções em destaqueSuporte à geração de estilos de fala RAP e cantarolando, por exemplo:
python text_to_speech.py --model Step-Audio-TTS-3B --input rap_lyrics.txt --style rap --output rap_output.wav
Isso gera um trecho de áudio com uma batida RAP, perfeito para aplicativos de música ou entretenimento.
##### 3. Controle de emoções e de vários idiomas
O Step-Audio é compatível com vários idiomas e controle de emoções, adequado para o desenvolvimento de aplicativos internacionalizados.
- Etapas de operação**:
- Selecione o idioma e a emoção de destino, por exemplo, gere uma voz de tom triste em japonês:
python generate_speech.py --language japanese --emotion sad --text "私は悲しいです" --output sad_jp.wav
- Suporte a dialeto: se a saída em cantonês for necessária, ela poderá ser especificada:
python generate_speech.py --dialect cantonese --text "I'm so hung up on you" --output cantonese.wav
- Funções em destaque**: troca perfeita de idiomas e dialetos por meio de comandos, adequado para a criação de sistemas de interação de voz multiculturais.
#### 4. clonagem de voz
O Voice Clone permite que os usuários carreguem uma amostra de voz para gerar uma voz semelhante, adequada para o design de voz personalizado.
- Etapas da operação**:
- Prepare uma amostra de áudio (por exemplo, `sample.wav`) e certifique-se de que o áudio esteja nítido.
- Use o `voice_clone.py` para clonagem:
python voice_clone.py --input sample.wav --output cloned_voice.wav --model Step-Audio-Chat
- O `cloned_voice.wav` gerado imitará o tom e o estilo da amostra de entrada.
- Funções em destaque** : Oferece suporte à clonagem de alta fidelidade para âncoras virtuais ou assistentes de voz personalizados.
####5T 5. gerenciamento de diálogo e manutenção de contexto
O Step-Audio tem um gerenciador de contexto integrado para garantir a continuidade e a lógica do diálogo.
- Etapas de operação**:
- Inicie o sistema de diálogo:
python chat_system.py --model Step-Audio-Chat
- Insira texto ou fala e o sistema gera uma resposta com base no contexto. Exemplo:
- Usuário: "Como está o tempo hoje?"
- SISTEMA: "Por favor, diga-me sua localização e eu verificarei".
- Usuário: "Estou em Pequim".
- SISTEMA: "Pequim está ensolarada hoje, com uma temperatura de 15°C."
- Funções em destaqueSuporte a várias rodadas de diálogo, mantém informações contextuais e é adequado para bots de atendimento ao cliente ou assistentes inteligentes.
advertência
- Requisitos de hardwareMemória: Certifique-se de que a GPU tenha memória suficiente; recomenda-se 80 GB ou mais para obter o desempenho ideal.
- conexão de redeAlguns dos pesos do modelo precisam ser baixados do Hugging Face para garantir uma rede estável.
- detecção de errosSe você encontrar erros de instalação ou de tempo de execução, verifique os arquivos de registro ou consulte a página de problemas do GitHub para obter ajuda.
Seguindo essas etapas, você pode aproveitar ao máximo o poder do Step-Audio, quer esteja desenvolvendo aplicativos de fala em tempo real, criando conteúdo de fala personalizado ou construindo um sistema de diálogo multilíngue. A natureza de código aberto do Step-Audio também permite modificar o código e otimizar o modelo conforme necessário para atender às necessidades específicas do seu projeto.