Introdução geral
O MLX-Audio é uma ferramenta de código aberto desenvolvida com base na estrutura MLX da Apple, com foco nos recursos de conversão de texto em fala (TTS) e de fala em fala (STS). Ela aproveita o poder de computação do Apple Silicon, como os chips da série M, para fornecer soluções de síntese de fala rápidas e eficientes. Seja para converter texto em fala natural e suave ou para gerar um novo áudio com base na fala existente, o MLX-Audio pode fazer tudo isso. Desenvolvida pelo usuário do GitHub Blaizzy (Prince Canuma), a ferramenta tem como objetivo fornecer aos desenvolvedores, pesquisadores e usuários individuais uma opção de geração de fala de alto desempenho executada no macOS. Como um projeto de código aberto, os usuários podem baixar, modificar e contribuir com o código, o que o torna ideal para cenários de aplicativos que exigem processamento de fala localizado.
Lista de funções
- Conversão de texto em fala (TTS)Transforma rapidamente o texto de entrada em fala natural, suportando uma ampla gama de opções de modelos.
- Fala para fala (STS)Geração de novo conteúdo de áudio com base em amostras de fala existentes.
- Raciocínio eficienteOtimizado para o Apple Silicon, proporcionando um desempenho rápido de geração de fala.
- Suporte a vários modelosSuporte a uma variedade de modelos de síntese de fala pré-treinados para atender a diferentes necessidades.
- Personalização de código abertoCódigo-fonte: O código-fonte completo é fornecido e os usuários podem ajustar a funcionalidade ou otimizar o modelo de acordo com suas necessidades.
- operação localNão há necessidade de depender da nuvem, todas as operações podem ser feitas em dispositivos pessoais para proteger a privacidade.
Usando a Ajuda
Processo de instalação
O MLX-Audio é uma ferramenta baseada em Python com um processo de instalação simples que se baseia no código dos repositórios do GitHub e em algumas bibliotecas Python necessárias. Veja a seguir as etapas detalhadas de instalação:
- Garantir a prontidão ambiental
- Requisitos do sistema: macOS (recomendado para dispositivos com chips da série M, como M1, M2, etc.).
- Instale o Python 3.8 ou posterior (recomenda-se o Homebrew):
brew install python
). - Instale o Git (para clonar repositórios):
brew install git
.
- Clone MLX-Audio Warehouse
Abra um terminal e digite o seguinte comando para fazer o download do código-fonte:git clone https://github.com/Blaizzy/mlx-audio.git
Quando o download estiver concluído, vá para o diretório do projeto:
cd mlx-audio
- Instalação de dependências
Os projetos geralmente fornecem umrequisitos.txt
que lista as bibliotecas Python necessárias. Execute o seguinte comando para instalá-las:pip install -r requirements.txt
Se você não tiver esse arquivo, consulte o LEIAME oficial; as dependências comuns podem incluir
mlx
(estrutura de aprendizado de máquina da Apple) e bibliotecas de processamento de áudio, comonumérico
talvezarquivo de som
. - Verificar a instalação
Quando a instalação estiver concluída, execute um comando de teste simples para verificar se o ambiente está configurado corretamente:python -m mlx_audio.tts.generate --text "Hello, world" (Olá, mundo)
Se for bem-sucedido, você ouvirá a fala gerada ou um arquivo de áudio será gerado no diretório atual.
Como usar o MLX-Audio
O MLX-Audio oferece duas maneiras de usar a interface de linha de comando (CLI) e o script Python, e a seguir há uma descrição detalhada do fluxo de operação das principais funções.
Conversão de texto em fala (TTS)
Essa é a função principal do MLX-Audio para converter texto em fala.
- procedimento::
- Texto preparadoTexto: Decida qual texto você deseja converter, por exemplo, "Hello, welcome to the MLX-Audio experience" (Olá, bem-vindo à experiência MLX-Audio).
- Executar comandoDigite-o no terminal:
python -m mlx_audio.tts.generate --text "Hello, welcome to the MLX-Audio experience" --output "welcome.wav"
-texto
Texto de entrada: Especifica o texto de entrada.--output
Especifique o nome do arquivo de áudio de saída (opcional; por padrão, o arquivo será gerado no diretório atual).
- Resultados da inspeçãoDepois que o comando é executado, o arquivo de áudio gerado (por exemplo
welcome.wav
) será salvo no diretório atual e aberto com o player para ouvir a voz.
- Opções avançadas::
- Especifique o modelo: se houver suporte a vários modelos, eles poderão ser especificados por meio da opção
---modelo
Seleção de parâmetros, por exemplo:python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
- Ajustar a velocidade ou o tom da fala: dependendo do LEIAME ou da descrição do código, pode haver suporte para parâmetros adicionais (por exemplo
-velocidade
talvez-pitch
), dependendo da realização.
- Especifique o modelo: se houver suporte a vários modelos, eles poderão ser especificados por meio da opção
Fala para fala (STS)
Esse recurso permite que os usuários gerem novo conteúdo de voz com base no áudio existente.
- procedimento::
- Preparando o áudio de entradaVerifique se você tem um arquivo de áudio no formato WAV (por exemplo
input.wav
), que pode ser gravado em um telefone celular ou obtido de outras fontes. - Executar comandoDigite o seguinte comando:
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
-entrada
Especifica o caminho do arquivo de áudio de entrada.--output
Especifica o caminho do arquivo de saída.
- Resultados da inspeçãoO novo áudio gerado é salvo como
output.wav
Se você não estiver usando o player, poderá verificar o efeito com o player.
- Preparando o áudio de entradaVerifique se você tem um arquivo de áudio no formato WAV (por exemplo
- advertência::
- A qualidade do áudio de entrada afeta a saída e recomenda-se uma gravação nítida.
- Se você precisar personalizar o conteúdo gerado, talvez sejam necessários parâmetros adicionais; consulte a documentação do projeto.
Desenvolvimento personalizado
Como o MLX-Audio é um projeto de código aberto, os usuários podem modificar o código para obter mais funções.
- mover::
- Abra a pasta do projeto e use um editor de texto (por exemplo, VS Code) para exibir o arquivo
mlx_audio
Arquivos Python no diretório. - Modifique o código conforme necessário, por exemplo, adicione suporte a novos modelos de fala ou ajuste a lógica de geração.
- Salve e execute o teste:
python seu_script.py
- Abra a pasta do projeto e use um editor de texto (por exemplo, VS Code) para exibir o arquivo
Detalhes do processo de operação funcional
Geração rápida de fala
- tomarSe você quiser testar rapidamente o efeito da ferramenta.
- fluxos de trabalho::
- Abra um terminal e vá para
mlx-audio
Catálogo. - Digite um comando TTS simples:
python -m mlx_audio.tts.generate --text "Testar geração de voz"
- Aguarde alguns segundos (dependendo do tamanho do texto e do desempenho do dispositivo) e o arquivo de áudio será gerado automaticamente.
- Abra um terminal e vá para
- no finalGerar um arquivo de áudio com o nome padrão (por exemplo, um arquivo de áudio com o nome de um arquivo de áudio).
output.wav
), basta reproduzi-lo diretamente.
Manuseio de textos longos
- tomar: Preciso converter um artigo em discurso.
- fluxos de trabalho::
- Salve o texto como um arquivo (por exemplo
text.txt
), o conteúdo pode ter vários parágrafos. - Use o comando para ler o arquivo:
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
--Arquivo
Especifique o caminho do arquivo de texto (verifique se o projeto suporta esse parâmetro; caso contrário, use o script Python para ler o arquivo e chamá-lo).
- Verificar os dados gerados
artigo.wav
A voz deve ser natural e fluente.
- Salve o texto como um arquivo (por exemplo
Geração de lotes
- tomarNecessidade de gerar fala para vários textos.
- fluxos de trabalho::
- Escreva um script Python simples (por exemplo
batch_generate.py
):from mlx_audio.tts import generate texts = ["text 1", "text 2", "text 3"] for i, text in enumerate(texts):: generate(text=text, output=text, output=text) generate(text=text, output=f "output_{i}.wav")
- Execute o script:
python batch_generate.py
- Verifique se foram gerados vários arquivos de áudio.
- Escreva um script Python simples (por exemplo
dica
- otimização do desempenhoQuando estiver executando em dispositivos de silício M-Series, certifique-se de que nenhuma outra tarefa de alta carga esteja ocupando recursos para obter a velocidade ideal.
- Problemas de depuraçãoSe você encontrar um erro (por exemplo, uma dependência ausente), verifique a saída do terminal e siga as instruções para instalar a biblioteca ausente.
- Suporte à comunidadeSe a funcionalidade não estiver clara, envie um problema para o GitHub ou dê uma olhada na discussão existente.
Com essas etapas, os usuários podem começar a usar o MLX-Audio com facilidade, seja para gerar fala simples ou desenvolver aplicativos complexos.