MLX-Audio: uma ferramenta de conversão de texto em fala baseada na estrutura MLX da Apple

Recursos mais recentes de IAPublicado há 7 meses Círculo de compartilhamento de IA

24.4K 00

Introdução geral

O MLX-Audio é uma ferramenta de código aberto desenvolvida com base na estrutura MLX da Apple, com foco nos recursos de conversão de texto em fala (TTS) e de fala em fala (STS). Ela aproveita o poder de computação do Apple Silicon, como os chips da série M, para fornecer soluções de síntese de fala rápidas e eficientes. Seja para converter texto em fala natural e suave ou para gerar um novo áudio com base na fala existente, o MLX-Audio pode fazer tudo isso. Desenvolvida pelo usuário do GitHub Blaizzy (Prince Canuma), a ferramenta tem como objetivo fornecer aos desenvolvedores, pesquisadores e usuários individuais uma opção de geração de fala de alto desempenho executada no macOS. Como um projeto de código aberto, os usuários podem baixar, modificar e contribuir com o código, o que o torna ideal para cenários de aplicativos que exigem processamento de fala localizado.

Lista de funções

Conversão de texto em fala (TTS)Transforma rapidamente o texto de entrada em fala natural, suportando uma ampla gama de opções de modelos.
Fala para fala (STS)Geração de novo conteúdo de áudio com base em amostras de fala existentes.
Raciocínio eficienteOtimizado para o Apple Silicon, proporcionando um desempenho rápido de geração de fala.
Suporte a vários modelosSuporte a uma variedade de modelos de síntese de fala pré-treinados para atender a diferentes necessidades.
Personalização de código abertoCódigo-fonte: O código-fonte completo é fornecido e os usuários podem ajustar a funcionalidade ou otimizar o modelo de acordo com suas necessidades.
operação localNão há necessidade de depender da nuvem, todas as operações podem ser feitas em dispositivos pessoais para proteger a privacidade.

Usando a Ajuda

Processo de instalação

O MLX-Audio é uma ferramenta baseada em Python com um processo de instalação simples que se baseia no código dos repositórios do GitHub e em algumas bibliotecas Python necessárias. Veja a seguir as etapas detalhadas de instalação:

Garantir a prontidão ambiental
- Requisitos do sistema: macOS (recomendado para dispositivos com chips da série M, como M1, M2, etc.).
- Instale o Python 3.8 ou posterior (recomenda-se o Homebrew):brew install python).
- Instale o Git (para clonar repositórios):brew install git.
Clone MLX-Audio Warehouse
Abra um terminal e digite o seguinte comando para fazer o download do código-fonte:
```
git clone https://github.com/Blaizzy/mlx-audio.git
```

Quando o download estiver concluído, vá para o diretório do projeto:

cd mlx-audio

Instalação de dependências
Os projetos geralmente fornecem um requirements.txt que lista as bibliotecas Python necessárias. Execute o seguinte comando para instalá-las:
```
pip install -r requirements.txt
```
Se você não tiver esse arquivo, consulte o LEIAME oficial; as dependências comuns podem incluir mlx(estrutura de aprendizado de máquina da Apple) e bibliotecas de processamento de áudio, como numpy talvez soundfile.
Verificar a instalação
Quando a instalação estiver concluída, execute um comando de teste simples para verificar se o ambiente está configurado corretamente:
```
python -m mlx_audio.tts.generate --text "Hello, world"
```
Se for bem-sucedido, você ouvirá a fala gerada ou um arquivo de áudio será gerado no diretório atual.

Como usar o MLX-Audio

O MLX-Audio oferece duas maneiras de usar a interface de linha de comando (CLI) e o script Python, e a seguir há uma descrição detalhada do fluxo de operação das principais funções.

Conversão de texto em fala (TTS)

Essa é a função principal do MLX-Audio para converter texto em fala.

procedimento::
1. Texto preparadoTexto: Decida qual texto você deseja converter, por exemplo, "Hello, welcome to the MLX-Audio experience" (Olá, bem-vindo à experiência MLX-Audio).
2. Executar comandoDigite-o no terminal:
```
python -m mlx_audio.tts.generate --text "你好，欢迎体验 MLX-Audio" --output "welcome.wav"
```
  - --textTexto de entrada: Especifica o texto de entrada.
  - --outputEspecifique o nome do arquivo de áudio de saída (opcional; por padrão, o arquivo será gerado no diretório atual).
3. Resultados da inspeçãoDepois que o comando é executado, o arquivo de áudio gerado (por exemplo welcome.wav) será salvo no diretório atual e aberto com o player para ouvir a voz.
Opções avançadas::
- Especifique o modelo: se houver suporte a vários modelos, eles poderão ser especificados por meio da opção --model Seleção de parâmetros, por exemplo:
```
python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
```
- Ajustar a velocidade ou o tom da fala: dependendo do LEIAME ou da descrição do código, pode haver suporte para parâmetros adicionais (por exemplo --speed talvez --pitch), dependendo da realização.

Fala para fala (STS)

Esse recurso permite que os usuários gerem novo conteúdo de voz com base no áudio existente.

procedimento::
1. Preparando o áudio de entradaVerifique se você tem um arquivo de áudio no formato WAV (por exemplo input.wav), que pode ser gravado em um telefone celular ou obtido de outras fontes.
2. Executar comandoDigite o seguinte comando:
```
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
```
  - --inputEspecifica o caminho do arquivo de áudio de entrada.
  - --outputEspecifica o caminho do arquivo de saída.
3. Resultados da inspeçãoO novo áudio gerado é salvo como output.wavSe você não estiver usando o player, poderá verificar o efeito com o player.
advertência::
- A qualidade do áudio de entrada afeta a saída e recomenda-se uma gravação nítida.
- Se você precisar personalizar o conteúdo gerado, talvez sejam necessários parâmetros adicionais; consulte a documentação do projeto.

Desenvolvimento personalizado

Como o MLX-Audio é um projeto de código aberto, os usuários podem modificar o código para obter mais funções.

mover::
1. Abra a pasta do projeto e use um editor de texto (por exemplo, VS Code) para exibir o arquivo mlx_audio Arquivos Python no diretório.
2. Modifique o código conforme necessário, por exemplo, adicione suporte a novos modelos de fala ou ajuste a lógica de geração.
3. Salve e execute o teste:
```
python your_script.py
```

Detalhes do processo de operação funcional

Geração rápida de fala

tomarSe você quiser testar rapidamente o efeito da ferramenta.
fluxos de trabalho::
1. Abra um terminal e vá para mlx-audio Catálogo.
2. Digite um comando TTS simples:
```
python -m mlx_audio.tts.generate --text "测试语音生成"
```
3. Aguarde alguns segundos (dependendo do tamanho do texto e do desempenho do dispositivo) e o arquivo de áudio será gerado automaticamente.
no finalGerar um arquivo de áudio com o nome padrão (por exemplo, um arquivo de áudio com o nome de um arquivo de áudio). output.wav), basta reproduzi-lo diretamente.

Manuseio de textos longos

tomar: Preciso converter um artigo em discurso.
fluxos de trabalho::
1. Salve o texto como um arquivo (por exemplo text.txt), o conteúdo pode ter vários parágrafos.
2. Use o comando para ler o arquivo:
```
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
```
  - --fileEspecifique o caminho do arquivo de texto (verifique se o projeto suporta esse parâmetro; caso contrário, use o script Python para ler o arquivo e chamá-lo).
3. Verificar os dados gerados article.wavA voz deve ser natural e fluente.

Geração de lotes

tomarNecessidade de gerar fala para vários textos.

fluxos de trabalho::

Escreva um script Python simples (por exemplo batch_generate.py):

from mlx_audio.tts import generate
texts = ["文本1", "文本2", "文本3"]
for i, text in enumerate(texts):
generate(text=text, output=f"output_{i}.wav")

Execute o script:
```
python batch_generate.py
```
Verifique se foram gerados vários arquivos de áudio.

dica

otimização do desempenhoQuando estiver executando em dispositivos de silício M-Series, certifique-se de que nenhuma outra tarefa de alta carga esteja ocupando recursos para obter a velocidade ideal.
Problemas de depuraçãoSe você encontrar um erro (por exemplo, uma dependência ausente), verifique a saída do terminal e siga as instruções para instalar a biblioteca ausente.
Suporte à comunidadeSe a funcionalidade não estiver clara, envie um problema para o GitHub ou dê uma olhada na discussão existente.

Com essas etapas, os usuários podem começar a usar o MLX-Audio com facilidade, seja para gerar fala simples ou desenvolver aplicativos complexos.