Introdução geral
O YuE é um modelo básico de geração de músicas completas de código aberto que se concentra na transformação de letras em músicas completas. Ao contrário de outros modelos que geram apenas trechos curtos de música não vocal, o YuE é capaz de gerar músicas completas com vocais principais e de apoio que podem ter até vários minutos de duração. O modelo aborda os desafios de contextos longos, sinais musicais complexos, conteúdo linguístico distorcido e falta de dados paralelos na geração de músicas. O YuE emprega várias técnicas, inclusive um lexer de áudio semanticamente aprimorado, uma técnica de bipartição, geração de pensamentos encadeados por letras e um esquema de treinamento em três fases para garantir que as músicas geradas tenham uma estrutura musical coerente, uma melodia vocal envolvente e um acompanhamento adequado. e gêneros vocais para pop, metal e muitos outros gêneros musicais.
Lista de funções
- Letras de músicasLetra de música: Converte a letra de entrada em uma música completa, incluindo vocais principais e de apoio.
- Vários estilos musicaisSuporte a uma ampla variedade de estilos musicais, como pop e metal.
- Geração de alta qualidadeGarantir que as músicas geradas sejam coerentes e de alta qualidade.
- projeto de código abertoCódigo-fonte aberto: O código e o modelo são de código-fonte aberto e podem ser usados e modificados livremente pelo usuário.
- Otimização de GPUSuporte à computação paralela de GPU em grande escala para melhorar a eficiência da geração.
Usando a Ajuda
Processo de instalação
- Preparação ambiental::
- Certifique-se de que a versão do Python seja >= 3.8.
- Instale a dependência:
pip install -r requirements.txt
. - Instale o FlashAttention 2 para economizar memória da GPU:
pip install flash-attn --no-build-isolation
. - Configure o ambiente CUDA (usando o CUDA 11.8 como exemplo):
export PATH=/usr/local/cuda-11.8/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH
- Código de download::
- Clonagem do Project Warehouse:
git clone https://github.com/multimodal-art-projection/YuE.git
- Vá para o catálogo de projetos:
cd YuE
- Clonagem do Project Warehouse:
Processo de uso
- Prepare as letras.::
- Salve as letras como um arquivo de texto, por exemplo.
letras.txt
.
- Salve as letras como um arquivo de texto, por exemplo.
- Executar o script gerado::
- Use o seguinte comando para gerar uma música:
python generate_song.py --lyrics lyrics.txt --output song.wav
- Parâmetros de geração de configuração::
- Os detalhes da geração podem ser ajustados por meio de parâmetros de linha de comando, como estilo de música, tipo de vocal, etc:
bash
python generate_song.py --lyrics lyrics.txt --output song.wav --style pop --vocal male
- Os detalhes da geração podem ser ajustados por meio de parâmetros de linha de comando, como estilo de música, tipo de vocal, etc:
Operação detalhada da função
- Letras de músicas::
- Insira o arquivo de letras e o modelo gerará automaticamente uma música completa com vocais principais e de apoio.
- Há suporte para uma ampla variedade de estilos musicais e tipos vocais, e os usuários podem escolher diferentes parâmetros de acordo com suas necessidades.
- Vários estilos musicais::
- Ele suporta vários estilos musicais, como pop, metal etc. Os usuários podem selecionar o tipo de música a ser gerada por meio de parâmetros.
- Geração de alta qualidade::
- Os modelos são otimizados para garantir que as músicas resultantes sejam coerentes e de alta qualidade para a criação de músicas profissionais.
- projeto de código aberto::
- O código e o modelo são de código aberto e podem ser usados e modificados livremente pelos usuários para pesquisa científica e aplicações comerciais.
- Otimização de GPU::
- Suporta computação paralela de GPU em grande escala para melhorar a eficiência da geração e é adequado para gerar músicas por longos períodos de tempo.