Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

InspireMusic: estrutura de geração de música, canção e áudio unificada e de código aberto da Ali

Introdução geral

O InspireMusic é um kit de ferramentas de código aberto baseado no PyTorch voltado para a geração de música, canções e áudio. Ele fornece uma estrutura unificada para a geração de áudio de alta qualidade com controle sobre dicas de texto, estrutura musical e estilo musical. O InspireMusic é compatível com a geração de áudio de 24kHz e 48kHz e é capaz de gerar áudio longo. O kit de ferramentas não só fornece código de inferência e treinamento, mas também suporta treinamento de precisão mista para ajuste fino e inferência de modelos. O objetivo do InspireMusic é ajudar os usuários a inovar paisagens sonoras e aprimorar a estética harmônica na pesquisa musical por meio do processo de rotulagem e desrotulagem de áudio.

InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架-1

Demonstração: https://modelscope.cn/studios/iic/InspireMusic/summary


 

Lista de funções

  • Texto para músicaGeração de música a partir de dicas de texto.
  • Controle da estrutura musicalSuporte para geração de música com base em estruturas musicais.
  • Controle de estilo musicalMúsica: Você pode controlar o estilo da música gerada.
  • Geração de áudio de alta qualidadeSuporte para geração de áudio de 24kHz e 48kHz.
  • Geração de áudio longoSuporte à geração de áudio de longa duração: suporta a geração de áudio de longa duração.
  • Treinamento de precisão mistoSuporte para treinamento de precisão mista BF16, FP16/FP32.
  • Ajuste fino e inferência de modelosPermite fácil ajuste fino e raciocínio sobre scripts e estratégias.
  • Demonstração on-lineDemonstração on-line: Uma demonstração on-line está disponível e os usuários podem experimentá-la no ModelScope e no HuggingFace.

 

Usando a Ajuda

Processo de instalação

  1. Armazém de Clonagem:
   git clone https://github.com/FunAudioLLM/InspireMusic.git
cd InspireMusic
  1. Instale a dependência:
   pip install -r requirements.txt
  1. Instale o PyTorch (escolha o comando de instalação apropriado para sua versão do CUDA):
   pip install torch torchvision torchaudio

Diretrizes para uso

Texto para música

  1. Preparar instruções de texto, por exemplo, "Generate an upbeat piece of piano music" (Crie uma música de piano animada).
  2. Execute o script de geração:
   python app.py --text "生成一段欢快的钢琴音乐"
  1. A música gerada será salva no diretório de saída especificado.

Controle da estrutura musical

  1. Prepare um arquivo de estrutura musical que defina os ritmos, acordes etc. da música.
  2. Execute o script de geração:
   python app.py --structure path/to/structure/file
  1. A música gerada será baseada no arquivo de estrutura.

Controle de estilo musical

  1. Selecione um estilo musical predefinido, por exemplo, "Clássico", "Jazz", etc.
  2. Execute o script de geração:
   python app.py --style "古典"
  1. A música gerada corresponderá ao estilo musical selecionado.

Ajuste fino e inferência de modelos

O InspireMusic oferece scripts convenientes de ajuste fino e inferência que permitem aos usuários ajustar o modelo e a inferência de acordo com suas necessidades. Veja abaixo um exemplo simples de ajuste fino:

  1. Prepare o conjunto de dados de treinamento.
  2. Execute o script de ajuste fino:
   python finetune.py --data path/to/dataset --output path/to/output/model
  1. Inferência usando um modelo com ajuste fino:
   python app.py --model path/to/output/model --text "生成一段新的音乐"

Demonstração on-line

Os usuários podem visitar as páginas de demonstração on-line no ModelScope e no HuggingFace para experimentar o poder do InspireMusic. Basta inserir prompts de texto para gerar músicas de alta qualidade.

 

jian27 Pacote de integração

首席AI分享圈Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " InspireMusic: estrutura de geração de música, canção e áudio unificada e de código aberto da Ali
pt_BRPortuguês do Brasil