综合介绍
InspireMusic 是一个基于 PyTorch 的开源工具包,专注于音乐、歌曲和音频生成。它提供了一个统一的框架,通过文本提示、音乐结构和音乐风格等控制生成高质量的音频。InspireMusic 支持 24kHz 和 48kHz 的音频生成,并且能够进行长音频生成。该工具包不仅提供了推理和训练代码,还支持混合精度训练,方便用户进行模型微调和推理。InspireMusic 的目标是通过音频标记和去标记过程,帮助用户创新音景并提升音乐研究中的和谐美感。

演示:https://modelscope.cn/studios/iic/InspireMusic/summary
功能列表
- 文本生成音乐:通过文本提示生成音乐。
- 音乐结构控制:支持根据音乐结构生成音乐。
- 音乐风格控制:可以控制生成音乐的风格。
- 高质量音频生成:支持 24kHz 和 48kHz 的音频生成。
- 长音频生成:支持生成长时间的音频。
- 混合精度训练:支持 BF16、FP16/FP32 的混合精度训练。
- 模型微调和推理:提供方便的微调和推理脚本和策略。
- 在线演示:提供在线演示,用户可以在 ModelScope 和 HuggingFace 上体验。
使用帮助
安装流程
- 克隆仓库:
git clone https://github.com/FunAudioLLM/InspireMusic.git
cd InspireMusic
- 安装依赖:
pip install -r requirements.txt
- 安装 PyTorch(根据你的 CUDA 版本选择合适的安装命令):
pip install torch torchvision torchaudio
使用指南
文本生成音乐
- 准备文本提示,例如 "生成一段欢快的钢琴音乐"。
- 运行生成脚本:
python app.py --text "生成一段欢快的钢琴音乐"
- 生成的音乐将保存在指定的输出目录中。
音乐结构控制
- 准备音乐结构文件,定义音乐的节奏、和弦等。
- 运行生成脚本:
python app.py --structure path/to/structure/file
- 生成的音乐将根据结构文件进行生成。
音乐风格控制
- 选择预定义的音乐风格,例如 "古典"、"爵士" 等。
- 运行生成脚本:
python app.py --style "古典"
- 生成的音乐将符合所选的音乐风格。
模型微调和推理
InspireMusic 提供了方便的微调和推理脚本,用户可以根据自己的需求进行模型微调和推理。以下是一个简单的微调示例:
- 准备训练数据集。
- 运行微调脚本:
python finetune.py --data path/to/dataset --output path/to/output/model
- 使用微调后的模型进行推理:
python app.py --model path/to/output/model --text "生成一段新的音乐"
在线演示
用户可以访问 ModelScope 和 HuggingFace 上的在线演示页面,体验 InspireMusic 的强大功能。只需输入文本提示,即可生成高质量的音乐。