SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

堆友AI

SongBloom是什么

SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可生成2分30秒的双通道/48kHz高保真完整歌曲,包含前奏、主歌、副歌、尾声等完整结构。通过创新技术大幅降低歌词与旋律不匹配的“幻觉生成”现象,音素错误率显著降低,歌词准确性达行业新高度。人声音质细腻度超越顶尖商业模型Suno-V4.5,音乐性媲美专业创作,首次将自回归扩散模型引入长时歌曲生成,结合离散sketch token和VAE latent技术,兼顾结构连贯性与音质细节。

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom的功能特色

  • Efficient generation of capacity:仅需 10 秒音频样本和对应歌词,即可快速生成长达 2 分 30 秒的完整歌曲。
  • High quality audio output:支持双通道、48kHz 高质量音频生成,音质清晰且专业。
  • 创新生成范式:采用交错生成技术,结合自回归草图绘制和扩散模型细化,优化歌曲结构和音质。
  • Multi-modal input support:同时支持歌词和音频样本输入,精准融合多模态信息,生成更符合需求的歌曲。
  • 开源易用性:项目开源,提供详细指南和多种模型版本,易于部署和使用,适合不同设备运行。
  • 接近 SOTA 性能:在音频质量和歌词准确性上接近领域最佳水平,超越现有开源模型。

SongBloom的核心优势

  • 高效生成完整歌曲:只需输入10秒参考音频和对应歌词,即可生成2分30秒的双通道/48kHz高保真完整歌曲,包含前奏、主歌、副歌、尾声等完整结构。
  • 精准歌词匹配:通过创新技术大幅降低歌词与旋律不匹配的“幻觉生成”现象,音素错误率显著降低,歌词准确性达行业新高度。
  • 音质与音乐性出色:人声音质细腻度超越顶尖商业模型Suno-V4.5,音乐性媲美专业创作,接近领域最佳水平。
  • High quality output:支持双通道、48kHz 的高质量音频生成,音质清晰且专业,接近领域最佳水平(SOTA)。
  • 创新技术:采用交错生成范式,结合自回归草图绘制和扩散模型细化,优化歌曲整体结构和音质,技术领先。
  • multimodal fusion:同时支持歌词和音频样本输入,精准融合多模态信息,生成更符合需求的歌曲。

SongBloom官网是什么

  • Github repository:https://github.com/tencent-ailab/SongBloom
  • HuggingFace Model Library:https://huggingface.co/CypressYang/SongBloom
  • arXiv Technical Paper:https://arxiv.org/pdf/2506.07634
  • Online Experience Demo:https://cypress-yang.github.io/SongBloom_demo/

SongBloom的适用人群

  • music creator:为专业音乐人和业余爱好者提供创作灵感和快速生成歌曲框架,帮助他们探索新的音乐风格和创作方向。
  • 音频制作人员:在影视、游戏、广告等行业的音频制作中,用于快速生成背景音乐或主题曲,提升制作效率。
  • 音乐教育工作者和学生:作为音乐教育工具,帮助学生理解音乐结构和创作过程,激发学习兴趣,也可辅助教师教学。
  • content creator:在社交媒体、短视频等平台,为用户提供个性化的音乐内容,增强互动性和趣味性。
  • 企业和品牌方:为企业和品牌生成定制化的音乐,用于产品推广、活动宣传等,提升品牌影响力和用户参与度。
© Copyright notes

Related articles

No comments

You must be logged in to leave a comment!
Login immediately
none
No comments...