송블룸 - 홍콩중문대 및 NTU와 협력한 텐센트의 오픈 소스 곡 생성 모델

최신 AI 리소스2 개월 전에 게시 됨 AI 공유 서클
18.8K 00
堆友AI

송블룸이란 무엇인가요?

송블룸은 홍콩중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래 생성을 실현합니다. 10초 분량의 레퍼런스 오디오와 해당 가사만 입력하면 인트로, 메인 곡, 후렴구, 코러스, 후렴구 및 전체 구조의 끝 부분을 포함한 2분 30초 분량의 듀얼 채널/48kHz 고음질 완성곡을 생성할 수 있습니다. 혁신적인 기술로 가사와 멜로디가 일치하지 않는 '착시 현상'을 획기적으로 줄여 음소 오류율을 크게 낮추고 가사의 정확도를 업계 최고 수준으로 끌어올렸습니다. 보컬 기교는 최고 상용 모델인 Suno-V4.5를 능가하며 음악성은 전문 작곡가와 견줄 만합니다. 장시간 노래 생성에 처음으로 자동 회귀 확산 모델을 도입하여 이산 스케치 토큰과 VAE 잠재 기술을 결합하여 구조적 일관성과 음향 세부 사항을 고려합니다.

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

송블룸의 특징

  • 효율적인 용량 생성최신 기능은 10초 분량의 오디오 샘플과 해당 가사만으로 2분 30초 길이의 전체 노래를 빠르게 생성할 수 있는 기능입니다.
  • 고품질 오디오 출력선명하고 전문적인 음질을 위해 듀얼 채널, 48kHz 고품질 오디오 생성을 지원합니다.
  • 혁신 세대 패러다임인터리브 생성 기법을 사용하고 자동 회귀 스케치 및 확산 모델 개선과 결합하여 노래 구조와 음질을 최적화합니다.
  • 멀티모달 입력 지원가사 및 오디오 샘플 입력을 모두 지원하여 멀티모달 정보를 정확하게 융합하여 필요에 더 적합한 노래를 생성합니다.
  • 오픈 소스 사용 편의성이 프로젝트는 오픈 소스이며 자세한 지침과 여러 모델 버전을 제공하며 배포 및 사용이 쉽고 다양한 장치에 적합하며 실행할 수 있습니다.
  • SOTA 성능에 근접오디오 품질과 가사 정확도 면에서 업계 최고에 가깝고 기존 오픈 소스 모델을 능가합니다.

송블룸의 핵심 강점

  • 완성도 높은 곡의 효율적인 생성10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면 인트로, 리드, 코러스, 아웃트로의 완벽한 구조를 갖춘 2분 30초 분량의 듀얼 채널/48kHz 하이파이 풀 송을 생성할 수 있습니다.
  • 정확한 가사 매칭혁신적인 기술을 통해 가사와 멜로디가 불일치하는 '착시 현상'을 현저히 줄이고, 음성 오류율을 대폭 낮춰 업계에서 새로운 수준의 가사 정확도를 구현했습니다.
  • 뛰어난 음질과 음악성최고의 광고 모델인 Suno-V4.5를 능가하는 보컬 기교와 프로 작곡가 못지않은 음악성으로 이 분야 최고에 가까운 음악성을 자랑합니다.
  • 고품질 출력2채널 48kHz 고음질 오디오 생성을 지원하여 업계 최고 수준(SOTA)에 가까운 선명하고 전문적인 오디오 품질을 제공합니다.
  • 혁신 산업노래의 전체 구조와 음질을 최적화하기 위해 자동 회귀 스케치 및 확산 모델 개선과 결합된 스태거드 생성 패러다임이 사용되어 기술을 선도합니다.
  • 멀티모달 융합가사 및 오디오 샘플 입력을 모두 지원하여 멀티모달 정보를 정확하게 융합하여 필요에 더 적합한 노래를 생성합니다.

송블룸의 공식 웹사이트는 무엇인가요?

  • 깃허브 리포지토리:: https://github.com/tencent-ailab/SongBloom
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/CypressYang/SongBloom
  • arXiv 기술 논문:: https://arxiv.org/pdf/2506.07634
  • 온라인 경험 데모:: https://cypress-yang.github.io/SongBloom_demo/

송블룸의 대상

  • 음악 크리에이터프로 뮤지션과 아마추어 모두에게 창의적인 영감과 빠른 곡 생성을 위한 프레임워크를 제공하여 새로운 음악 스타일과 창작 방향을 모색할 수 있도록 도와줍니다.
  • 오디오 프로듀서영화, TV, 게임, 광고 및 기타 산업의 오디오 제작에서 배경 음악이나 주제곡을 빠르게 생성하여 제작 효율성을 높이는 데 사용됩니다.
  • 음악 교육자 및 학생음악 교육 도구로서 학생들이 음악의 구조와 창작 과정을 이해하도록 돕고 학습에 대한 흥미를 자극하며 교사의 수업에도 도움을 줍니다.
  • 콘텐츠 크리에이터소셜 미디어, 짧은 동영상 및 기타 플랫폼에서 사용자에게 개인화된 음악 콘텐츠를 제공하여 상호 작용과 재미를 강화합니다.
  • 기업 및 브랜드 측면제품 홍보, 이벤트 홍보 등을 위해 기업 및 브랜드를 위한 맞춤형 음악을 생성하여 브랜드 영향력과 사용자 참여를 높입니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...