송제너레이션이란 무엇인가요?
송제너레이션은 텐센트 AI 랩에서 출시한 고품질 노래 생성 프로젝트입니다. 송제너레이션은 LeLM(음악용 대규모 언어 모델) 프레임워크를 기반으로 보컬과 백킹 트랙을 동시에 생성하여 두 가지가 조화를 이루도록 합니다. 사용자는 가사, 설명 텍스트(예: 스타일, 감정 등) 또는 참조 오디오를 입력해 생성 과정을 안내할 수 있습니다. 송제너레이션은 광범위한 음악 스타일과 감정 표현을 지원하며 고품질의 다양한 곡을 생성합니다. 기술 아키텍처는 하이브리드 및 투트랙 태깅을 결합하고, 생성된 태그는 음악 코덱에 의해 오디오로 재구성됩니다. 음악 작곡, 영화 및 TV 사운드트랙, 게임 음악 및 기타 분야에 적합하며 크리에이터에게 효율적이고 창의적인 솔루션을 제공합니다.

송제너레이션의 주요 기능
- 보컬 및 백킹 트랙 공동 생성송제너레이션은 보컬과 백킹 트랙을 동시에 생성하여 높은 수준의 리듬, 멜로디, 감정적 통일성을 보장합니다. 혼합 토큰과 더블 트랙 토큰을 사용하면 기존 생성 방식에서 발생하는 보컬과 백킹 보컬의 분리를 방지하여 보컬과 백킹 보컬이 자연스럽게 혼합됩니다.
- 멀티 스타일 및 멀티 감정 지원송제너레이션은 이러한 설명을 기반으로 다양한 시나리오와 사용자 요구 사항을 충족하는 노래를 생성할 수 있습니다.
- 멀티 트랙 생성송제너레이션은 별도의 보컬 트랙과 백킹 트랙을 자동으로 생성하는 동시에 높은 수준의 멜로디, 구조, 리듬 및 오케스트라 매칭을 보장합니다.
- 유연한 입력 방법사용자가 가사를 입력할 수 있습니다(레이블을 다음과 같은 구조로 지정할 수 있습니다.
[Verse]
및[Chorus]
등), 설명 텍스트 또는 참조 오디오를 사용하여 생성을 안내할 수 있습니다. 다양한 입력 방법은 사용자에게 큰 편의를 제공하며 전문가가 아닌 사용자도 쉽게 시작할 수 있습니다. - 고품질 음악 출력송제너레이션은 오픈 소스 음악 생성 모델을 능가하는 고품질 오디오 성능으로 노래를 생성하며 업계 최고의 시스템과 경쟁합니다. 생성된 노래는 음악 작곡, 영화 및 텔레비전 사운드트랙, 게임 음악 및 기타 시나리오에 직접 사용할 수 있습니다.
- 효율적인 용량 생성송제너레이션은 완성도 높은 곡을 빠르게 생성할 수 있는 고효율 LeLM 프레임워크를 기반으로 하여 창작의 효율성을 크게 향상시키고 창작의 문턱을 낮춰 음악 제작을 보다 쉽고 효율적으로 만들어 줍니다.
송제너레이션 프로젝트 주소
- GitHub 리포지토리:: https://github.com/tencent-ailab/SongGeneration
- 허깅페이스 모델 라이브러리:: https://huggingface.co/tencent/SongGeneration
- arXiv 기술 논문:: https://arxiv.org/pdf/2506.07520
- 온라인 경험 데모:: https://huggingface.co/spaces/tencent/SongGeneration
사용 방법
- 온라인 경험송제너레이션 모델은 이제 허깅 페이스에서 사용할 수 있으며, 사용자는 온라인 경험을 통해 사용할 수 있습니다.
- 기능 사용 방법
- 텍스트 컨트롤송제너레이션의 음악은 사용자가 키워드 텍스트(예: '해피 팝', '격렬한 록')를 기반으로 고품질의 전체 길이 음악 작곡을 만들 수 있는 독특하고 강력한 도구입니다.
- 스타일 따르기송제너레이션은 팝, 록, 중국어 등 다양한 장르를 아우르는 동일한 스타일의 새로운 정규 곡으로, 사용자가 10초 이상의 레퍼런스 오디오를 업로드하면 송제너레이션이 동일한 스타일의 새로운 정규 곡을 자동으로 생성합니다.
- 멀티 트랙 생성송제너레이션은 별도의 보컬 트랙과 백킹 트랙을 자동으로 생성하는 동시에 높은 수준의 멜로디, 구조, 리듬 및 오케스트라 매칭을 보장합니다.
- 톤 팔로잉송제너레이션: 송제너레이션은 레퍼런스 오디오를 기반으로 톤 팔로잉을 지원하여 자연스럽고 감성적인 '톤 클론' 수준의 보컬 퍼포먼스로 노래를 생성합니다.
- 로컬 사용송제너레이션을 로컬에서 사용해야 하는 경우, 코드와 모델은 Github 리포지토리와 허깅 페이스 모델 리포지토리에서 얻을 수 있습니다. 사용자는 코드와 모델 가중치를 다운로드하고 프로젝트 설명서의 지침에 따라 설치 및 구성한 다음 로컬에서 송제너레이션을 실행하여 음악을 생성할 수 있습니다.
송제너레이션의 기술적 이점
- 낮은 비트 전송률의 음악 인코딩 및 디코딩송제너레이션은 매우 낮은 비트 전송률(25Hz)과 초저 비트 전송률(0.35kbps)에서 고품질 음악 재구성을 혁신적으로 달성하여 48kHz 2채널 음악을 효율적으로 압축 및 복원합니다.
- 여러 환경 설정 정렬송제너레이션은 직접 선호도 최적화(DPO)와 다차원 선호도 정렬을 통해 음악성, 가사 정렬, 큐 일관성 등 여러 차원을 정확하게 정렬할 수 있습니다. 생성된 곡은 음질이 뛰어날 뿐만 아니라 멜로디, 구조, 감정 표현 측면에서 사용자의 요구에 더 가깝습니다.
- 다중 카테고리 토큰의 병렬 예측송제너레이션은 서로 다른 유형의 프로그램이 필요하지 않도록 '선 하이브리드, 후 듀얼 트랙' 전략을 채택했습니다. 토큰 유형 간 간섭.
- 3단계 교육 패러다임송제너레이션은 사전 교육, 모듈식 확장 교육, 다중 선호도 정렬 교육이라는 3단계 교육 패러다임을 사용합니다.
- 높은 성능과 경쟁력송제너레이션은 상용 및 오픈소스 모델과 비교했을 때 콘텐츠 감상, 콘텐츠 활용성, 제작 품질 등 여러 주요 측면에서 우수한 성능을 보였습니다. 생성된 노래는 음질, 멜로디, 구조, 감정 표현 측면에서 강력한 경쟁력을 보여주었습니다.
송제너레이션의 대상
- 음악 크리에이터전문 음악가든 아마추어든 SongGeneration은 강력한 창작 지원을 제공할 수 있습니다. 크리에이터가 고품질의 노래를 빠르게 생성하고 멜로디 제작, 편곡 및 가사 매칭에서 영감을 얻고 창작 시간을 절약할 수 있도록 도와줍니다. 크리에이터는 자신의 창의력에 따라 가사나 설명을 입력하고 스타일과 정서적 요구에 맞는 완벽한 곡을 생성할 수 있습니다.
- 영화 제작자송제너레이션은 영화나 TV 프로덕션의 정서적 분위기와 스타일 요구 사항에 맞는 음악을 빠르게 생성할 수 있습니다. 예를 들어 송제너레이션은 영화, TV 드라마, 광고 또는 짧은 동영상에 적합한 배경 음악을 생성하여 작품의 전체적인 효과를 높일 수 있습니다.
- 게임 개발자게임 음악은 게임 장면 및 분위기와 긴밀하게 통합되어야 합니다. 송제너레이션은 게임 스타일(예: 판타지, 공상 과학, 모험 등)과 감정적 요구(예: 긴장감, 즐거움, 신비함 등)에 따라 게임 장면에 맞는 음악을 생성하여 플레이어의 몰입감을 높일 수 있습니다.
- 콘텐츠 크리에이터송제너레이션은 콘텐츠의 스타일과 정서적 요구에 따라 신속하게 음악을 생성하여 저작권 문제를 피하는 동시에 콘텐츠의 매력을 높일 수 있습니다.
- 음악 교육자 및 학생송제너레이션은 학생들이 다양한 음악 스타일, 감정 표현 및 작곡 기법을 이해하는 데 도움이 되는 음악 교육 보조 도구로 사용할 수 있습니다. 교육자는 샘플 음악을 생성하여 다양한 스타일과 감정의 효과를 보여주고 학습에 대한 학생들의 흥미를 자극하는 데 사용할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...