DiffRhythm: 10초 안에 최대 4분 45초 분량의 노래를 생성합니다.

50.4K 00

일반 소개

DiffRhythm은 노스웨스턴 폴리테크닉 대학교의 오디오, 음성 및 언어 처리 그룹인 ASLP-lab에서 개발한 오픈 소스 프로젝트로, 인공지능 기술을 통한 엔드투엔드 음악 제작에 중점을 두고 있습니다. 잠재 확산 모델을 기반으로 하며 보컬과 백 보컬을 포함해 최대 4분 45초 길이의 완전한 곡을 단 10초 만에 생성할 수 있습니다. 이 도구는 빠를 뿐만 아니라 사용이 간편하고 가사와 스타일 단서만 제공하면 고품질 음악을 생성할 수 있으며, DiffRhythm의 목표는 복잡성이 높고 생성 시간이 긴 기존 음악 생성 모델을 해결하는 것이며, 엔터테인먼트 업계의 음악 제작자, 교육자 및 사용자에게 적합한 문제점의 일부만 생성할 수 있습니다.

ComfyUI 워크플로 캡슐화: Chttps://github.com/billwuhao/ComfyUI_DiffRhythm

체험: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

기능 목록

엔드투엔드 곡 생성가사와 스타일 단서를 입력하면 보컬과 백킹 트랙이 포함된 전체 노래를 자동으로 생성합니다.
빠른 추론최대 4분 45초 분량의 노래를 10초 안에 생성합니다.
멜로디와 동기화된 가사생성된 멜로디가 가사의 음절과 리듬과 자연스럽게 일치하는지 확인합니다.
스타일 사용자 지정다양한 음악 스타일 큐를 지원하여 사용자의 요구에 맞는 음악을 생성합니다.
오픈 소스 지원:: 사용자가 기능을 사용자 지정하고 확장할 수 있는 소스 코드와 모델을 제공합니다.
고품질 출력생성된 음악은 음질과 청취성 측면에서 높은 수준의 음악입니다.

도움말 사용

설치 프로세스

DiffRhythm은 GitHub 기반 오픈 소스 프로젝트로, 설치 및 실행을 위해 일부 프로그래밍 기반이 필요합니다. 자세한 설치 단계는 다음과 같습니다:

환경 준비
- 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인하세요.
- GitHub에서 코드를 다운로드하려면 Git을 설치하세요.
- 가상 환경을 사용하는 것이 좋습니다(예 venv 어쩌면 conda)를 사용하여 종속성 충돌을 방지합니다.
프로젝트 코드 다운로드
- 터미널을 열고 다음 명령을 입력하여 DiffRhythm 리포지토리를 복제합니다:
```
git clone https://github.com/ASLP-lab/DiffRhythm.git
```
- 프로젝트 카탈로그로 이동합니다:
```
cd DiffRhythm
```
종속성 설치
- 프로젝트는 일반적으로 다음을 제공합니다. requirements.txt 파일에 필요한 파이썬 라이브러리가 나열되어 있습니다.
- 터미널에서 다음 명령을 실행하여 종속성을 설치합니다:
```
pip install -r requirements.txt
```
- 이 파일이 없는 경우 GitHub 페이지 또는 문서에서 종속성 노트를 참조하여 PyTorch와 같은 핵심 라이브러리를 수동으로 설치할 수 있습니다.
사전 학습된 모델 다운로드
- DiffRhythm의 사전 학습된 모델은 일반적으로 Hugging Face 또는 기타 클라우드 스토리지 플랫폼에서 호스팅됩니다.
- 인터뷰 ASLP-lab/DiffRhythm-base 모델 파일 다운로드(예 cfm_model.pt).
- 다운로드한 모델 파일을 프로젝트 디렉터리의 지정된 폴더에 넣습니다(일반적으로 문서에 설명되어 있습니다). models/).
설치 확인
- 예를 들어 터미널에서 간단한 테스트 명령을 실행합니다(정확한 명령은 GitHub의 README 파일 참조):
```
python main.py --test
```
- 오류가 보고되지 않으면 설치에 성공한 것입니다.

DiffRhythm 사용 방법

DiffRhythm의 핵심 기능은 가사와 스타일 단서를 입력하여 노래를 생성하는 것입니다. 자세한 작동 절차는 다음과 같습니다:

1. 입력 준비

노래 가사가사(중국어, 영어 등)를 작성하고 텍스트 파일로 저장합니다(예 lyrics.txt)를 클릭하거나 명령줄에 직접 입력합니다.
스타일 팁:: 스타일에 대한 간단한 설명을 준비합니다(예: '팝 록', '클래식 피아노' 또는 '일렉트로닉 댄스 음악').

2. 노래 생성

터미널을 열고 DiffRhythm 프로젝트 디렉토리에 들어갑니다.
생성 명령을 실행합니다(구체적인 매개변수는 공식 문서를 기반으로 하며, 샘플 명령은 다음과 같습니다):

python generate.py --lyrics "lyrics.txt" --style "pop rock" --output "song.wav"

매개변수 설명:
- --lyrics: 가사 파일 경로를 지정합니다.
- --style: 음악 스타일 큐를 입력합니다.
- --output: 출력 오디오 파일 경로와 이름을 지정합니다.
약 10초간 기다리면 프로그램이 지정된 경로에 WAV 형식의 오디오 파일을 생성합니다.

3. 출력 확인

생성이 완료되면 song.wav 파일을 열고 오디오 플레이어(예: Windows Media Player 또는 VLC)를 사용하여 재생합니다.
가사가 멜로디와 동기화되어 있는지, 음질이 예상과 일치하는지 확인합니다.

주요 기능

엔드투엔드 곡 생성: 세분화할 필요 없이 한 번에 완전한 곡을 생성하는 DiffRhythm. 사용자는 가사와 스타일만 제공하면 되며, 완성된 결과물을 얻기 위해 추가적인 매개변수 조정이 필요하지 않습니다.
빠른 추론비회귀 구조와 잠복 확산 기법 덕분에 생성 속도가 매우 빠릅니다. 몇 분씩 걸리는 기존 모델의 생성 시간과 비교하면 DiffRhythm의 10초 생성은 효율성을 크게 향상시킵니다.
멜로디와 동기화된 가사생성된 멜로디가 가사와 일치하지 않는 경우 가사의 음절 수를 조정하거나 스타일 팁에 '명확한 템포'와 같은 설명을 추가하여 출력을 최적화할 수 있습니다.
스타일 사용자 지정:: '재즈', '포크', '힙합' 등 다양한 스타일 큐를 시도하고 결과가 어떻게 달라지는지 관찰하세요. 스타일 큐가 구체적일수록 생성된 음악이 예상되는 음악에 더 가까워집니다.

팁 및 유용한 정보

가사 최적화짧은 가사는 긴 가사보다 멜로디에 맞추기 쉬우므로 지나치게 복잡한 문구를 피하세요.
일괄 생성:: 호출을 반복하는 간단한 스크립트를 작성합니다. generate.py한 번에 여러 곡에 대해 노래를 생성할 수 있습니다.
디버그 출력생성된 결과가 만족스럽지 않으면 로그 파일(있는 경우)을 확인하거나 GitHub 문서에 설명된 대로 모델 매개변수(예: 확산 단계 수)를 조정하세요.