탱고플럭스: 30초 분량의 긴 오디오를 3초 만에 생성하는 빠른 텍스트-더빙 변환 도구!

57.5K 00

일반 소개

TangoFlux는 DeCLaRe Lab에서 개발한 효율적인 텍스트-오디오(TTA) 생성 모델입니다. 이 모델은 3.7초 만에 최대 30초 분량의 44.1kHz 스테레오 오디오를 생성할 수 있습니다. TangoFlux는 스트림 매칭과 CRPO(박수 순위 선호도 최적화) 기술을 사용하여 선호도 데이터를 생성하고 최적화함으로써 TTA 정렬을 향상시킵니다. 이 모델은 객관적 벤치마크와 주관적 벤치마크 모두에서 우수한 성능을 보이며, 모든 코드와 모델은 오픈 소스로 제공되어 추가적인 TTA 생성 연구를 지원합니다.

체험: https://huggingface.co/spaces/declare-lab/TangoFlux

싱가포르 기술 디자인 대학(SUTD)과 엔비디아는 단일 A40 GPU에서 단 3.7초 만에 최대 44.1kHz 오디오를 생성할 수 있는 약 1억 1,500만 개의 파라미터를 갖춘 고효율 텍스트-오디오(TTA) 생성 모델인 TangoFlux를 공동 출시했습니다. 약 5억 1,500만 개의 파라미터를 갖춘 이 모델은 단일 A40 GPU에서 단 3.7초 만에 최대 30초 분량의 44.1kHz 오디오를 생성할 수 있습니다. TangoFlux는 초고속 생성 속도뿐만 아니라 Stable Audio와 같은 오픈소스 오디오 모델보다 우수한 오디오 품질을 제공합니다.

다른 최신 오픈 소스 텍스트-오디오 생성 모델과 TANGoFLux를 비교해보면, 가장 빠른 모델보다 약 2배 빠르게 생성할 뿐만 아니라 더 나은 오디오 품질(CLAP 및 FD 점수로 측정)을 달성하며, 이 모든 것을 더 적은 수의 학습 가능한 파라미터로 구현합니다.

"스트림 매칭 및 박수 순위 선호도 최적화를 통한 초고속의 충실한 텍스트-오디오 생성"이라는 제목의 TangoFlux는 텍스트 단서와 길이 임베딩을 조건으로 최대 30초의 44.1kHz 오디오를 생성하는 확산 트랜스포머(DiT) 및 다중 모드 확산 트랜스포머(MMDiT)인 FluxTransformer 블록으로 구성됩니다. 텍스트 단서 및 지속 시간 임베딩을 조건으로 최대 30초 길이의 44.1kHz 오디오를 생성하는 확산 트랜스포머(DiT) 및 멀티모달 확산 트랜스포머(MMDiT)는 가변 자동 인코더(VAE)로 인코딩된 오디오의 잠재적 표현의 정류된 스트리밍 궤적을 학습합니다.TangoFlux 학습 파이프라인은 사전 학습, 미세 조정 및 CRPO를 사용한 기본 설정 최적화의 세 단계로 구성됩니다. 특히 CRPO는 새로운 합성 데이터를 반복적으로 생성하고 스트림 매칭을 위한 선호도 최적화를 위해 DPO 손실을 사용하여 선호도 쌍을 구성합니다.

기능 목록

빠른 오디오 생성3.7초 만에 최대 30초 분량의 고품질 오디오를 생성합니다.
스트림 매칭 기술플럭스 트랜스포머와 멀티모달 확산 트랜스포머를 사용한 오디오 생성.
CRPO 최적화환경설정 데이터를 생성하고 최적화하여 오디오 생성 품질을 향상시킵니다.
다단계 교육사전 교육, 미세 조정 및 환경 설정 최적화의 세 단계로 구성됩니다.
오픈 소스모든 코드와 모델은 추가 연구를 지원하기 위해 오픈소스로 공개됩니다.

도움말 사용

설치 프로세스

환경 구성파이썬 3.7 이상이 설치되어 있고 필요한 종속 라이브러리가 설치되어 있는지 확인합니다.
클론 창고터미널에서 실행 git clone https://github.com/declare-lab/TangoFlux.git 복제 창고.
종속성 설치프로젝트 디렉토리로 이동하여 pip install -r requirements.txt 모든 종속성을 설치합니다.

사용 프로세스

모델 교육::
- 구성 가속기: 실행 accelerate config 를 클릭하고 지시에 따라 런타임 환경을 구성합니다.
- 교육 파일 경로 구성: 교육 파일 경로의 configs/tangoflux_config.yaml 에서 학습 파일 경로와 모델 하이퍼파라미터를 지정합니다.
- 교육 스크립트 실행: 다음 명령을 사용하여 교육을 시작합니다:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```
- DPO 교육: '선택됨', '거부됨', '캡션' 및 '기간' 필드를 포함하도록 교육 파일을 수정하고 다음 명령을 실행합니다:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```

모델링된 추론::

모델 다운로드: TangoFlux 모델을 다운로드했는지 확인합니다.
오디오 생성: 다음 코드를 사용하여 텍스트 프롬프트에서 오디오를 생성할 수 있습니다:

 import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate("生成音频的文本提示", duration=10)
Audio(audio, rate=44100)

세부 기능 작동

텍스트-오디오 생성텍스트 프롬프트를 입력하고 생성되는 오디오의 지속 시간(1~30초)을 설정하면 모델에서 해당 고품질 오디오를 생성합니다.
최적화에 대한 편향성CRPO 기술을 통해 사용자의 선호도에 더 부합하는 오디오를 생성할 수 있습니다.
다단계 교육모델이 생성하는 오디오의 품질과 일관성을 보장하기 위해 사전 학습, 미세 조정 및 기본 설정 최적화의 세 단계로 구성됩니다.