MMAudio: 비디오 영상에 동기화된 음향 효과 및 사운드 트랙 생성, 비디오-오디오 멀티모달 코트레이닝 도구
일반 소개
MMAudio는 공동 멀티모달 훈련을 통해 고품질의 동기화된 오디오를 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 홍콩 중문대학교의 호케이 쳉(Ho Kei Cheng) 등이 개발한 이 프로젝트의 주요 기능은 비디오 및/또는 텍스트 입력을 기반으로 동기화된 오디오를 생성하는 것으로, MMAudio의 핵심 혁신은 광범위한 오디오-비디오 및 오디오-텍스트 데이터 세트에 대해 훈련할 수 있는 멀티모달 공동 훈련 방식에 있습니다. 또한 동기화 모듈은 생성된 오디오를 비디오 프레임과 정렬할 수 있습니다. 이 프로젝트는 아직 개발 중이지만 단일 사례 추론 기능은 이미 작동 중이며 훈련 코드가 추가될 예정입니다. 오픈아트 사이트에서 관련 워크플로우를 검색할 수 있습니다.

기능 목록
- 비디오-오디오 생성수신되는 비디오를 기반으로 동기화된 오디오를 생성합니다.
- 텍스트-오디오 생성: 입력 텍스트를 기반으로 오디오를 생성합니다.
- 공동 멀티모달 교육오디오-비디오 및 오디오-텍스트 데이터 세트에 대한 공동 학습.
- 동기화 모듈: 생성된 오디오를 비디오 프레임에 맞춥니다.
- 오픈 소스전체 오픈 소스 코드를 제공하여 사용자가 2차 개발을 쉽게 할 수 있도록 합니다.
- 사전 교육 모델사용자가 직접 사용할 수 있는 사전 학습된 다양한 모델이 제공됩니다.
- 데모 스크립트사용자가 빠르게 시작할 수 있도록 다양한 데모 스크립트를 제공합니다.
도움말 사용
설치 프로세스
- 환경 준비미니포지 환경이 권장됩니다. Python 3.9 이상 및 PyTorch 2.5.1 이상과 이에 해당하는 torchvision/torchaudio를 설치해야 합니다.
- 종속성 설치: 다음 명령을 실행하여 필요한 종속성을 설치합니다:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
- 클론 창고다음 명령을 사용하여 MMAudio 리포지토리를 복제합니다:
git clone https://github.com/hkchengrex/MMAudio.git
- MMAudio 설치MMAudio 디렉토리로 이동하여 설치 명령을 실행합니다:
cd MMAudio
pip install -e .
사용법
- 데모 스크립트 실행MMAudio는 사용자가 다음 명령을 사용하여 기본 large_44k 모델을 실행할 수 있는 몇 가지 데모 스크립트를 제공합니다:
python demo.py
- 동영상 또는 텍스트 입력필요에 따라 비디오 파일 또는 텍스트를 입력하면 MMAudio가 해당 동기화된 오디오를 생성합니다.
- 결과 보기생성된 오디오는 입력된 비디오 프레임과 동기화되며 사용자가 직접 보고 사용할 수 있습니다.
세부 기능 작동 흐름
- 비디오-오디오 생성비디오 파일을 입력으로 사용하고 데모 스크립트를 실행하면 MMAudio가 비디오와 동기화된 오디오를 자동으로 생성합니다.
- 텍스트-오디오 생성: 텍스트를 입력으로 받아 해당 스크립트를 실행하면 MMAudio가 해당 오디오를 생성합니다.
- 공동 멀티모달 교육사용자는 제공된 학습 코드를 기반으로 자체 데이터 세트에 대해 멀티모달 공동 학습을 수행하여 모델 생성을 향상시킬 수 있습니다.
- 동기화 모듈모듈은 생성된 오디오를 비디오 프레임에 자동으로 정렬하여 오디오와 비디오가 동기화되도록 합니다.
주의
- 환경 요구 사항현재 우분투 시스템에서만 테스트되었으며, 다른 시스템에서는 추가 구성이 필요할 수 있습니다.
- 종속성 버전설치된 종속성 버전이 프로젝트 요구 사항과 일치하는지 확인하여 호환성 문제를 방지하세요.
- 사전 교육 모델데모 스크립트를 실행할 때 사전 학습된 모델이 자동으로 다운로드되거나 사용자가 수동으로 다운로드하여 지정된 디렉터리에 배치할 수 있습니다.
이 단계를 통해 사용자는 MMAudio를 빠르게 설치하고 사용하여 고품질의 동기화된 오디오를 생성할 수 있습니다. 자세한 사용 도움말과 데모 스크립트는 사용자가 도구를 더 잘 이해하고 작동하는 데 도움이 됩니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...