MMAudio: 비디오 영상에 동기화된 음향 효과 및 사운드 트랙 생성, 비디오-오디오 멀티모달 코트레이닝 도구

최신 AI 리소스9개월 전 업데이트 AI 공유 서클
13.9K 00

일반 소개

MMAudio는 공동 멀티모달 훈련을 통해 고품질의 동기화된 오디오를 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 홍콩 중문대학교의 호케이 쳉(Ho Kei Cheng) 등이 개발한 이 프로젝트의 주요 기능은 비디오 및/또는 텍스트 입력을 기반으로 동기화된 오디오를 생성하는 것으로, MMAudio의 핵심 혁신은 광범위한 오디오-비디오 및 오디오-텍스트 데이터 세트에 대해 훈련할 수 있는 멀티모달 공동 훈련 방식에 있습니다. 또한 동기화 모듈은 생성된 오디오를 비디오 프레임과 정렬할 수 있습니다. 이 프로젝트는 아직 개발 중이지만 단일 사례 추론 기능은 이미 작동 중이며 훈련 코드가 추가될 예정입니다. 오픈아트 사이트에서 관련 워크플로우를 검색할 수 있습니다.

MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

 

기능 목록

  • 비디오-오디오 생성수신되는 비디오를 기반으로 동기화된 오디오를 생성합니다.
  • 텍스트-오디오 생성: 입력 텍스트를 기반으로 오디오를 생성합니다.
  • 공동 멀티모달 교육오디오-비디오 및 오디오-텍스트 데이터 세트에 대한 공동 학습.
  • 동기화 모듈: 생성된 오디오를 비디오 프레임에 맞춥니다.
  • 오픈 소스전체 오픈 소스 코드를 제공하여 사용자가 2차 개발을 쉽게 할 수 있도록 합니다.
  • 사전 교육 모델사용자가 직접 사용할 수 있는 사전 학습된 다양한 모델이 제공됩니다.
  • 데모 스크립트사용자가 빠르게 시작할 수 있도록 다양한 데모 스크립트를 제공합니다.

 

도움말 사용

설치 프로세스

  1. 환경 준비미니포지 환경이 권장됩니다. Python 3.9 이상 및 PyTorch 2.5.1 이상과 이에 해당하는 torchvision/torchaudio를 설치해야 합니다.
  2. 종속성 설치: 다음 명령을 실행하여 필요한 종속성을 설치합니다:
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
  1. 클론 창고다음 명령을 사용하여 MMAudio 리포지토리를 복제합니다:
   git clone https://github.com/hkchengrex/MMAudio.git
  1. MMAudio 설치MMAudio 디렉토리로 이동하여 설치 명령을 실행합니다:
   cd MMAudio
pip install -e .

사용법

  1. 데모 스크립트 실행MMAudio는 사용자가 다음 명령을 사용하여 기본 large_44k 모델을 실행할 수 있는 몇 가지 데모 스크립트를 제공합니다:
   python demo.py
  1. 동영상 또는 텍스트 입력필요에 따라 비디오 파일 또는 텍스트를 입력하면 MMAudio가 해당 동기화된 오디오를 생성합니다.
  2. 결과 보기생성된 오디오는 입력된 비디오 프레임과 동기화되며 사용자가 직접 보고 사용할 수 있습니다.

세부 기능 작동 흐름

  • 비디오-오디오 생성비디오 파일을 입력으로 사용하고 데모 스크립트를 실행하면 MMAudio가 비디오와 동기화된 오디오를 자동으로 생성합니다.
  • 텍스트-오디오 생성: 텍스트를 입력으로 받아 해당 스크립트를 실행하면 MMAudio가 해당 오디오를 생성합니다.
  • 공동 멀티모달 교육사용자는 제공된 학습 코드를 기반으로 자체 데이터 세트에 대해 멀티모달 공동 학습을 수행하여 모델 생성을 향상시킬 수 있습니다.
  • 동기화 모듈모듈은 생성된 오디오를 비디오 프레임에 자동으로 정렬하여 오디오와 비디오가 동기화되도록 합니다.

주의

  • 환경 요구 사항현재 우분투 시스템에서만 테스트되었으며, 다른 시스템에서는 추가 구성이 필요할 수 있습니다.
  • 종속성 버전설치된 종속성 버전이 프로젝트 요구 사항과 일치하는지 확인하여 호환성 문제를 방지하세요.
  • 사전 교육 모델데모 스크립트를 실행할 때 사전 학습된 모델이 자동으로 다운로드되거나 사용자가 수동으로 다운로드하여 지정된 디렉터리에 배치할 수 있습니다.

이 단계를 통해 사용자는 MMAudio를 빠르게 설치하고 사용하여 고품질의 동기화된 오디오를 생성할 수 있습니다. 자세한 사용 도움말과 데모 스크립트는 사용자가 도구를 더 잘 이해하고 작동하는 데 도움이 됩니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...