Hallo2: 오디오 기반 립싱크/표정 동기화 인물 동영상 생성(Windows의 경우 원클릭 설치)

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
1.9K 00

일반 소개

Hallo2는 푸단대학교와 바이두가 오디오 기반 생성을 통해 고해상도 인물 애니메이션을 생성하기 위해 공동 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 GAN(생성적 적대 신경망)과 시간적 정렬 기술을 활용하여 4K 해상도와 최대 1시간 분량의 동영상을 생성하며, 생성된 콘텐츠의 다양성과 제어 가능성을 높이기 위해 텍스트 프롬프트도 지원합니다.

오디오 신호와 얼굴 표정 사이의 복잡한 관계를 효과적으로 포착하는 교차 주의 메커니즘을 도입하여 오디오 컨디셔닝을 가능하게 하는 Hallo3가 출시되어 놀라운 립싱크를 실현했습니다.

참고: Hallo3는 추론을 위한 입력 데이터에 대해 다음과 같은 간단한 요구 사항을 가지고 있습니다:

  • 참조 이미지: 참조 이미지의 가로 세로 비율은 1:1 또는 3:2여야 합니다.
  • 드라이버 오디오: 드라이버 오디오는 WAV 형식이어야 합니다.
  • 오디오 언어: 모델의 학습 데이터 세트에 이 언어만 포함되어 있으므로 오디오는 영어여야 합니다.
  • 오디오 선명도: 오디오에서 보컬이 선명한지, 배경 음악은 허용되는지 확인합니다.
Hallo2:音频驱动生成口型/表情同步的肖像视频(Windows一键安装)

 

기능 목록

  • 오디오 기반 애니메이션 생성: 오디오 파일을 입력하여 해당 세로 애니메이션을 생성합니다.
  • 고해상도 지원선명한 화질을 보장하기 위해 4K 해상도의 동영상 생성을 지원합니다.
  • 긴 동영상 생성최대 1시간 길이의 동영상 콘텐츠를 생성할 수 있습니다.
  • 텍스트 알림 개선시맨틱 텍스트 레이블을 통해 생성된 인물 표현 및 동작을 제어합니다.
  • 오픈 소스전체 소스 코드와 사전 학습된 모델이 제공되어 2차 개발이 용이합니다.
  • 멀티 플랫폼 지원Windows, Linux 등 여러 플랫폼에서 실행을 지원합니다.

 

도움말 사용

설치 프로세스

  1. 시스템 요구 사항::
    • 운영 체제: 우분투 20.04/22.04
    • GPU: CUDA 11.8을 지원하는 그래픽 카드(예: A100)
  2. 가상 환경 만들기::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. 종속성 설치::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    sudo apt-get install ffmpeg
    
  4. 사전 학습된 모델 다운로드::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

사용 프로세스

  1. 데이터 입력 준비::
    • 필요한 사전 학습된 모델을 다운로드하여 준비합니다.
    • 소스 이미지와 드라이버 오디오 파일을 준비합니다.
  2. 추론 스크립트 실행::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. 생성된 결과 보기::
    • 생성된 동영상 파일은 지정된 출력 디렉토리에 저장되며 모든 동영상 플레이어를 사용하여 볼 수 있습니다.

세부 단계

  1. 코드 다운로드::
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. 가상 환경 만들기 및 활성화::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. 필요한 Python 패키지 설치::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    
  4. ffmpeg 설치::
    sudo apt-get install ffmpeg
    
  5. 사전 학습된 모델 다운로드::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. 추론 스크립트 실행::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. 생성된 결과 보기::
    • 생성된 동영상 파일은 지정된 출력 디렉토리에 저장되며 모든 동영상 플레이어를 사용하여 볼 수 있습니다.

 

안녕하세요2: Windows 원클릭 설치 프로그램

https://pan.quark.cn/s/aa9fc15a786f
추출 코드: 51XY

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...