일반 소개
X-Dyna는 제로 샘플 확산 기법을 통해 역동적인 인물 애니메이션을 생성하기 위해 ByteDance에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 주행 비디오의 얼굴 표정과 신체 움직임을 사용하여 개별 인물 이미지를 애니메이션화하여 사실적이고 상황에 맞는 애니메이션을 생성합니다. x-Dyna는 참조 이미지의 외관 컨텍스트를 확산 백본 네트워크의 공간적 관심에 원활하게 통합하는 동적 어댑터 모듈을 도입하여 인물 비디오 애니메이션의 생생함과 디테일을 향상시킵니다.
관련 권장 사항:StableAnimator: 캐릭터의 특징을 유지하는 고품질 비디오 애니메이션을 생성합니다. 및DisPose: 사람의 자세를 정밀하게 제어하여 춤추는 여성을 만드는 동영상 생성 및MOFA 비디오: 정지 이미지를 비디오로 변환하는 모션 필드 적응 기술


기능 목록
- 동적 인물 애니메이션 생성: 드라이브 동영상에서 얼굴 표정과 몸의 움직임을 사용하여 사실적인 동적 인물 애니메이션을 생성합니다.
- 제로 샘플 확산 기법: 사전 학습 데이터 없이 고품질 애니메이션을 생성합니다.
- 다이내믹 어댑터 모듈: 참조 이미지 컨텍스트를 통합하여 애니메이션의 디테일과 생생함을 향상시킵니다.
- 표정 전송: 로컬 제어 모듈을 통해 표정을 캡처하여 정밀한 표정 전송이 가능합니다.
- 평가 코드: 애니메이션 품질을 평가하기 위한 다양한 평가 지표(예: DTFVD, Face-Cos, Face-Det, FID 등)를 제공합니다.
- 오픈 소스 코드 및 모델: 사용 편의성과 2차 개발을 위해 완전한 추론 코드와 사전 학습된 모델이 제공됩니다.
도움말 사용
설치 프로세스
- 프로젝트 웨어하우스 복제:
git clone https://github.com/bytedance/X-Dyna.git
cd X-Dyna
- 종속성을 설치합니다:
pip install -r requirements.txt
- PyTorch 2.0 환경을 설치합니다:
bash env_torch2_install.sh
사용법
- 입력 이미지와 드라이브 비디오를 준비합니다:
- 입력 이미지: 세로 이미지 한 장입니다.
- 드라이브 비디오: 대상의 표정과 신체 움직임이 포함된 비디오입니다.
- 추론 코드를 실행하여 애니메이션을 생성합니다:
python inference_xdyna.py --input_image path_to_image --driving_video path_to_video
- 생성된 애니메이션의 품질을 평가합니다:
- 생성된 애니메이션의 품질은 제공된 평가 코드와 데이터 세트를 사용하여 평가했습니다.
python evaluate.py --generated_video path_to_generated_video --metrics DTFVD,Face-Cos,Face-Det,FID
세부 기능 작동 흐름
- 동적 인물 애니메이션 생성::
- 정적인 인물 이미지를 입력으로 선택합니다.
- 대상의 움직임과 표정이 담긴 드라이브 동영상을 선택합니다.
- 추론 코드를 실행하여 동적 인물 애니메이션을 생성합니다.
- 표정 전달::
- 로컬 제어 모듈을 사용하여 드라이브 비디오에서 얼굴 표정을 캡처하세요.
- 캡처한 표현식을 입력 이미지로 전송하여 정확한 표현식 애니메이션을 구현할 수 있습니다.
- 동적 어댑터 모듈::
- 동적 어댑터 모듈은 레퍼런스 이미지의 외관 컨텍스트를 확산 백본 네트워크의 공간적 관심에 원활하게 통합합니다.
- 이렇게 하면 생성된 애니메이션이 더욱 디테일하고 생생하게 유지됩니다.
- 평가 코드::
- 생성된 애니메이션의 품질을 평가하기 위한 다양한 평가 지표(예: DTFVD, Face-Cos, Face-Det, FID 등)가 제공됩니다.
- 사용자는 이러한 메트릭을 기반으로 생성된 애니메이션을 충분히 평가할 수 있습니다.
- 오픈 소스 코드 및 모델링::
- 이 프로젝트는 완전한 추론 코드와 사전 학습된 모델을 제공하여 사용자가 2차 개발 및 맞춤형 애플리케이션에 쉽게 사용할 수 있습니다.
자주 묻는 질문.
- 애니메이션이 부드럽지 않습니다.: 늘리십시오.
num_mix
또는 조정ddim_steps
. - 표정 불일치다음 중 하나를 선택해야 합니다.
best_frame
는 드라이브 비디오에서 소스 이미지와 표현이 가장 유사한 프레임에 해당합니다.
고급 사용.
- 성능 최적화LCM LoRA 모델을 사용하여 추론 단계 수를 줄임으로써 생성 속도를 향상시킬 수 있습니다.
- 사용자 지정 모델특정 요구사항이 있는 경우 README의 지침에 따라 모델을 수정하거나 확장할 수 있습니다.
다음 단계에 따라 사용자는 X-Dyna를 쉽게 시작하여 고품질의 동적 인물 애니메이션을 생성하고 생성된 애니메이션을 완벽하게 평가 및 최적화할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...