X-Dyna: 미시의 사진을 춤추게 만드는 스틸 인물 레퍼런스 비디오 포즈 생성 비디오

54.3K 00

일반 소개

X-Dyna는 제로 샘플 확산 기법을 통해 역동적인 인물 애니메이션을 생성하기 위해 ByteDance에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 주행 비디오의 얼굴 표정과 신체 움직임을 사용하여 개별 인물 이미지를 애니메이션화하여 사실적이고 상황에 맞는 애니메이션을 생성합니다. x-Dyna는 참조 이미지의 외관 컨텍스트를 확산 백본 네트워크의 공간적 관심에 원활하게 통합하는 동적 어댑터 모듈을 도입하여 인물 비디오 애니메이션의 생생함과 디테일을 향상시킵니다.

기능 목록

동적 인물 애니메이션 생성: 드라이브 동영상에서 얼굴 표정과 몸의 움직임을 사용하여 사실적인 동적 인물 애니메이션을 생성합니다.
제로 샘플 확산 기법: 사전 학습 데이터 없이 고품질 애니메이션을 생성합니다.
다이내믹 어댑터 모듈: 참조 이미지 컨텍스트를 통합하여 애니메이션의 디테일과 생생함을 향상시킵니다.
표정 전송: 로컬 제어 모듈을 통해 표정을 캡처하여 정밀한 표정 전송이 가능합니다.
평가 코드: 애니메이션 품질을 평가하기 위한 다양한 평가 지표(예: DTFVD, Face-Cos, Face-Det, FID 등)를 제공합니다.
오픈 소스 코드 및 모델: 사용 편의성과 2차 개발을 위해 완전한 추론 코드와 사전 학습된 모델이 제공됩니다.

도움말 사용

설치 프로세스

프로젝트 웨어하우스 복제:

   git clone https://github.com/bytedance/X-Dyna.git
cd X-Dyna

종속성을 설치합니다:

   pip install -r requirements.txt

PyTorch 2.0 환경을 설치합니다:

   bash env_torch2_install.sh

사용법

입력 이미지와 드라이브 비디오를 준비합니다:
- 입력 이미지: 세로 이미지 한 장입니다.
- 드라이브 비디오: 대상의 표정과 신체 움직임이 포함된 비디오입니다.
추론 코드를 실행하여 애니메이션을 생성합니다:

   python inference_xdyna.py --input_image path_to_image --driving_video path_to_video

생성된 애니메이션의 품질을 평가합니다:
- 생성된 애니메이션의 품질은 제공된 평가 코드와 데이터 세트를 사용하여 평가했습니다.

   python evaluate.py --generated_video path_to_generated_video --metrics DTFVD,Face-Cos,Face-Det,FID

세부 기능 작동 흐름

동적 인물 애니메이션 생성::
- 정적인 인물 이미지를 입력으로 선택합니다.
- 대상의 움직임과 표정이 담긴 드라이브 동영상을 선택합니다.
- 추론 코드를 실행하여 동적 인물 애니메이션을 생성합니다.
표정 전달::
- 로컬 제어 모듈을 사용하여 드라이브 비디오에서 얼굴 표정을 캡처하세요.
- 캡처한 표현식을 입력 이미지로 전송하여 정확한 표현식 애니메이션을 구현할 수 있습니다.
동적 어댑터 모듈::
- 동적 어댑터 모듈은 레퍼런스 이미지의 외관 컨텍스트를 확산 백본 네트워크의 공간적 관심에 원활하게 통합합니다.
- 이렇게 하면 생성된 애니메이션이 더욱 디테일하고 생생하게 유지됩니다.
평가 코드::
- 생성된 애니메이션의 품질을 평가하기 위한 다양한 평가 지표(예: DTFVD, Face-Cos, Face-Det, FID 등)가 제공됩니다.
- 사용자는 이러한 메트릭을 기반으로 생성된 애니메이션을 충분히 평가할 수 있습니다.
오픈 소스 코드 및 모델링::
- 이 프로젝트는 완전한 추론 코드와 사전 학습된 모델을 제공하여 사용자가 2차 개발 및 맞춤형 애플리케이션에 쉽게 사용할 수 있습니다.

자주 묻는 질문.

애니메이션이 부드럽지 않습니다.: 늘리십시오.num_mix또는 조정ddim_steps.
표정 불일치다음 중 하나를 선택해야 합니다.best_frame는 드라이브 비디오에서 소스 이미지와 표현이 가장 유사한 프레임에 해당합니다.

고급 사용.

성능 최적화LCM LoRA 모델을 사용하여 추론 단계 수를 줄임으로써 생성 속도를 향상시킬 수 있습니다.
사용자 지정 모델특정 요구사항이 있는 경우 README의 지침에 따라 모델을 수정하거나 확장할 수 있습니다.

다음 단계에 따라 사용자는 X-Dyna를 쉽게 시작하여 고품질의 동적 인물 애니메이션을 생성하고 생성된 애니메이션을 완벽하게 평가 및 최적화할 수 있습니다.

딥시크-RAG 챗봇: 로컬에서 실행되는 딥시크 RAG 챗봇

1 년 전

061.7K

Emigo: Emacs에서 AI를 사용한 복잡한 프로그래밍 작업을 위한 도우미

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

071.4K

EditorJumper：Cursor/Trae/Windsurf和JetBrains无缝切换工具

EditorJumper: 커서/트래/윈드서핑 및 JetBrains를 위한 원활한 전환 도구

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

1 년 전

063.3K

트랜스크립터: 오디오와 비디오를 텍스트로 변환하는 AI 스마트 전사 도구

12개월 전

078.3K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

X-Dyna: 미시의 사진을 춤추게 만드는 스틸 인물 레퍼런스 비디오 포즈 생성 비디오

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

세부 기능 작동 흐름

자주 묻는 질문.

고급 사용.

텐센트 하이브리드 3D(Hunyuan3D): 고해상도 3D 에셋 생성, 다양한 3D 머티리얼 생성 워크플로

흐름에 따라 이동: 동영상에서 움직이는 물체를 더하거나 빼는 등 동영상 속 물체의 움직임을 제어합니다.

관련 문서

딥시크-RAG 챗봇: 로컬에서 실행되는 딥시크 RAG 챗봇

Emigo: Emacs에서 AI를 사용한 복잡한 프로그래밍 작업을 위한 도우미

EditorJumper: 커서/트래/윈드서핑 및 JetBrains를 위한 원활한 전환 도구

트랜스크립터: 오디오와 비디오를 텍스트로 변환하는 AI 스마트 전사 도구

댓글 없음

최신 컬렉션

최신 기사

X-Dyna: 미시의 사진을 춤추게 만드는 스틸 인물 레퍼런스 비디오 포즈 생성 비디오

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용법

세부 기능 작동 흐름

자주 묻는 질문.

고급 사용.

텐센트 하이브리드 3D(Hunyuan3D): 고해상도 3D 에셋 생성, 다양한 3D 머티리얼 생성 워크플로

흐름에 따라 이동: 동영상에서 움직이는 물체를 더하거나 빼는 등 동영상 속 물체의 움직임을 제어합니다.

관련 문서

딥시크-RAG 챗봇: 로컬에서 실행되는 딥시크 RAG 챗봇

Emigo: Emacs에서 AI를 사용한 복잡한 프로그래밍 작업을 위한 도우미

EditorJumper: 커서/트래/윈드서핑 및 JetBrains를 위한 원활한 전환 도구

트랜스크립터: 오디오와 비디오를 텍스트로 변환하는 AI 스마트 전사 도구

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사