드림톡: 하나의 아바타 이미지로 표현력 있는 토킹 동영상을 생성하세요!

68.5K 00

드림톡 일반 소개

드림톡은 칭화대학교, 알리바바 그룹, 화중과학기술대학교가 공동으로 개발한 확산 모델 기반의 표현형 토킹 헤드 생성 프레임워크입니다. 노이즈 감소 네트워크, 스타일 인식 립 전문가, 스타일 예측기의 세 가지 주요 구성 요소로 구성되어 있으며, 오디오 입력을 기반으로 다양하고 사실적인 토킹 헤드를 생성할 수 있습니다. 이 프레임워크는 다국어와 잡음이 있는 오디오를 모두 처리할 수 있어 고품질의 얼굴 모션과 정확한 입 동기화를 제공합니다.

드림톡 기능 목록

오디오를 기반으로 사실적인 토킹 헤드 비디오 생성
다국어 및 음성 입력 지원
다양한 스타일 및 표현식 출력 지원
사용자 지정 캐릭터 아바타 및 스타일 참조 지원
온라인 데모 및 코드 다운로드 지원

드림톡 도움말

자세한 정보 및 데모 동영상을 보려면 프로젝트 홈페이지를 방문하세요.
논문 주소를 방문하여 기술적 세부 사항과 실험 결과를 읽어보세요.
코드와 사전 학습된 모델을 다운로드하려면 GitHub 주소를 방문하세요.
설치 가이드에 따라 환경 및 종속성을 구성하세요.
inference_for_demo_video.py를 실행하여 비디오를 추론하고 생성합니다.
매개변수 설명에 따라 입력 및 출력 옵션을 조정하세요.