ER NeRF: 고음질 토킹 헤드를 위한 비디오 합성 시스템 구축

50.7K 00

일반 소개

ER-NeRF(효율적인 영역 인식 신경 방사 필드)는 ICCV 2023에서 발표된 오픈 소스 말하는 캐릭터 합성 시스템입니다. 이 프로젝트는 지역 인식 신경 방사 필드 기술을 활용하여 말하는 캐릭터의 고충실도 비디오를 효율적으로 생성합니다. 이 시스템의 주요 특징은 캐릭터의 머리와 몸통을 개별적으로 모델링하는 지역화된 처리 방식과 보다 정확한 입술 동기화를 가능하게 하는 혁신적인 오디오 공간 분해 기법입니다. 이 프로젝트는 완전한 훈련 및 추론 코드를 제공하고, 맞춤형 훈련 비디오를 지원하며, 다양한 오디오 특징 추출기(예: DeepSpeech, Wav2Vec, HuBERT 등)를 사용하여 오디오 입력을 처리할 수 있습니다. 이 시스템은 시각적 품질과 계산 효율성 모두에서 상당한 개선을 달성하여 말하는 캐릭터 합성 분야에서 중요한 기술 솔루션을 제공합니다.

새 프로젝트: https://github.com/Fictionarry/TalkingGaussian

기능 목록

말하는 헤드의 고음질 비디오 합성
영역 인식을 위한 신경 방사선 필드 렌더링
머리와 몸통의 별도 모델링 지원
정확한 립싱크 동기화
다중 오디오 특징 추출 지원(DeepSpeech/Wav2Vec/HuBERT)
맞춤형 비디오 교육 지원
오디오 기반 캐릭터 애니메이션 생성
부드러운 머리 움직임 제어
깜박임 모션 지원(AU45 기능)
LPIPS 미세 조정 최적화 기능

도움말 사용

1. 환경 설정

시스템 운영 환경 요구 사항:

우분투 18.04 운영 체제
PyTorch 버전 1.12
CUDA 11.3
설치 단계:

콘다 환경을 만듭니다:

conda create -n ernerf python=3.10
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt

추가 종속성을 설치합니다:

pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0

전처리 모델 준비 2.

다음 모델 파일을 다운로드하여 준비해야 합니다:

얼굴 구문 분석 모델
3DMM 머리 자세 추정 모델
바젤 페이스 모델 2009

3. 비디오 교육 프로세스 사용자 지정

동영상 준비 요구 사항:
- 형식: MP4
- 프레임 속도: 25FPS
- 해상도: 512x512 권장
- 소요 시간: 1~5분
- 각 프레임에 말하는 캐릭터가 포함되어야 합니다.
데이터 전처리:

python data_utils/process.py data/<ID>/<ID>.mp4

오디오 특징 추출(세 가지 중 하나):

딥스피치 특징 추출:

python data_utils/deepspeech_features/extract_ds_features.py --input data/<n>.wav

Wav2Vec 특징 추출:

python data_utils/wav2vec.py --wav data/<n>.wav --save_feats

휴버트 특징 추출(권장):

python data_utils/hubert.py --wav data/<n>.wav

4. 모델 교육

훈련은 머리 훈련과 몸통 훈련의 두 단계로 나뉩니다:

헤드 트레이닝:

python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32

몸통 훈련:

python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt <head>.pth --iters 200000

5. 모델 테스트 및 추론

모델 효과를 테스트합니다:

# 仅渲染头部
python main.py data/obama/ --workspace trial_obama/ -O --test
# 渲染头部和躯干
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test

타겟 오디오로 추론하기:

python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud <audio>.npy

팁: --smooth_path 파라미터를 추가하면 헤드 지터가 줄어들지만 자세 정확도가 떨어질 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

SVG.la: 텍스트 또는 이미지에서 SVG 그래픽 변환, 벡터 그래픽 변환

최신 AI 리소스 # AI 이미지 스타일 제어

1 년 전

057.6K

작은 언어 수업: 소규모 영어 학습 실험을 위한 AI 기반 도구

최신 AI 리소스 # AI 교육 도구

10개월 전

091.8K

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

최신 AI 리소스

6개월 전

037.2K

Gomoon: 대규모 모델 대화를 위한 데스크톱 효율성 도구

최신 AI 리소스 # AI 현지화 채팅 애플리케이션

1 년 전

053.1K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

ER NeRF: 고음질 토킹 헤드를 위한 비디오 합성 시스템 구축

일반 소개

기능 목록

도움말 사용

1. 환경 설정

전처리 모델 준비 2.

3. 비디오 교육 프로세스 사용자 지정

4. 모델 교육

5. 모델 테스트 및 추론

GitHub Copilot: Visual Studio Code에서 사용할 수 있도록 통합된 AI 프로그래밍 도우미

FoleyCrafter: 무음 동영상에 생생한 동기화 사운드 추가하기

관련 문서

SVG.la: 텍스트 또는 이미지에서 SVG 그래픽 변환, 벡터 그래픽 변환

작은 언어 수업: 소규모 영어 학습 실험을 위한 AI 기반 도구

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

Gomoon: 대규모 모델 대화를 위한 데스크톱 효율성 도구

댓글 없음

최신 컬렉션

최신 기사

ER NeRF: 고음질 토킹 헤드를 위한 비디오 합성 시스템 구축

일반 소개

기능 목록

도움말 사용

1. 환경 설정

전처리 모델 준비 2.

3. 비디오 교육 프로세스 사용자 지정

4. 모델 교육

5. 모델 테스트 및 추론

GitHub Copilot: Visual Studio Code에서 사용할 수 있도록 통합된 AI 프로그래밍 도우미

FoleyCrafter: 무음 동영상에 생생한 동기화 사운드 추가하기

관련 문서

SVG.la: 텍스트 또는 이미지에서 SVG 그래픽 변환, 벡터 그래픽 변환

작은 언어 수업: 소규모 영어 학습 실험을 위한 AI 기반 도구

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

Gomoon: 대규모 모델 대화를 위한 데스크톱 효율성 도구

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사