DiffPortrait360: 단일 인물 사진에서 360도 헤더 뷰 생성

54.5K 00

일반 소개

DiffPortrait360은 CVPR 2025 논문 "DiffPortrait360: 360도 뷰 합성을 위한 일관된 인물 사진 확산"의 일부인 오픈 소스 프로젝트입니다. 이 프로젝트는 하나의 인물 사진에서 일관된 360도 머리 뷰를 생성하여 실제 사람, 양식화된 이미지, 의인화된 캐릭터를 지원하며 안경과 모자 같은 디테일까지도 포함합니다. 이 프로젝트는 확산 모델(LDM)을 기반으로 하며, 컨트롤넷 및 듀얼 어프런스 모듈과 결합하여 실시간 프리뷰 렌더링에 사용할 수 있는 고품질 신경 방사 필드(NeRF)를 생성합니다. 몰입형 텔레프레즌스 및 개인화된 콘텐츠 제작에 적합하며 이미 학계와 개발자 커뮤니티에서 주목받고 있습니다.

기능 목록

한 장의 인물 사진으로 360도 헤드 뷰를 생성합니다.
실제 사람, 양식화된 이미지 및 의인화된 캐릭터 생성을 지원합니다.
컨트롤넷을 사용하여 사실적인 보기를 위해 백 디테일을 생성합니다.
프리뷰 렌더링 지원으로 고품질 NeRF 모델을 출력하세요.
듀얼 외관 모듈을 통해 전면과 후면 뷰의 일관성을 유지합니다.
개발자가 사용하고 수정할 수 있는 오픈 소스 추론 코드와 사전 학습된 모델을 제공합니다.
인터넷에서 캡처한 테스트 데이터와 펙셀 및 1000개의 실제 인물 사진을 제공합니다.

도움말 사용

DiffPortrait360은 개발자와 연구자를 위한 도구이며 특정 기술 기반이 필요합니다. 다음은 설치 및 사용에 대한 자세한 지침입니다.

설치 프로세스

하드웨어 및 시스템 준비
CUDA를 지원하는 NVIDIA GPU와 최소 30GB의 RAM(32프레임의 동영상을 생성하려면)이 필요하며, 80GB(예: A6000)를 권장합니다. 운영 체제는 Linux여야 합니다.
- CUDA 버전을 확인하면 12.2를 실행하는 것이 좋습니다:
```
nvcc --version
```
환경 만들기
Conda로 Python 3.9 환경 만들기:

conda env create -n diffportrait360 python=3.9
conda activate diffportrait360

코드 복제
프로젝트 코드를 로컬에 다운로드하세요:

git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release

종속성 설치
프로젝트 제안 requirements.txt를 클릭하고 다음 명령을 실행하여 설치합니다:

pip install -r requirements.txt

종속성 충돌이 발생하면 pip를 업데이트하세요:
```
pip install --upgrade pip
```

사전 학습된 모델 다운로드
허깅 페이스에서 모델을 다운로드하세요:

인터뷰 HF 링크.
다운로드 PANO_HEAD_MODEL및Head_Back_MODEL 노래로 응답 Diff360_MODEL.
모델을 로컬 경로에 배치하고 inference.sh 예를 들어 해당 경로를 수정합니다:
```
PANO_HEAD_MODEL=/path/to/pano_head_model
```

인증 환경
GPU를 사용할 수 있는지 확인합니다:

python -c "import torch; print(torch.cuda.is_available())"

수출 True 정상 환경을 나타냅니다.

주요 기능의 작동

360도 헤더 뷰 생성

데이터 입력 준비

권장 해상도 512x512 이상의 정면 인물 사진(JPEG 또는 PNG)을 준비합니다.
사진을 input_image/ 폴더(이 폴더가 없는 경우 수동으로 생성하세요).
gain dataset.json(카메라 정보)를 참조하세요. 팬노헤드 자르기 가이드 나만의 사진을 처리하세요.

추론 스크립트 실행

코드 디렉토리로 이동합니다:
```
cd diffportrait360_release/code
```
경영진 추론:
```
bash inference.sh
```
출력은 지정된 폴더에 저장됩니다(기본값). output/).

결과 보기

출력은 멀티앵글 뷰 이미지와 NeRF 모델 파일(.nerf (형식).
NeRFStudio와 같은 NeRF 렌더링 툴을 사용하여 로드합니다. .nerf 파일을 열고 시야각을 조정하여 360도 효과를 확인합니다.

컨트롤넷으로 백사이드 최적화하기

존재 inference.sh 수정 매개변수에서 백사이드 생성 모듈을 활성화합니다:

--use_controlnet

실행 후에는 복잡한 장면에서 뒷면 디테일이 더욱 사실적으로 표현됩니다.

사용자 지정 데이터 추론

사용자 지정 사진을 input_image/.
생성 dataset.json카메라 정보가 올바른지 확인하세요.
실행 중입니다:

bash inference.sh

주의

GPU 메모리가 부족하면 오류가 발생할 수 있으므로 메모리 용량이 높은 그래픽 카드를 사용하는 것이 좋습니다.
이 프로젝트는 교육 코드를 제공하지 않으며 추론만 지원합니다. 최신 진행 상황을 보려면 GitHub 업데이트를 팔로우하세요.
테스트 데이터는 포옹하는 얼굴 펙셀과 1000개의 실제 인물 사진으로 다운로드하세요.

애플리케이션 시나리오

몰입형 원격 회의
사용자는 사진 한 장으로 360도 헤드 뷰를 생성하여 가상 회의의 현실감을 높일 수 있습니다.
게임 캐릭터 디자인
개발자는 컨셉 드로잉에서 3D 헤드 모델을 생성하여 게임 개발 프로세스를 가속화할 수 있습니다.
디지털 아트 제작
아티스트는 이를 사용하여 NFT 또는 소셜 미디어 프레젠테이션을 위한 양식화된 아바타를 생성할 수 있습니다.

QA

최소 하드웨어 요구 사항은 무엇인가요?
CUDA를 지원하는 NVIDIA GPU가 필요하며, 최소 30GB RAM, 80GB 권장.
저해상도 사진을 지원하나요?
권장하지 않습니다. 입력 해상도가 512x512보다 낮으면 디테일이 손실되고 결과가 저하될 수 있습니다.
동영상을 생성할 수 있나요?
현재 버전은 정적 보기 시퀀스를 생성하며, 도구에서 비디오로 변환할 수 있지만 동적 비디오의 직접 출력은 지원하지 않습니다.