PSHuman: 사실적인 3D 인물 모델 생성, 사진을 사용하여 3D 인체 모델링 생성

63.8K 00

일반 소개

PSHuman은 멀티뷰 확산 기술을 기반으로 한 단일 이미지 3D 인물 재구성 툴입니다. 이 도구는 옷을 입은 사람의 단일 사진에서 상세한 기하학적 구조와 사실적인 3D 인물 모델을 생성할 수 있으며, PSHuman의 핵심 기술에는 단기간에 고품질 3D 인물 사진을 생성할 수 있는 크로스 스케일 멀티뷰 확산이 포함됩니다. pengHTYX 팀이 개발한 이 프로젝트는 사용자에게 효율적이고 사용하기 쉬운 3D 인물 모델링 솔루션을 제공하는 것을 목표로 합니다.

기능 목록

단일 이미지 3D 인물 사진 재구성: 단일 인물 사진에서 상세한 3D 모델을 생성합니다.
멀티뷰 확산: 크로스 스케일 멀티뷰 확산을 사용하여 고품질 3D 인물 사진을 생성합니다.
SMPL 프리 버전: SMPL 조건 없이 멀티뷰를 생성하여 일반적인 포즈 인물 사진에 적합합니다.
배경 제거: 클립드롭 또는 rembg 도구를 사용하여 배경 제거를 지원합니다.
구조화된 출력: 생성된 3D 모델과 렌더링된 동영상은 구조화된 파일로 저장되어 쉽게 보고 공유할 수 있습니다.

도움말 사용

설치 프로세스

가상 환경을 만들고 종속 요소를 설치합니다:

$ conda create -n pshuman python=3.10
$ conda activate pshuman
$ pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
$ pip install kaolin==0.17.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html
$ pip install -r requirements.txt

관련 모델을 구성합니다:
- ECON 및 SIFU 관련 모델을 다운로드하여 프로젝트로 재구성하세요.

사용 프로세스

배경 제거클립드롭 또는 rembg 도구를 사용하여 인물 사진의 배경을 제거합니다. rembg 도구의 경우 다음 스크립트를 실행할 수 있습니다:
```
$ python utils/remove_bg.py --path $DATA_PATH$
```
생성된 RGBA 이미지를 카탈로그.

추론 실행inference.py 스크립트를 실행하여 텍스처 메시를 생성하고 동영상을 렌더링합니다:

$ CUDA_VISIBLE_DEVICES=$GPU python inference.py --config configs/inference-768-6view.yaml \
pretrained_model_name_or_path='pengHTYX/PSHuman_Unclip_768_6views' \
validation_dataset.crop_size=740 \
with_smpl=false \
validation_dataset.root_dir=$DATA_PATH$ \
seed=600 \
num_views=7 \
save_mode='rgb'