DiffPortrait360: 단일 인물 사진에서 360도 헤더 뷰 생성

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
1.7K 00

일반 소개

DiffPortrait360은 CVPR 2025 논문 "DiffPortrait360: 360도 뷰 합성을 위한 일관된 인물 사진 확산"의 일부인 오픈 소스 프로젝트입니다. 이 프로젝트는 하나의 인물 사진에서 일관된 360도 머리 뷰를 생성하여 실제 사람, 양식화된 이미지, 의인화된 캐릭터를 지원하며 안경과 모자 같은 디테일까지도 포함합니다. 이 프로젝트는 확산 모델(LDM)을 기반으로 하며, 컨트롤넷 및 듀얼 어프런스 모듈과 결합하여 실시간 프리뷰 렌더링에 사용할 수 있는 고품질 신경 방사 필드(NeRF)를 생성합니다. 몰입형 텔레프레즌스 및 개인화된 콘텐츠 제작에 적합하며 이미 학계와 개발자 커뮤니티에서 주목받고 있습니다.

DiffPortrait360:从单张人像生成360度头部视图

 

기능 목록

  • 한 장의 인물 사진으로 360도 헤드 뷰를 생성합니다.
  • 실제 사람, 양식화된 이미지 및 의인화된 캐릭터 생성을 지원합니다.
  • 컨트롤넷을 사용하여 사실적인 보기를 위해 백 디테일을 생성합니다.
  • 프리뷰 렌더링 지원으로 고품질 NeRF 모델을 출력하세요.
  • 듀얼 외관 모듈을 통해 전면과 후면 뷰의 일관성을 유지합니다.
  • 개발자가 사용하고 수정할 수 있는 오픈 소스 추론 코드와 사전 학습된 모델을 제공합니다.
  • 인터넷에서 캡처한 테스트 데이터와 펙셀 및 1000개의 실제 인물 사진을 제공합니다.

 

도움말 사용

DiffPortrait360은 개발자와 연구자를 위한 도구이며 특정 기술 기반이 필요합니다. 다음은 설치 및 사용에 대한 자세한 지침입니다.

설치 프로세스

  1. 하드웨어 및 시스템 준비
    CUDA를 지원하는 NVIDIA GPU와 최소 30GB의 RAM(32프레임의 동영상을 생성하려면)이 필요하며, 80GB(예: A6000)를 권장합니다. 운영 체제는 Linux여야 합니다.

    • CUDA 버전을 확인하면 12.2를 실행하는 것이 좋습니다:
      nvcc --version
      
  2. 환경 만들기
    Conda로 Python 3.9 환경 만들기:
conda env create -n diffportrait360 python=3.9
conda activate diffportrait360
  1. 코드 복제
    프로젝트 코드를 로컬에 다운로드하세요:
git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release
  1. 종속성 설치
    프로젝트 제안 requirements.txt를 클릭하고 다음 명령을 실행하여 설치합니다:
pip install -r requirements.txt
  • 종속성 충돌이 발생하면 pip를 업데이트하세요:
    pip install --upgrade pip
    
  1. 사전 학습된 모델 다운로드
    허깅 페이스에서 모델을 다운로드하세요:
  • 인터뷰 HF 링크.
  • 다운로드 PANO_HEAD_MODELHead_Back_MODEL 노래로 응답 Diff360_MODEL.
  • 모델을 로컬 경로에 배치하고 inference.sh 예를 들어 해당 경로를 수정합니다:
    PANO_HEAD_MODEL=/path/to/pano_head_model
    
  1. 인증 환경
    GPU를 사용할 수 있는지 확인합니다:
python -c "import torch; print(torch.cuda.is_available())"

수출 True 정상 환경을 나타냅니다.

주요 기능의 작동

360도 헤더 뷰 생성

  1. 데이터 입력 준비
  • 권장 해상도 512x512 이상의 정면 인물 사진(JPEG 또는 PNG)을 준비합니다.
  • 사진을 input_image/ 폴더(이 폴더가 없는 경우 수동으로 생성하세요).
  • gain dataset.json(카메라 정보)를 참조하세요. 팬노헤드 자르기 가이드 나만의 사진을 처리하세요.
  1. 추론 스크립트 실행
  • 코드 디렉토리로 이동합니다:
    cd diffportrait360_release/code
    
  • 경영진 추론:
    bash inference.sh
    
  • 출력은 지정된 폴더에 저장됩니다(기본값). output/).
  1. 결과 보기
  • 출력은 멀티앵글 뷰 이미지와 NeRF 모델 파일(.nerf (형식).
  • NeRFStudio와 같은 NeRF 렌더링 툴을 사용하여 로드합니다. .nerf 파일을 열고 시야각을 조정하여 360도 효과를 확인합니다.

컨트롤넷으로 백사이드 최적화하기

  • 존재 inference.sh 수정 매개변수에서 백사이드 생성 모듈을 활성화합니다:
--use_controlnet
  • 실행 후에는 복잡한 장면에서 뒷면 디테일이 더욱 사실적으로 표현됩니다.

사용자 지정 데이터 추론

  1. 사용자 지정 사진을 input_image/.
  2. 생성 dataset.json카메라 정보가 올바른지 확인하세요.
  3. 실행 중입니다:
bash inference.sh

주의

  • GPU 메모리가 부족하면 오류가 발생할 수 있으므로 메모리 용량이 높은 그래픽 카드를 사용하는 것이 좋습니다.
  • 이 프로젝트는 교육 코드를 제공하지 않으며 추론만 지원합니다. 최신 진행 상황을 보려면 GitHub 업데이트를 팔로우하세요.
  • 테스트 데이터는 포옹하는 얼굴 펙셀과 1000개의 실제 인물 사진으로 다운로드하세요.

 

애플리케이션 시나리오

  1. 몰입형 원격 회의
    사용자는 사진 한 장으로 360도 헤드 뷰를 생성하여 가상 회의의 현실감을 높일 수 있습니다.
  2. 게임 캐릭터 디자인
    개발자는 컨셉 드로잉에서 3D 헤드 모델을 생성하여 게임 개발 프로세스를 가속화할 수 있습니다.
  3. 디지털 아트 제작
    아티스트는 이를 사용하여 NFT 또는 소셜 미디어 프레젠테이션을 위한 양식화된 아바타를 생성할 수 있습니다.

 

QA

  1. 최소 하드웨어 요구 사항은 무엇인가요?
    CUDA를 지원하는 NVIDIA GPU가 필요하며, 최소 30GB RAM, 80GB 권장.
  2. 저해상도 사진을 지원하나요?
    권장하지 않습니다. 입력 해상도가 512x512보다 낮으면 디테일이 손실되고 결과가 저하될 수 있습니다.
  3. 동영상을 생성할 수 있나요?
    현재 버전은 정적 보기 시퀀스를 생성하며, 도구에서 비디오로 변환할 수 있지만 동적 비디오의 직접 출력은 지원하지 않습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...