MIDI-3D: 단일 이미지에서 멀티 오브젝트 3D 씬을 빠르게 생성하는 오픈 소스 툴입니다.

62.7K 00

일반 소개

MIDI-3D는 개발자, 연구자, 크리에이터를 위해 단일 이미지에서 여러 개체가 포함된 3D 장면을 빠르게 생성하는 오픈 소스 프로젝트로 VAST-AI-Research 팀에서 개발했습니다. 이 도구는 다중 인스턴스 확산 모델링 기법을 기반으로 하며, 인공지능과 3D 모델링을 결합하여 여러 개의 고품질 3D 오브젝트를 동시에 생성하고 공간 관계를 유지합니다.MIDI-3D는 CVPR 2025에서 공개되었으며 코드, 모델 가중치, 온라인 데모가 모두 공개되어 있습니다. 사실적인 이미지와 카툰 스타일의 이미지 입력을 모두 지원하며, 생성 시간은 40초 정도로 짧고 출력 파일은 다음과 같습니다. .glb 포맷으로 변환하여 다른 소프트웨어에서 편집할 수 있습니다. 이 프로젝트는 3D 장면 제작을 간소화하고 더 많은 사람들이 디지털 에셋을 쉽게 만들 수 있도록 하는 것을 목표로 합니다.

기능 목록

하나의 이미지에서 여러 개체가 포함된 3D 장면을 생성하여 사실적인 스타일과 만화 스타일을 모두 지원합니다.
이미지 분할 기능을 제공하여 사진 속 개체를 자동으로 식별하고 라벨을 붙일 수 있습니다.
분리 가능한 여러 개의 3D 인스턴스를 동시에 생성하여 완전한 씬으로 자동 결합할 수 있습니다.
명령줄 작업과 대화형 웹 프레젠테이션을 모두 지원합니다.
빠른 시작을 위해 사전 학습된 모델 가중치를 로컬에서 자동으로 다운로드합니다.
수출 .glb 후속 편집에 사용하거나 다른 소프트웨어로 가져올 수 있는 형식의 3D 모델 파일입니다.
생성 프로세스는 효율적이며 객체별 모델링이나 오랜 최적화가 필요하지 않습니다.

도움말 사용

MIDI-3D의 사용은 설치와 작동의 두 부분으로 나뉩니다. 다음은 처음부터 시작하는 데 도움이 되는 자세한 단계입니다.

설치 프로세스

하드웨어 및 소프트웨어 환경 준비
MIDI-3D는 GPU 가속에 의존하므로 CUDA 지원 컴퓨터가 필요합니다. 6GB 이상의 비디오 메모리가 있는 NVIDIA GPU를 권장합니다. Python 3.10 이상이 설치되어 있는지 확인합니다.
가상 환경 만들기(선택 사항)
충돌을 피하기 위해 새 Conda 환경을 만들 수 있습니다:

conda create -n midi python=3.10
conda activate midi

PyTorch 설치
사용 중인 GPU의 CUDA 버전에 따라 PyTorch를 설치합니다(예: CUDA 11.8의 경우 명령은 다음과 같습니다):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

버전이 다른 경우 https://pytorch.org/get-started/locally/ 으로 이동하여 해당 명령을 선택하세요.

프로젝트 코드 다운로드
터미널에서 다음 명령을 실행하여 MIDI-3D 리포지토리를 복제합니다:

git clone https://github.com/VAST-AI-Research/MIDI-3D.git
cd MIDI-3D

종속성 설치
프로젝트 제안 requirements.txt 파일에서 다음 명령을 실행하여 모든 종속성을 설치합니다:

pip install -r requirements.txt

모델 가중치 가져오기
스크립트를 실행할 때 MIDI-3D는 https://huggingface.co/VAST-AI/MIDI-3D 에서 사전 학습된 모델을 자동으로 다운로드하고, 해당 모델을 pretrained_weights/MIDI-3D 폴더에 다운로드합니다. 네트워크가 불안정한 경우 해당 경로로 수동으로 다운로드하여 압축을 풀 수도 있습니다.

워크플로

MIDI-3D는 명령줄과 인터랙티브 데모의 두 가지 사용 방법을 지원합니다. 구체적인 단계는 다음과 같습니다.

명령줄 작업

분할 차트 생성
MIDI-3D에는 그림과 해당 세분화 맵(객체 영역의 라벨링)이 필요합니다. 세분화 맵은 포함된 Grounded SAM 스크립트를 사용하여 생성할 수 있습니다. 예를 들어 다음과 같은 그림이 있습니다. 04_rgb.png실행 중입니다:

python -m scripts.grounding_sam --image assets/example_data/Cartoon-Style/04_rgb.png --labels "lamp sofa table dog" --output ./segmentation.png

--image 입력 이미지 경로를 지정합니다.
--labels 사진에 있는 객체의 이름을 공백으로 구분하여 입력합니다.
--output 세분화 다이어그램이 저장되는 경로를 지정합니다.
실행하면 segmentation.png 문서화.

3D 장면 생성
사진과 분할 지도가 포함된 3D 장면을 생성하려면 다음 명령을 실행합니다:

python -m scripts.inference_midi --rgb assets/example_data/Cartoon-Style/00_rgb.png --seg assets/example_data/Cartoon-Style/00_seg.png --output-dir "./output"

--rgb 는 원래 지도 경로입니다.
--seg 는 분할 그래프 경로입니다.
--output-dir 는 출력 폴더 경로입니다.
생성된 3D 장면은 다음과 같이 저장됩니다. output.glb 파일에 추가하는 데 보통 40초에서 1분 정도 걸립니다. 개체가 사진의 가장자리 근처에 있는 경우 매개변수를 추가하는 것이 좋습니다. --do-image-paddingAs:

python -m scripts.inference_midi --rgb 00_rgb.png --seg 00_seg.png --output-dir "./output" --do-image-padding

대화형 프레젠테이션

스타트업 데모
다음 명령을 실행하여 Gradio 인터페이스를 시작합니다:

python gradio_demo.py

시스템이 자동으로 브라우저를 열고 작동 페이지를 표시합니다. 온라인 데모는 https://huggingface.co/spaces/VAST-AI/MIDI-3D 에서 확인할 수도 있습니다.

이미지 업로드 및 분할
인터페이스에서 "이미지 입력"을 클릭하여 이미지를 업로드합니다. 그런 다음 마우스를 사용하여 객체 영역을 선택하면 시스템이 자동으로 세분화 맵을 생성하여 "세분화 결과"에 표시합니다.
3D 장면 생성
'세분화 실행'을 클릭하여 세분화 맵을 확인하고 매개변수(예: 무작위 시드)를 조정한 다음 생성 버튼을 클릭합니다. 몇 초 후 인터페이스에 3D 모델이 표시되면 클릭하여 다운로드합니다. .glb 문서화.

기능

이미지 세분화
Grounded SAM은 사진 속 오브젝트를 자동으로 인식하고 분할 맵을 생성하는 MIDI-3D용 전처리 도구입니다. 객체 이름(예: "램프 소파")을 입력하거나 대화형 인터페이스에서 수동으로 선택할 수 있습니다. 높은 세분화 정확도로 다중 오브젝트 장면을 지원합니다.
다중 오브젝트 3D 생성
MIDI-3D는 다중 인스턴스 확산 모델링을 사용하여 여러 3D 오브젝트를 동시에 생성하고 공간 관계를 유지합니다. 예를 들어 거실 사진을 찍으면 소파, 테이블, 램프의 3D 모델을 생성하여 전체 장면을 직접 구성할 수 있습니다. 기존의 오브젝트별 생성 방식보다 속도가 빠릅니다.
모델 출력
생성됨 .glb 파일은 Blender, Unity 및 기타 소프트웨어와 호환됩니다. 파일을 가져오고, 머티리얼, 조명을 조정하거나 애니메이션을 추가하여 다양한 요구 사항을 충족할 수 있습니다.

추가 리소스

교육용 비디오
공식 사용법 동영상(https://github.com/VAST-AI-Research/MIDI-3D 참조)을 통해 이미지 업로드부터 3D 장면 생성까지의 과정을 자세히 설명합니다.
참고 문헌
기술적인 자세한 내용은 https://arxiv.org/abs/2412.03558 에서 확인할 수 있습니다.

자주 묻는 질문

생성에 실패하면 GPU가 이를 지원하는지 확인하거나 세분화 맵이 올바른지 확인하세요.
객체 세부 정보가 누락된 경우 더 높은 해상도의 이미지를 사용해 보세요.

애플리케이션 시나리오

게임 개발
개발자는 MIDI-3D를 사용하여 스케치에서 3D 씬을 생성할 수 있습니다. 예를 들어, 숲 그림을 나무와 지형의 3D 모델로 빠르게 변환하여 Unity로 임포트할 수 있습니다.
학술 연구
연구자들은 이 모델을 사용하여 다중 인스턴스 확산 모델의 효과를 테스트할 수 있습니다. 이 모델은 합성 데이터로만 학습되지만 실제 이미지와 만화 이미지에도 잘 적응합니다.
디지털 아트
아티스트는 만화 그림에서 3D 애니메이션 장면을 생성하여 창의적인 작품을 빠르게 제작하고 모델링 시간을 절약할 수 있습니다.

QA

MIDI-3D는 어떤 이미지 유형을 지원하나요?
지원 .png 노래로 응답 .jpg 형식. 더 나은 결과를 얻으려면 선명한 이미지를 권장합니다.
어떤 하드웨어 구성이 필요하나요?
CUDA 환경에서 실행하려면 최소 6GB의 비디오 메모리가 있는 NVIDIA GPU가 필요하며, CPU로는 충분하지 않습니다.
생성된 모델을 상업적으로 사용할 수 있나요?
예, 이 프로젝트는 MIT 라이선스를 사용하여 .glb 라이선스 요건에 따라 상업적 목적으로 문서를 자유롭게 사용할 수 있습니다.