PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

일반 소개

포토두들은 쇼랩에서 개발한 오픈 소스 이미지 편집 도구로, 인공지능 기술을 통한 사진의 예술적 편집에 중점을 두고 있습니다. 사용자는 간단한 텍스트 입력만으로 실제 사진에 만화 스타일, 3D 효과, 후광, 날개 및 기타 장식 요소를 추가하여 실제와 가상의 아트웍을 조합하여 생성할 수 있습니다. 강력한 딥러닝 모델을 기반으로 하며, 적은 샘플 학습을 지원하고, 사용자의 개인화된 스타일에 빠르게 적응할 수 있어 아티스트, 디자이너 또는 일반 사용자가 창의적인 작품을 만드는 데 적합합니다. 이 프로젝트는 GitHub에서 호스팅되며 개발자가 두 번 복제하거나 개발할 수 있도록 코드, 데이터 세트 및 사전 훈련된 모델을 제공합니다. 독특한 '사진 그래피티' 기능은 사진 배경의 무결성을 보존하고 예술적 요소를 매끄럽게 통합하여 기존 편집 소프트웨어의 공백을 메워 널리 주목을 받고 있습니다.

기능 목록

텍스트 기반 아트 편집텍스트 설명(예: "만화 괴물 추가" 또는 "후광 효과 추가")으로 그래피티 요소를 자동으로 생성합니다.
샘플 학습 지원 감소사용자가 제공한 소량의 페어링 데이터만으로 개인화된 편집 스타일을 학습하고 생성합니다.
현실과 픽션의 고품질 융합새로 추가된 요소가 원근감, 빛, 그림자 측면에서 사진의 배경과 자연스럽게 조화를 이루는지 확인합니다.
데이터 집합 및 모델 열기사용자가 직접 다운로드하여 사용할 수 있도록 사전 학습된 모델과 다양한 스타일 데이터 세트를 제공합니다.
오픈 소스 지원개발자가 코드를 수정하거나 다른 프로젝트에 유연하게 통합할 수 있습니다.
일괄 처리 기능한 번에 여러 이미지를 편집할 수 있어 효율적입니다.

도움말 사용

포토두들은 GitHub 기반의 오픈 소스 프로젝트이며, 이를 설치 및 사용하려면 일정한 기술 기반이 필요합니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.

설치 프로세스

환경 준비
- 컴퓨터에 Git, Python 3.11.10 및 Conda가 설치되어 있는지 확인하세요.
- 터미널을 열고 다음 명령을 입력하여 프로젝트를 로컬로 복제합니다:
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- 가상 환경을 만들고 활성화합니다:
```
conda create -n doodle python=3.11.10
conda activate doodle
```
종속성 설치
- PyTorch를 설치합니다(GPU가 있는 경우 CUDA 가속 버전 권장):
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- 다른 종속성을 설치합니다:
```
pip install --upgrade -r requirements.txt
```
- 설치가 완료될 때까지 기다렸다가 네트워크가 깨끗한지 확인하세요.
사전 학습된 모델 다운로드
- 이 프로젝트는 수동으로 다운로드해야 하는 몇 가지 사전 학습된 모델을 제공합니다. 모델 파일을 다운로드하려면 PhotoDoodle의 GitHub 릴리스 또는 포옹하는 얼굴 데이터 세트 페이지를 방문하세요(예 OmniEditor 노래로 응답 EditLoRA).
- 다운로드한 모델 파일을 프로젝트 디렉터리의 지정된 폴더에 배치합니다(경로 설명은 README 참조, 일반적으로 checkpoints/).
설치 확인
- 터미널에서 테스트 명령어(예: README에 제공된 샘플 스크립트)를 실행하고 오류를 확인합니다. 오류가 없으면 설치에 성공한 것입니다.

사용법

PhotoDoodle의 핵심 기능은 텍스트 명령을 통해 사진을 편집하는 것으로, 사전 학습된 모델을 직접 사용하는 것과 사용자 지정 학습의 두 가지 시나리오로 작동합니다.

사전 학습된 모델을 사용하여 사진 편집하기

사진 준비
- 편집할 사진을 배치합니다(예 source.jpg)를 프로젝트 디렉토리의 input/ 폴더(이 폴더가 없는 경우 직접 만드세요).
편집 명령을 실행합니다.
- 터미널에 다음 명령을 입력합니다(활성화되어 있다고 가정). doodle (환경):
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- 매개변수 설명:
  - --source출처 사진 경로.
  - --prompt추가하려는 요소를 설명하는 텍스트 지시어입니다.
  - --output결과 경로를 출력합니다.
- 실행 후 생성된 결과는 다음을 통해 output/result.jpg.
결과 보기
- 쇼(티켓) output/ 폴더로 이동하여 생성된 이미지를 확인합니다. 조정 명령(예: "빛과 그림자 효과 추가")으로 다양한 스타일을 생성할 수 있습니다.

맞춤형 교육 개인화 스타일

페어링된 데이터 집합 준비
- 만들기 .jsonl 파일(예 dataset.jsonl), 한 줄당 한 쌍의 이미지와 설명을 기록합니다:
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- 스타일 요구 사항을 반영하는 이미지를 최소 5~10쌍 준비합니다.
교육 스크립트 실행
- 최고 사령관(군) .jsonl 파일을 프로젝트 디렉토리에 넣고 실행합니다:
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- 학습 시간은 데이터의 양과 하드웨어 성능(GPU 권장)에 따라 다르며, 완료 후 모델이 저장됩니다. trained_model/.

사용자 지정 모델로 편집

학습된 모델을 사용한 추론:

python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg

결과물을 확인하여 기대에 부합하는지 확인합니다.

운영 프로세스 세부 정보

일괄 편집여러 이미지를 input/ 폴더에 있는 경우 수정 스크립트는 루프 처리(예: --batch 매개변수, 구현에 대한 자세한 내용은 코드 주석을 참조하세요).
조정 효과블렌딩이 자연스럽지 않은 경우 큐에 디테일을 추가하거나(예: "배경 조명과 일치") 모델 파라미터를 조정합니다( config/ (문서).
문제 디버깅문제가 발생하면 Python 버전과 종속성을 확인하거나 GitHub 이슈를 확인하여 커뮤니티의 도움을 받으세요.