일반 소개
이지컨트롤은 디퓨전 트랜스포머(DiT) 아키텍처를 기반으로 효율적이고 유연한 이미지 생성 제어 기능을 제공하는 오픈소스 프로젝트입니다. 그 중 '지브리 컨트롤 LoRA'는 100명의 아시아인 얼굴과 GPT-4o로 생성된 지브리 스타일 이미지만으로 학습하여 얼굴 특징을 보존하면서 실제 인물 사진을 지브리 애니메이션 스타일로 변환할 수 있는 기능 중 하나로, 이지컨트롤은 가장자리, 깊이, 포즈 등 다양한 조건부 입력을 지원하며 지브리 모델은 지브리 모델은 스타일화된 세대의 하이라이트입니다. 이 프로젝트는 연구 목적으로만 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 2025년 4월 3일 기준 최신 업데이트에는 지브리 스타일 모델과 온라인 데모가 포함되어 있습니다.

무료 체험: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli
기능 목록
- 초상화를 지브리 스타일로 변환: 실제 얼굴 이미지를 입력하여 지브리 애니메이션 스타일의 이미지를 생성합니다.
- 얼굴 특징 보존: 100개의 동양인 얼굴을 기반으로 학습하여 변환 후 디테일이 왜곡되지 않도록 보장합니다.
- 가장자리(캐니), 깊이(뎁스), 포즈(포즈) 등 다양한 조건부 컨트롤을 지원합니다.
- 유연한 해상도 출력: 높이와 너비가 다른 이미지 생성을 지원합니다.
- 효율적인 생성: 인과 관계 주의 메커니즘과 KV 캐시 기술을 결합하여 추론 속도를 높입니다.
- 플러그 앤 플레이 모듈: Ghibli LoRA는 다음과 같은 DiT 모델과 함께 사용할 수 있습니다. FLUX.1-dev)가 원활하게 통합되었습니다.
도움말 사용
EasyControl은 기술적인 배경 지식이 있는 사용자, 특히 연구원과 크리에이티브 작업자에게 적합합니다. 다음은 지브리 기능의 설치 및 사용에 대한 자세한 가이드입니다.
설치 프로세스
- 환경 준비하기
Python 3.10 및 CUDA를 지원하는 PyTorch가 필요합니다. Conda 환경을 만듭니다:
conda create -n easycontrol python=3.10
conda activate easycontrol
- 클론 창고
EasyControl 프로젝트를 다운로드하세요:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
- 종속성 설치
필요한 라이브러리를 설치합니다:
pip install -r requirements.txt
GPU 사용자는 PyTorch가 CUDA를 지원하는지 확인해야 합니다.
- 지브리 모델 다운로드
포옹하는 얼굴에서 지브리 로라를 받으세요:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")
액세스할 수 없는 경우 미러 사이트를 사용할 수 있습니다:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
- 설치 확인
테스트 스크립트를 실행합니다:
python demo.py
이미지가 생성되면 설치가 성공한 것입니다.
주요 기능
1. 지브리 스타일 이미지 생성하기
- 절차
모델을 초기화하고 Ghibli LoRA를 로드합니다:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev" # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
- 결국
지브리 스타일 이미지 내보내기, 다음 위치에 저장output/ghibli_result.png
.
2. 온라인 데모 사용
- 절차
허깅 페이스 공간(https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli)을 방문하세요:- 인물 이미지를 업로드합니다.
- 프롬프트 단어를 입력합니다:
Ghibli Studio style, Charming hand-drawn anime-style illustration
. - 높이와 너비를 설정합니다(하드웨어에 따라 제한됨, 기본값 256x256, 고해상도에는 로컬 작업이 필요함).
- '이미지 생성'을 클릭하고 20~40초간 기다립니다.
- 결국
저해상도 지브리 스타일의 이미지를 생성합니다.
주요 기능 작동
고해상도 생성
- 절차
로컬 런타임에서 높이 및 너비 매개 변수를 수정합니다:image = pipe(prompt, height=1024, width=1024, ...)
- 다음 사항에 유의하십시오.
최소 12GB의 GPU 메모리가 필요하며, 그렇지 않으면 실패할 수 있습니다.
캐시 지우기
- 절차
각 세대마다 캐시를 지웁니다:def clear_cache(transformer): for name, attn_processor in transformer.attn_processors.items(): attn_processor.bank_kv.clear() clear_cache(pipe.transformer)
팁 및 유용한 정보
- 프롬프트에는 다음이 포함되어야 합니다.
Ghibli Studio style, Charming hand-drawn anime-style illustration
를 클릭하여 스타일을 트리거합니다. - 입력 이미지는 해상도 512x512 이상의 선명한 인물 사진을 사용하는 것이 좋습니다.
- 온라인 데모는 하드웨어의 제한으로 인해 저해상도(256x256)만 지원합니다.
애플리케이션 시나리오
- 애니메이션 캐릭터 디자인
실제 인물 사진을 지브리 스타일로 변환하여 애니메이션 캐릭터 프로토타입을 빠르게 생성할 수 있습니다. - 예술
아티스트가 지브리 모델을 사용하여 손으로 그린 스타일의 일러스트를 제작하여 효율성을 높입니다. - 교육 연구
연구원이 양식화된 생성에 조건부 제어를 적용하는 방법을 살펴봅니다.
QA
- 온라인에서 생성되는 해상도가 낮은 이유는 무엇인가요?
온라인 데모는 하드웨어가 제한되어 256x256만 지원하며, 1024x1024 이미지를 생성하려면 로컬에서 실행해야 합니다. - 생성된 이미지가 지브리 스타일처럼 보이지 않는다면 어떻게 해야 하나요?
프롬프트에 트리거 단어가 포함되어 있는지 확인하거나 입력 이미지가 선명한지 확인합니다. - 세로 입력이 아닌 입력을 지원하나요?
예, 하지만 기블리 모델은 얼굴에 최적화되어 있어 다른 입력에서는 잘 작동하지 않을 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...