Lumina-mGPT-2.0: 여러 이미지 생성 작업을 처리하기 위한 자동 회귀 이미지 생성 모델

일반 소개

Lumina-mGPT-2.0은 상하이 인공지능 연구소(상하이 인공지능 연구소), 홍콩중문대학교(CUHK) 및 기타 기관이 공동 개발한 오픈 소스 프로젝트로, GitHub에서 호스팅되고 Alpha-VLLM 팀에서 유지 관리합니다. 처음부터 학습된 독립형 자동 회귀 모델로, 텍스트에서 다양하고 고품질의 이미지를 생성하는 것이 핵심 기능입니다. 2025년 4월 3일에 출시된 이 도구는 기본적인 텍스트 생성 이미지를 지원할 뿐만 아니라 이미지 쌍 생성, 주제 중심 생성, 다원 이미지 편집, 제어 생성 등 다양한 작업을 처리합니다.

기능 목록

텍스트 입력을 지원하여 최대 768x768 해상도의 고품질 이미지를 생성할 수 있습니다.
비교 또는 매칭 작업에 적합한 이미지 쌍을 생성할 수 있습니다.
특정 테마를 기반으로 관련 이미지를 생성하는 테마 기반 생성 기능을 제공합니다.
여러 차례의 이미지 편집을 지원하여 사용자가 생성된 결과를 단계별로 조정할 수 있습니다.
이미지 디테일을 정밀하게 조정할 수 있는 제어 생성 기능이 포함되어 있습니다.
사용자가 필요에 따라 모델을 최적화할 수 있도록 미세 조정된 코드가 제공됩니다.
이미지 생성 시간을 줄이기 위해 가속 추론을 지원합니다.

도움말 사용

설치 프로세스

Lumina-mGPT-2.0을 로컬에서 사용하려면 먼저 런타임 환경을 구축해야 합니다. 자세한 단계는 다음과 같습니다:

프로젝트 코드 다운로드
터미널을 열고 다음 명령을 입력하여 코드 리포지토리를 복제합니다:

git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git

그런 다음 프로젝트 디렉토리로 이동합니다:

cd Lumina-mGPT-2.0

가상 환경 만들기
충돌을 피하기 위해 Conda를 사용하여 Python 3.10을 위한 별도의 환경을 만드세요:

conda create -n lumina_mgpt_2 python=3.10 -y

환경을 활성화합니다:

conda activate lumina_mgpt_2

종속성 설치
프로젝트에 필요한 Python 라이브러리를 설치합니다:

pip install -r requirements.txt

다음으로 플래시 어텐션 모듈(가속 계산용)을 설치합니다:

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation

마지막으로 프로젝트를 로컬 패키지로 설치합니다:

pip install -e .

MoVQGAN 가중치 다운로드
프로젝트는 MoVQGAN 모델 가중치에 따라 달라집니다. 카탈로그를 생성하고 다운로드합니다:

mkdir -p lumina_mgpt/movqgan/270M
wget -O lumina_mgpt/movqgan/270M/movqgan_270M.ckpt https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt

테스트 설치
다음 명령을 실행하여 환경이 정상인지 확인합니다:

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/

오류가 보고되지 않으면 설치에 성공한 것입니다.

주요 기능 사용 방법

Lumina-mGPT-2.0의 주요 기능은 텍스트에서 이미지를 생성하는 것입니다. 자세한 작동 방식은 다음과 같습니다:

기본 이미지 생성
터미널에서 생성 스크립트를 실행하고 텍스트 설명을 입력합니다. 예를 들어 "밤의 도시 스카이라인, 모두 불이 켜진" 이미지를 생성하려고 합니다:

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --prompt "City skyline at night with bright lights."

매개변수 설명:

--model_path: 모델 경로.
--save_path사진이 저장된 디렉토리입니다.
--cfg텍스트-이미지 상관관계, 기본값 4.0, 값이 클수록 설명에 가까워집니다.
--top_k: 세대 다양성을 제어합니다(기본값 4096).
--temperature무작위성 제어, 기본값은 1.0입니다.
--width 노래로 응답 --height해상도를 최대 768x768로 설정합니다.
--prompt텍스트 설명, 영어 또는 중국어 지원.
생성된 이미지는 save_samples 폴더.
가속화된 생성
이미지를 더 빠르게 생성하려면 두 가지 가속 옵션을 사용할 수 있습니다:
증가 --speculative_jacobi추측적 자코비 디코딩을 활성화하여 생성 시간을 줄입니다.
증가 --quant모델 정량화를 활성화하여 그래픽 메모리 사용량을 줄입니다.
명령 예시:

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --speculative_jacobi --quant

공식 테스트 데이터(A100 그래픽 카드 기준):

일반 생성: 694초, 80GB의 비디오 메모리 사용.
또한 추측 디코딩: 324초, 79.2GB의 비디오 메모리.
또한 추측 디코딩 및 정량화: 304초, 33.8GB의 비디오 메모리.
여러 차례의 편집 및 제어된 생성
여러 차례의 이미지 조정을 지원합니다. 예를 들어 먼저 이미지를 생성한 다음 새 설명으로 일부 세부 사항을 수정할 수 있습니다. 특정 작업은 다음을 참조해야 합니다. generate_examples 폴더를 확인하거나 공식 문서를 확인하세요! <项目根目录>/README.md.
모델 미세 조정
자체 데이터로 모델을 최적화하려면 다음을 참조할 수 있습니다. <项目根目录>/TRAIN.md 문서. 데이터 준비 및 교육 명령을 포함한 세부적인 미세 조정 단계를 제공합니다.

워크플로

환경 및 종속성을 설치하는 단계를 따르세요.
MoVQGAN 가중치를 다운로드하세요.
텍스트 설명을 입력하고 생성 명령을 실행합니다.
결과를 확인하고, 매개변수를 조정하거나 여러 차례 편집을 수행합니다.

문제가 발생하면 GitHub의 문서나 커뮤니티 토론을 확인하세요. 전체 프로세스는 명확하고 초보자와 전문 사용자에게 적합합니다.

애플리케이션 시나리오

크리에이티브 디자인
디자이너들은 '미래 우주 정거장 내부'에 들어가 프로젝트의 영감으로 사용할 콘셉트 드로잉을 만들었습니다.
학술 연구
연구자들은 자동 회귀 모델의 이미지 생성 기능을 테스트하거나 실험을 위해 모델을 미세 조정하는 데 이 기능을 사용합니다.
콘텐츠 제작
블로거는 글의 시각적 효과를 높이기 위해 '봄 정원'을 입력하여 사진을 생성했습니다.
개인화
사용자는 여러 차례의 편집을 통해 '회사 로고가 있는 광고 포스터'와 같은 테마별 이미지를 생성합니다.

QA

어떤 하드웨어 지원이 필요하나요?
최소 40GB의 비디오 메모리가 있는 A100과 같은 고성능 GPU를 권장하며, CPU로도 실행할 수 있지만 속도가 느립니다.
생성된 이미지는 상업적으로 사용할 수 있나요?
이 프로젝트는 Apache 2.0 프로토콜을 사용하며 계약 조건에 따라 상업적 사용이 허용됩니다.
세대별 시간이 긴 이유는 무엇인가요?
기본 설정으로 768x768 이미지를 생성하는 데 몇 분 정도 걸립니다. 이 작업은 --speculative_jacobi 노래로 응답 --quant 가속.
중국어 설명을 지원하나요?
지원되지만 모델 학습 데이터가 주로 영어로 되어 있기 때문에 영어 설명이 더 정확할 수 있습니다.