일반 소개
Lumina-mGPT-2.0은 상하이 인공지능 연구소(상하이 인공지능 연구소), 홍콩중문대학교(CUHK) 및 기타 기관이 공동 개발한 오픈 소스 프로젝트로, GitHub에서 호스팅되고 Alpha-VLLM 팀에서 유지 관리합니다. 처음부터 학습된 독립형 자동 회귀 모델로, 텍스트에서 다양하고 고품질의 이미지를 생성하는 것이 핵심 기능입니다. 2025년 4월 3일에 출시된 이 도구는 기본적인 텍스트 생성 이미지를 지원할 뿐만 아니라 이미지 쌍 생성, 주제 중심 생성, 다원 이미지 편집, 제어 생성 등 다양한 작업을 처리합니다.



기능 목록
- 텍스트 입력을 지원하여 최대 768x768 해상도의 고품질 이미지를 생성할 수 있습니다.
- 비교 또는 매칭 작업에 적합한 이미지 쌍을 생성할 수 있습니다.
- 특정 테마를 기반으로 관련 이미지를 생성하는 테마 기반 생성 기능을 제공합니다.
- 여러 차례의 이미지 편집을 지원하여 사용자가 생성된 결과를 단계별로 조정할 수 있습니다.
- 이미지 디테일을 정밀하게 조정할 수 있는 제어 생성 기능이 포함되어 있습니다.
- 사용자가 필요에 따라 모델을 최적화할 수 있도록 미세 조정된 코드가 제공됩니다.
- 이미지 생성 시간을 줄이기 위해 가속 추론을 지원합니다.
도움말 사용
설치 프로세스
Lumina-mGPT-2.0을 로컬에서 사용하려면 먼저 런타임 환경을 구축해야 합니다. 자세한 단계는 다음과 같습니다:
- 프로젝트 코드 다운로드
터미널을 열고 다음 명령을 입력하여 코드 리포지토리를 복제합니다:
git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git
그런 다음 프로젝트 디렉토리로 이동합니다:
cd Lumina-mGPT-2.0
- 가상 환경 만들기
충돌을 피하기 위해 Conda를 사용하여 Python 3.10을 위한 별도의 환경을 만드세요:
conda create -n lumina_mgpt_2 python=3.10 -y
환경을 활성화합니다:
conda activate lumina_mgpt_2
- 종속성 설치
프로젝트에 필요한 Python 라이브러리를 설치합니다:
pip install -r requirements.txt
다음으로 플래시 어텐션 모듈(가속 계산용)을 설치합니다:
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation
마지막으로 프로젝트를 로컬 패키지로 설치합니다:
pip install -e .
- MoVQGAN 가중치 다운로드
프로젝트는 MoVQGAN 모델 가중치에 따라 달라집니다. 카탈로그를 생성하고 다운로드합니다:
mkdir -p lumina_mgpt/movqgan/270M
wget -O lumina_mgpt/movqgan/270M/movqgan_270M.ckpt https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt
- 테스트 설치
다음 명령을 실행하여 환경이 정상인지 확인합니다:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/
오류가 보고되지 않으면 설치에 성공한 것입니다.
주요 기능 사용 방법
Lumina-mGPT-2.0의 주요 기능은 텍스트에서 이미지를 생성하는 것입니다. 자세한 작동 방식은 다음과 같습니다:
- 기본 이미지 생성
터미널에서 생성 스크립트를 실행하고 텍스트 설명을 입력합니다. 예를 들어 "밤의 도시 스카이라인, 모두 불이 켜진" 이미지를 생성하려고 합니다:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --prompt "City skyline at night with bright lights."
매개변수 설명:
--model_path
: 모델 경로.--save_path
사진이 저장된 디렉토리입니다.--cfg
텍스트-이미지 상관관계, 기본값 4.0, 값이 클수록 설명에 가까워집니다.--top_k
: 세대 다양성을 제어합니다(기본값 4096).--temperature
무작위성 제어, 기본값은 1.0입니다.--width
노래로 응답--height
해상도를 최대 768x768로 설정합니다.--prompt
텍스트 설명, 영어 또는 중국어 지원.
생성된 이미지는save_samples
폴더.- 가속화된 생성
이미지를 더 빠르게 생성하려면 두 가지 가속 옵션을 사용할 수 있습니다: - 증가
--speculative_jacobi
추측적 자코비 디코딩을 활성화하여 생성 시간을 줄입니다. - 증가
--quant
모델 정량화를 활성화하여 그래픽 메모리 사용량을 줄입니다.
명령 예시:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --speculative_jacobi --quant
공식 테스트 데이터(A100 그래픽 카드 기준):
- 일반 생성: 694초, 80GB의 비디오 메모리 사용.
- 또한 추측 디코딩: 324초, 79.2GB의 비디오 메모리.
- 또한 추측 디코딩 및 정량화: 304초, 33.8GB의 비디오 메모리.
- 여러 차례의 편집 및 제어된 생성
여러 차례의 이미지 조정을 지원합니다. 예를 들어 먼저 이미지를 생성한 다음 새 설명으로 일부 세부 사항을 수정할 수 있습니다. 특정 작업은 다음을 참조해야 합니다.generate_examples
폴더를 확인하거나 공식 문서를 확인하세요!<项目根目录>/README.md
. - 모델 미세 조정
자체 데이터로 모델을 최적화하려면 다음을 참조할 수 있습니다.<项目根目录>/TRAIN.md
문서. 데이터 준비 및 교육 명령을 포함한 세부적인 미세 조정 단계를 제공합니다.
워크플로
- 환경 및 종속성을 설치하는 단계를 따르세요.
- MoVQGAN 가중치를 다운로드하세요.
- 텍스트 설명을 입력하고 생성 명령을 실행합니다.
- 결과를 확인하고, 매개변수를 조정하거나 여러 차례 편집을 수행합니다.
문제가 발생하면 GitHub의 문서나 커뮤니티 토론을 확인하세요. 전체 프로세스는 명확하고 초보자와 전문 사용자에게 적합합니다.
애플리케이션 시나리오
- 크리에이티브 디자인
디자이너들은 '미래 우주 정거장 내부'에 들어가 프로젝트의 영감으로 사용할 콘셉트 드로잉을 만들었습니다. - 학술 연구
연구자들은 자동 회귀 모델의 이미지 생성 기능을 테스트하거나 실험을 위해 모델을 미세 조정하는 데 이 기능을 사용합니다. - 콘텐츠 제작
블로거는 글의 시각적 효과를 높이기 위해 '봄 정원'을 입력하여 사진을 생성했습니다. - 개인화
사용자는 여러 차례의 편집을 통해 '회사 로고가 있는 광고 포스터'와 같은 테마별 이미지를 생성합니다.
QA
- 어떤 하드웨어 지원이 필요하나요?
최소 40GB의 비디오 메모리가 있는 A100과 같은 고성능 GPU를 권장하며, CPU로도 실행할 수 있지만 속도가 느립니다. - 생성된 이미지는 상업적으로 사용할 수 있나요?
이 프로젝트는 Apache 2.0 프로토콜을 사용하며 계약 조건에 따라 상업적 사용이 허용됩니다. - 세대별 시간이 긴 이유는 무엇인가요?
기본 설정으로 768x768 이미지를 생성하는 데 몇 분 정도 걸립니다. 이 작업은--speculative_jacobi
노래로 응답--quant
가속. - 중국어 설명을 지원하나요?
지원되지만 모델 학습 데이터가 주로 영어로 되어 있기 때문에 영어 설명이 더 정확할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...