일반 소개
CogView4는 칭화대학교(THUDM)의 KEG 연구소에서 개발한 오픈 소스 텍스트-그래프 변환 모델로, 텍스트 설명을 고품질 이미지로 변환하는 데 중점을 두고 있습니다. 이중 언어 단서 입력을 지원하며 특히 중국어 단서를 이해하고 한자로 이미지를 생성하는 데 능숙하여 광고 디자인, 짧은 동영상 제작 및 기타 시나리오에 이상적입니다. 화면에서 중국어 문자 생성을 지원하는 최초의 오픈 소스 모델인 CogView4는 복잡한 의미 정렬 및 명령 추종에 탁월합니다. GLM-4-9B 텍스트 인코더를 기반으로 하며 모든 길이의 단어 입력을 지원하며 최대 2048 해상도의 이미지를 생성할 수 있습니다. 이 프로젝트는 자세한 코드와 문서가 포함된 깃허브에서 호스팅되고 있으며, 개발자와 크리에이터의 많은 관심과 참여를 받고 있습니다.
3월 13일에 출시되는 최신 CogView4 모델 지적으로 자극적인 연설 공식 웹사이트.

온라인 체험: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
기능 목록
- 이중 언어 단서 단어 생성 이미지중국어와 영어 설명을 모두 지원하며, 단서와 일치하는 이미지를 정확하게 이해하고 생성할 수 있으며, 특히 중국어 장면에서 뛰어난 성능을 발휘합니다.
- 한자 화면 생성이미지에 선명한 중국어 텍스트를 생성하여 포스터, 광고 및 텍스트 콘텐츠가 필요한 기타 창작물을 제작하는 데 적합합니다.
- 임의 해상도 출력저해상도부터 2048x2048까지 모든 크기의 이미지 생성을 지원하여 다양한 요구 사항을 충족합니다.
- 매우 긴 큐 워드 지원이 시스템은 모든 길이의 텍스트 입력을 허용하고 최대 1024개의 토큰을 처리할 수 있어 복잡한 시나리오를 쉽게 설명할 수 있습니다.
- 복잡한 시맨틱 정렬: 큐 단어의 세부 사항을 정확하게 캡처하고 의미와 일치하는 고품질 이미지를 생성합니다.
- 오픈 소스 모델 사용자 지정전체 코드와 사전 학습된 모델이 제공되며, 개발자는 필요에 따라 개발하거나 최적화할 수 있습니다.
도움말 사용
설치 프로세스
CogView4는 실행하려면 로컬로 구성된 환경이 필요한 Python 기반 오픈 소스 프로젝트입니다. 자세한 설치 단계는 다음과 같습니다:
1. 환경 준비
- 운영 체제Windows, Linux 또는 macOS가 지원됩니다.
- 하드웨어 요구 사항추론 속도를 높이려면 NVIDIA GPU(최소 16GB의 비디오 메모리)가 권장되며, CPU로도 실행할 수 있지만 속도가 느립니다.
- 소프트웨어 종속성::
- Python 3.8 이상
- PyTorch(GPU 버전 설치 권장, torch>=2.0)
- Git(리포지토리 복제용)
2. 창고 복제
터미널을 열고 다음 명령을 입력하여 CogView4 프로젝트 소스 코드를 다운로드합니다:
git clone https://github.com/THUDM/CogView4.git
cd CogView4
3. 종속성 설치
프로젝트에서 요구사항.txt 파일을 제공하고, 다음 명령을 실행하여 필요한 라이브러리를 설치합니다:
pip install -r requirements.txt
GPU 가속의 경우, PyTorch 공식 사이트에서 설치 명령어 등을 참조하여 올바른 버전의 PyTorch를 설치했는지 확인하세요:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
4. 사전 학습된 모델 다운로드
CogView4-6B 모델은 허깅 페이스 또는 공식 링크에서 수동으로 다운로드해야 합니다. 모델 다운로드 주소를 찾으려면 THUDM의 GitHub 페이지를 방문하세요(예 THUDM/CogView4-6B
), 프로젝트 루트 디렉토리에 압축을 풀고 checkpoints
폴더에 다운로드합니다. 또는 코드를 통해 자동으로 다운로드합니다:
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")
5. 구성 환경
비디오 메모리가 제한되어 있는 경우 메모리 최적화 옵션을 활성화합니다(예 enable_model_cpu_offload
), 아래 사용 지침에 설명된 대로 사용하세요.
CogView4 사용 방법
설치 후 사용자는 CogView4를 호출하여 Python 스크립트를 통해 이미지를 생성할 수 있습니다. 자세한 절차는 다음과 같습니다:
1. 기본 이미지 생성
Python 파일을 만듭니다(예 generate.py
)를 클릭한 후 다음 코드를 입력합니다:
from diffusers import CogView4Pipeline
import torch
# 加载模型到 GPU
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# 优化显存使用
pipe.enable_model_cpu_offload() # 将部分计算移至 CPU
pipe.vae.enable_slicing() # 分片处理 VAE
pipe.vae.enable_tiling() # 分块处理 VAE
# 输入提示词
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"
image = pipe(
prompt=prompt,
guidance_scale=3.5, # 控制生成图像与提示的贴合度
num_images_per_prompt=1, # 生成一张图像
num_inference_steps=50, # 推理步数,影响质量
width=1024, # 图像宽度
height=1024 # 图像高度
).images[0]
# 保存图像
image.save("output.png")
스크립트를 실행합니다:
python generate.py
그 결과 1024x1024 이미지가 생성되어 output.png
.
2. 한자가 포함된 이미지 생성
예를 들어 CogView4는 이미지에 중국어 텍스트를 생성하는 기능을 지원합니다:
prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"
image = pipe(prompt=prompt, width=1024, height=1024).images[0]
image.save("poster.png")
실행 후 이미지에 "CogView4에 오신 것을 환영합니다"라는 문구가 선명하게 표시되어 홍보 자료 제작에 적합합니다.
3. 해상도 조정
CogView4는 모든 해상도의 출력을 지원합니다(예: 2048x2048 이미지 생성):
image = pipe(prompt=prompt, width=2048, height=2048).images[0]
image.save("high_res.png")
참고: 해상도가 높을수록 더 많은 비디오 메모리가 필요하며 24GB 이상의 비디오 메모리가 있는 GPU를 사용하는 것이 좋습니다.
4. 매우 긴 큐 처리하기
예를 들어 CogView4는 복잡한 설명도 처리할 수 있습니다:
prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"
image = pipe(prompt=prompt, num_inference_steps=50).images[0]
image.save("market.png")
최대 1024개의 토큰을 지원하고, 긴 텍스트를 완벽하게 구문 분석하며, 상세한 이미지를 생성합니다.
5. 성능 최적화
비디오 메모리가 부족한 경우 매개변수를 조정하세요:
- lower
torch_dtype
때문에torch.float16
- 증가
num_inference_steps
품질 향상(기본값 50, 권장 50-100) - 활용
pipe.enable_model_cpu_offload()
일부 모델을 CPU 계산으로 이동
주요 기능
이중 언어 이미지 생성
CogView4의 가장 큰 매력은 이중 언어 지원입니다. 예를 들어, 혼합 큐 단어를 입력합니다:
prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"
image = pipe(prompt=prompt).images[0]
image.save("future_city.png")
결과 이미지에는 미래 도시에 대한 영어 설명과 중국어 '미래 도시' 로고가 모두 포함되어 있어 의미 이해도가 높습니다.
고품질 디테일 관리
조정하여 guidance_scale
(1~10 범위, 기본값 3.5)로 설정하여 이미지가 큐에 얼마나 잘 맞는지 제어할 수 있습니다. 값이 높을수록 디테일이 큐에 더 잘 맞지만 창의성이 희생될 수 있습니다:
image = pipe(prompt=prompt, guidance_scale=7.0).images[0]
일괄 생성
한 번에 여러 이미지를 생성하세요:
images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f"output_{i}.png")
주의
- VGA 메모리 요구 사항1024x1024 이미지를 생성하려면 약 16GB의 비디오 메모리가 필요하며, 2048x2048의 경우 24GB 이상이 필요합니다.
- 추론 시간50단계 추론에는 약 1~2분이 소요됩니다(하드웨어에 따라 다름).
- 커뮤니티 지원문제가 있는 경우 GitHub 이슈 페이지에서 도움을 요청하거나 공식 README를 참조하세요.
이 단계를 통해 사용자는 CogView4를 빠르게 시작하고 고품질 이미지를 생성하여 창의적인 프로젝트에 적용할 수 있습니다!
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...