CogView3: 위즈덤 스펙트럼의 오픈 소스 캐스케이드 확산 텍스트 생성 이미지 모델

일반 소개

CogView3는 칭화대학교와 싱크탱크 팀(Chi Spectrum Qingyan)이 개발한 고급 텍스트 생성 이미지 시스템입니다. 계단식 확산 모델을 기반으로 여러 단계를 거쳐 고해상도 이미지를 생성하며, 다단계 생성, 혁신적인 아키텍처 및 효율적인 성능을 특징으로 예술 창작, 광고 디자인, 게임 개발 등 다양한 분야에 적용할 수 있습니다.

이 모델 시리즈의 기능은 현재 'Chi 스펙트럼 클리어 워드'(chatglm.cn)에서 확인할 수 있으며, 클리어 워드에서 체험해볼 수 있습니다.

위: 분홍색 자동차 아래: 큐브 3개가 쌓여 있습니다. 빨간색 큐브가 맨 위에 있고, 빨간색 큐브 위에 놓여 있습니다. 빨간색 큐브가 가운데에 있고, 녹색 큐브 위에 놓여 있습니다. 녹색 큐브는 아래에 있습니다.

기능 목록

다단계 생성: 저해상도 이미지를 먼저 생성한 다음 릴레이 확산 프로세스를 통해 이미지 해상도를 점차 높여 최대 2048x2048의 고해상도 이미지를 생성합니다.
효율적인 성능: CogView3는 고품질 이미지를 생성하면서 훈련 및 추론 비용을 크게 줄여줍니다. 현재 최신 오픈 소스 모델인 SDXL과 비교했을 때, CogView3의 추론 시간은 1/10에 불과합니다.
혁신적인 아키텍처: CogView3는 제로 SNR 확산 잡음 스케줄링을 사용하고 텍스트-이미지 공동 주의 메커니즘을 결합하여 전반적인 성능을 더욱 향상시키는 최신 DiT(확산 트랜스포머) 아키텍처를 도입했습니다.
오픈 소스 코드: CogView3의 코드와 모델은 GitHub에서 오픈 소스로 공개되어 있으며 사용자가 자유롭게 다운로드하여 사용할 수 있습니다.

도움말 사용

설치 및 등록

웹사이트 방문: CogView3 공식 웹사이트를 엽니다. GitHub.
코드 다운로드: 페이지에서 '코드' 버튼을 클릭하고 'ZIP 다운로드'를 선택하여 프로젝트 파일을 다운로드하거나 git 명령을 사용하여 다운로드합니다:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
설치 종속성: 디퓨저 라이브러리가 소스에서 설치되었는지 확인합니다:

pip install git+https://github.com/huggingface/diffusers.git

사용 프로세스

큐 최적화 :
- CogView3 모델 제품군은 긴 이미지 설명으로 학습되지만, 텍스트를 이미지로 생성하기 전에 LLM(대규모 언어 모델)을 사용하여 단서를 다시 작성하는 것이 생성 품질을 크게 향상시킬 수 있으므로 이를 적극 권장합니다.
- 다음 스크립트를 실행하여 프롬프트를 최적화하세요:
```
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
```

추론 모델(디퓨저) :

먼저 소스에서 디퓨저 라이브러리를 설치해야 합니다:
```
pip install git+https://github.com/huggingface/diffusers.git
```

그런 다음 다음 코드를 실행합니다:

fromdiffusers importCogView3PlusPipeline
importtorch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

추론 모델(SAT) :
- 모델 추론에 대한 단계별 지침은 SAT 튜토리얼을 참조하세요.

일반적인 문제

설치 실패: Python 버전이 요구 사항을 충족하는지 확인하고 PyTorch를 설치할 때 버전 호환성에 주의하세요.
이미지 품질 : 텍스트 설명의 구체성과 학습 데이터 세트의 풍부함은 생성된 이미지의 결과에 영향을 미치므로 자세한 텍스트 설명과 다양한 데이터 세트를 학습에 사용하는 것이 좋습니다.