일반 소개
CogView3는 칭화대학교와 싱크탱크 팀(Chi Spectrum Qingyan)이 개발한 고급 텍스트 생성 이미지 시스템입니다. 계단식 확산 모델을 기반으로 여러 단계를 거쳐 고해상도 이미지를 생성하며, 다단계 생성, 혁신적인 아키텍처 및 효율적인 성능을 특징으로 예술 창작, 광고 디자인, 게임 개발 등 다양한 분야에 적용할 수 있습니다.
이 모델 시리즈의 기능은 현재 'Chi 스펙트럼 클리어 워드'(chatglm.cn)에서 확인할 수 있으며, 클리어 워드에서 체험해볼 수 있습니다.


위: 분홍색 자동차 아래: 큐브 3개가 쌓여 있습니다. 빨간색 큐브가 맨 위에 있고, 빨간색 큐브 위에 놓여 있습니다. 빨간색 큐브가 가운데에 있고, 녹색 큐브 위에 놓여 있습니다. 녹색 큐브는 아래에 있습니다.
기능 목록
- 다단계 생성: 저해상도 이미지를 먼저 생성한 다음 릴레이 확산 프로세스를 통해 이미지 해상도를 점차 높여 최대 2048x2048의 고해상도 이미지를 생성합니다.
- 효율적인 성능: CogView3는 고품질 이미지를 생성하면서 훈련 및 추론 비용을 크게 줄여줍니다. 현재 최신 오픈 소스 모델인 SDXL과 비교했을 때, CogView3의 추론 시간은 1/10에 불과합니다.
- 혁신적인 아키텍처: CogView3는 제로 SNR 확산 잡음 스케줄링을 사용하고 텍스트-이미지 공동 주의 메커니즘을 결합하여 전반적인 성능을 더욱 향상시키는 최신 DiT(확산 트랜스포머) 아키텍처를 도입했습니다.
- 오픈 소스 코드: CogView3의 코드와 모델은 GitHub에서 오픈 소스로 공개되어 있으며 사용자가 자유롭게 다운로드하여 사용할 수 있습니다.
도움말 사용
설치 및 등록
- 웹사이트 방문: CogView3 공식 웹사이트를 엽니다. GitHub.
- 코드 다운로드: 페이지에서 '코드' 버튼을 클릭하고 'ZIP 다운로드'를 선택하여 프로젝트 파일을 다운로드하거나 git 명령을 사용하여 다운로드합니다:
git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git
. - 설치 종속성: 디퓨저 라이브러리가 소스에서 설치되었는지 확인합니다:
pip install git+https://github.com/huggingface/diffusers.git
사용 프로세스
- 큐 최적화 :
- CogView3 모델 제품군은 긴 이미지 설명으로 학습되지만, 텍스트를 이미지로 생성하기 전에 LLM(대규모 언어 모델)을 사용하여 단서를 다시 작성하는 것이 생성 품질을 크게 향상시킬 수 있으므로 이를 적극 권장합니다.
- 다음 스크립트를 실행하여 프롬프트를 최적화하세요:
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
- 추론 모델(디퓨저) :
- 먼저 소스에서 디퓨저 라이브러리를 설치해야 합니다:
pip install git+https://github.com/huggingface/diffusers.git
- 그런 다음 다음 코드를 실행합니다:
fromdiffusers importCogView3PlusPipeline importtorch pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda") pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background." image = pipe( prompt=prompt, guidance_scale=7.0, num_images_per_prompt=1, num_inference_steps=50, width=1024, height=1024, ).images[0] image.save("cogview3.png")
- 먼저 소스에서 디퓨저 라이브러리를 설치해야 합니다:
- 추론 모델(SAT) :
- 모델 추론에 대한 단계별 지침은 SAT 튜토리얼을 참조하세요.
일반적인 문제
- 설치 실패: Python 버전이 요구 사항을 충족하는지 확인하고 PyTorch를 설치할 때 버전 호환성에 주의하세요.
- 이미지 품질 : 텍스트 설명의 구체성과 학습 데이터 세트의 풍부함은 생성된 이미지의 결과에 영향을 미치므로 자세한 텍스트 설명과 다양한 데이터 세트를 학습에 사용하는 것이 좋습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...