CogView4: 중국어와 영어로 이중 언어 고해상도 이미지를 생성하는 오픈 소스 그래픽 모델

52.2K 00

일반 소개

CogView4는 칭화대학교(THUDM)의 KEG 연구소에서 개발한 오픈 소스 텍스트-그래프 변환 모델로, 텍스트 설명을 고품질 이미지로 변환하는 데 중점을 두고 있습니다. 이중 언어 단서 입력을 지원하며 특히 중국어 단서를 이해하고 한자로 이미지를 생성하는 데 능숙하여 광고 디자인, 짧은 동영상 제작 및 기타 시나리오에 이상적입니다. 화면에서 중국어 문자 생성을 지원하는 최초의 오픈 소스 모델인 CogView4는 복잡한 의미 정렬 및 명령 추종에 탁월합니다. GLM-4-9B 텍스트 인코더를 기반으로 하며 모든 길이의 단어 입력을 지원하며 최대 2048 해상도의 이미지를 생성할 수 있습니다. 이 프로젝트는 자세한 코드와 문서가 포함된 깃허브에서 호스팅되고 있으며, 개발자와 크리에이터의 많은 관심과 참여를 받고 있습니다.

3월 13일에 출시되는 최신 CogView4 모델 지적으로 자극적인 연설 공식 웹사이트.

온라인 체험: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

기능 목록

이중 언어 단서 단어 생성 이미지중국어와 영어 설명을 모두 지원하며, 단서와 일치하는 이미지를 정확하게 이해하고 생성할 수 있으며, 특히 중국어 장면에서 뛰어난 성능을 발휘합니다.
한자 화면 생성이미지에 선명한 중국어 텍스트를 생성하여 포스터, 광고 및 텍스트 콘텐츠가 필요한 기타 창작물을 제작하는 데 적합합니다.
임의 해상도 출력저해상도부터 2048x2048까지 모든 크기의 이미지 생성을 지원하여 다양한 요구 사항을 충족합니다.
매우 긴 큐 워드 지원이 시스템은 모든 길이의 텍스트 입력을 허용하고 최대 1024개의 토큰을 처리할 수 있어 복잡한 시나리오를 쉽게 설명할 수 있습니다.
복잡한 시맨틱 정렬: 큐 단어의 세부 사항을 정확하게 캡처하고 의미와 일치하는 고품질 이미지를 생성합니다.
오픈 소스 모델 사용자 지정전체 코드와 사전 학습된 모델이 제공되며, 개발자는 필요에 따라 개발하거나 최적화할 수 있습니다.

도움말 사용

설치 프로세스

CogView4는 실행하려면 로컬로 구성된 환경이 필요한 Python 기반 오픈 소스 프로젝트입니다. 자세한 설치 단계는 다음과 같습니다:

1. 환경 준비

운영 체제Windows, Linux 또는 macOS가 지원됩니다.
하드웨어 요구 사항추론 속도를 높이려면 NVIDIA GPU(최소 16GB의 비디오 메모리)가 권장되며, CPU로도 실행할 수 있지만 속도가 느립니다.
소프트웨어 종속성::
- Python 3.8 이상
- PyTorch(GPU 버전 설치 권장, torch>=2.0)
- Git(리포지토리 복제용)

2. 창고 복제

터미널을 열고 다음 명령을 입력하여 CogView4 프로젝트 소스 코드를 다운로드합니다:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. 종속성 설치

프로젝트에서 요구사항.txt 파일을 제공하고, 다음 명령을 실행하여 필요한 라이브러리를 설치합니다:

pip install -r requirements.txt

GPU 가속의 경우, PyTorch 공식 사이트에서 설치 명령어 등을 참조하여 올바른 버전의 PyTorch를 설치했는지 확인하세요:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4. 사전 학습된 모델 다운로드

CogView4-6B 모델은 허깅 페이스 또는 공식 링크에서 수동으로 다운로드해야 합니다. 모델 다운로드 주소를 찾으려면 THUDM의 GitHub 페이지를 방문하세요(예 THUDM/CogView4-6B), 프로젝트 루트 디렉토리에 압축을 풀고 checkpoints 폴더에 다운로드합니다. 또는 코드를 통해 자동으로 다운로드합니다:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. 구성 환경

비디오 메모리가 제한되어 있는 경우 메모리 최적화 옵션을 활성화합니다(예 enable_model_cpu_offload), 아래 사용 지침에 설명된 대로 사용하세요.

CogView4 사용 방법

설치 후 사용자는 CogView4를 호출하여 Python 스크립트를 통해 이미지를 생성할 수 있습니다. 자세한 절차는 다음과 같습니다:

1. 기본 이미지 생성

Python 파일을 만듭니다(예 generate.py)를 클릭한 후 다음 코드를 입력합니다:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路，背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数，影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

스크립트를 실행합니다:

python generate.py

그 결과 1024x1024 이미지가 생성되어 output.png.

2. 한자가 포함된 이미지 생성

예를 들어 CogView4는 이미지에 중국어 텍스트를 생성하는 기능을 지원합니다:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报，背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

실행 후 이미지에 "CogView4에 오신 것을 환영합니다"라는 문구가 선명하게 표시되어 홍보 자료 제작에 적합합니다.

3. 해상도 조정

CogView4는 모든 해상도의 출력을 지원합니다(예: 2048x2048 이미지 생성):

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

참고: 해상도가 높을수록 더 많은 비디오 메모리가 필요하며 24GB 이상의 비디오 메모리가 있는 GPU를 사용하는 것이 좋습니다.

4. 매우 긴 큐 처리하기

예를 들어 CogView4는 복잡한 설명도 처리할 수 있습니다:

prompt = "一个热闹的古代中国集市，摊位上摆满陶瓷和丝绸，远处有山峦和夕阳，人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

최대 1024개의 토큰을 지원하고, 긴 텍스트를 완벽하게 구문 분석하며, 상세한 이미지를 생성합니다.

5. 성능 최적화

비디오 메모리가 부족한 경우 매개변수를 조정하세요:

lower torch_dtype 때문에 torch.float16
증가 num_inference_steps 품질 향상(기본값 50, 권장 50-100)
활용 pipe.enable_model_cpu_offload() 일부 모델을 CPU 계산으로 이동

주요 기능

이중 언어 이미지 생성

CogView4의 가장 큰 매력은 이중 언어 지원입니다. 예를 들어, 혼합 큐 단어를 입력합니다:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

결과 이미지에는 미래 도시에 대한 영어 설명과 중국어 '미래 도시' 로고가 모두 포함되어 있어 의미 이해도가 높습니다.

고품질 디테일 관리

조정하여 guidance_scale(1~10 범위, 기본값 3.5)로 설정하여 이미지가 큐에 얼마나 잘 맞는지 제어할 수 있습니다. 값이 높을수록 디테일이 큐에 더 잘 맞지만 창의성이 희생될 수 있습니다:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

일괄 생성

한 번에 여러 이미지를 생성하세요:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

주의

VGA 메모리 요구 사항1024x1024 이미지를 생성하려면 약 16GB의 비디오 메모리가 필요하며, 2048x2048의 경우 24GB 이상이 필요합니다.
추론 시간50단계 추론에는 약 1~2분이 소요됩니다(하드웨어에 따라 다름).
커뮤니티 지원문제가 있는 경우 GitHub 이슈 페이지에서 도움을 요청하거나 공식 README를 참조하세요.

이 단계를 통해 사용자는 CogView4를 빠르게 시작하고 고품질 이미지를 생성하여 창의적인 프로젝트에 적용할 수 있습니다!

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

11개월 전

060.7K

fal: 리치 미디어 클래스 개발자를 위한 제너레이티브 매크로 모델링 API

최신 AI 리소스 # AI 오픈 서비스

1 년 전

066.1K

Newsful: AI 기반 금융 뉴스 요약 사이트

최신 AI 리소스 # AI 생활 효율 도우미

1 년 전

054.4K

Rask AI: 전문 음성 복제를 통한 비디오 다국어 번역, 비디오 현지화 도구

최신 AI 리소스 # AI 음성 복제

2 년 전

050.3K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

CogView4: 중국어와 영어로 이중 언어 고해상도 이미지를 생성하는 오픈 소스 그래픽 모델

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 환경 준비

2. 창고 복제

3. 종속성 설치

4. 사전 학습된 모델 다운로드

5. 구성 환경

CogView4 사용 방법

1. 기본 이미지 생성

2. 한자가 포함된 이미지 생성

3. 해상도 조정

4. 매우 긴 큐 처리하기

5. 성능 최적화

주요 기능

이중 언어 이미지 생성

고품질 디테일 관리

일괄 생성

주의

Vincent: Jupyter 노트의 데이터 분석을 위한 VSCODE 플러그인

페이스스왑퍼: 무료 AI 얼굴 교환 웹사이트, 단일 또는 다중 사진 및 동영상 얼굴 교환

관련 문서

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

fal: 리치 미디어 클래스 개발자를 위한 제너레이티브 매크로 모델링 API

Newsful: AI 기반 금융 뉴스 요약 사이트

Rask AI: 전문 음성 복제를 통한 비디오 다국어 번역, 비디오 현지화 도구

댓글 없음

최신 컬렉션

최신 기사

CogView4: 중국어와 영어로 이중 언어 고해상도 이미지를 생성하는 오픈 소스 그래픽 모델

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 환경 준비

2. 창고 복제

3. 종속성 설치

4. 사전 학습된 모델 다운로드

5. 구성 환경

CogView4 사용 방법

1. 기본 이미지 생성

2. 한자가 포함된 이미지 생성

3. 해상도 조정

4. 매우 긴 큐 처리하기

5. 성능 최적화

주요 기능

이중 언어 이미지 생성

고품질 디테일 관리

일괄 생성

주의

Vincent: Jupyter 노트의 데이터 분석을 위한 VSCODE 플러그인

페이스스왑퍼: 무료 AI 얼굴 교환 웹사이트, 단일 또는 다중 사진 및 동영상 얼굴 교환

관련 문서

NodeRAG: 정확한 정보 검색 및 생성을 위한 이기종 그래프 기반 도구

fal: 리치 미디어 클래스 개발자를 위한 제너레이티브 매크로 모델링 API

Newsful: AI 기반 금융 뉴스 요약 사이트

Rask AI: 전문 음성 복제를 통한 비디오 다국어 번역, 비디오 현지화 도구

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사