CogView4: графическая модель с открытым исходным кодом для создания двуязычных изображений высокой четкости на китайском и английском языках

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

55.1K 00

Общее введение

CogView4 - это модель преобразования текста в граф с открытым исходным кодом, разработанная в лаборатории KEG Университета Цинхуа (THUDM) и предназначенная для преобразования текстовых описаний в высококачественные изображения. Она поддерживает двуязычный ввод подсказок, особенно хорошо понимает китайские подсказки и генерирует изображения с китайскими иероглифами, что идеально подходит для дизайна рекламы, создания коротких видеороликов и других сценариев. Будучи первой моделью с открытым исходным кодом, поддерживающей генерацию китайских иероглифов на экране, CogView4 отлично справляется со сложным семантическим выравниванием и выполнением команд. Он основан на текстовом кодере GLM-4-9B, поддерживает ввод слов любой длины и может генерировать изображения с разрешением до 2048. Проект размещен на GitHub с подробным кодом и документацией и привлек много внимания и участия со стороны разработчиков и создателей.

Новейшая модель CogView4 появится в продаже 13 марта интеллектуально стимулирующая речь Официальный сайт.

Опыт работы в Интернете: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

Список функций

Двуязычные изображения для создания слов-подсказок: Он поддерживает описания на китайском и английском языках и может точно понимать и генерировать изображения, соответствующие подсказкам, причем китайские сцены показывают себя особенно хорошо.
Генерация китайских иероглифов на экране: Генерирует четкий китайский текст на изображениях, подходит для создания плакатов, рекламы и других творческих работ, требующих текстового содержания.
Выход с произвольным разрешениемКомпания поддерживает создание изображений любого размера, от низкого разрешения до 2048x2048, для удовлетворения самых разных потребностей.
Удлиненные слова-подсказкиСистема принимает текст любой длины и может обрабатывать до 1024 лексем, что упрощает описание сложных сценариев.
Сложное семантическое выравнивание: Точно улавливает детали в словах и генерирует высококачественные изображения, соответствующие семантике.
Настройка моделей с открытым исходным кодомПолный код и предварительно обученные модели предоставляются, и разработчики могут развивать или оптимизировать их в соответствии со своими потребностями.

Использование помощи

Процесс установки

CogView4 - это проект с открытым исходным кодом на базе Python, для запуска которого требуется локально настроенная среда. Ниже приведены подробные шаги по установке:

1. Подготовка окружающей среды

операционная системаПоддерживаются Windows, Linux или macOS.
требования к оборудованию: Для ускорения выводов рекомендуется использовать графические процессоры NVIDIA (не менее 16 ГБ видеопамяти); процессоры также могут работать, но медленнее.
зависимость от программного обеспечения::
- Python 3.8 или выше
- PyTorch (рекомендуется установить GPU-версию, torch>=2.0)
- Git (для клонирования репозиториев)

2. Клонирование складов

Откройте терминал и введите следующую команду, чтобы загрузить исходный код проекта CogView4:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. Установка зависимостей

Проект содержит файл requirements.txt, выполните следующую команду для установки необходимых библиотек:

pip install -r requirements.txt

Для GPU-ускорения убедитесь, что вы установили правильную версию PyTorch, например, обратившись к официальному сайту PyTorch за командами установки:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4. загрузка предварительно обученных моделей

Модель CogView4-6B необходимо загрузить вручную с сайта Hugging Face или по официальной ссылке. Посетите страницу THUDM на GitHub, чтобы найти адрес загрузки модели (например. THUDM/CogView4-6B), распакуйте его в корневой каталог проекта в папке checkpoints папку. Или загрузите автоматически по коду:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. среда конфигурации

Если видеопамять ограничена, включите опции оптимизации памяти (например. enable_model_cpu_offload), как описано в инструкции по применению ниже.

Как использовать CogView4

После установки пользователи могут вызывать CogView4 для генерации изображений через сценарий Python. Ниже приведена подробная процедура:

1. Базовая генерация изображений

Создайте файл Python (например. generate.py), введите следующий код:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路，背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数，影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

Запустите скрипт:

python generate.py

В результате будет сгенерировано изображение размером 1024x1024 и сохранено в формате output.png.

2. Генерация изображений с китайскими иероглифами

CogView4 поддерживает генерацию китайского текста на изображениях, например:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报，背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

После запуска на изображении будет четко видна надпись "Welcome to CogView4", которая подходит для создания рекламных материалов.

3. Настройка разрешения

CogView4 поддерживает вывод с любым разрешением, например, генерирует изображения 2048x2048:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

Примечание: Для более высоких разрешений требуется больше видеопамяти, поэтому рекомендуется использовать графический процессор с 24 ГБ или более видеопамяти.

4. Работа с очень длинными подсказками

CogView4 может обрабатывать сложные описания, такие как:

prompt = "一个热闹的古代中国集市，摊位上摆满陶瓷和丝绸，远处有山峦和夕阳，人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

Поддерживает до 1024 лексем, полностью разбирает длинный текст и генерирует детализированные изображения.

5. оптимизация производительности

Если видеопамяти недостаточно, настройте параметры:

ниже torch_dtype из-за torch.float16
подниматься num_inference_steps для повышения качества (по умолчанию 50, рекомендуется 50-100)
пользоваться pipe.enable_model_cpu_offload() Переведите некоторые модели на вычисления в ЦП

Основные функции

Создание двуязычных изображений

Двуязычная поддержка CogView4 - это ее главная особенность. Например, введите смешанные слова подсказки:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

Полученное изображение будет содержать как английское описание города будущего, так и китайский логотип "Future City", демонстрируя сильное семантическое понимание.

Высококачественный контроль деталей

Путем корректировки guidance_scale(диапазон 1-10, по умолчанию 3,5), который контролирует, насколько хорошо изображение соответствует подсказке. Чем выше значение, тем больше деталей соответствует подсказке, но при этом может пострадать креативность:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Пакетная генерация

Создавайте несколько изображений одновременно:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

предостережение

Требуется память VGAДля создания изображений 1024x1024 требуется около 16 ГБ видеопамяти, а для 2048x2048 - более 24 ГБ.
время вывода: 50 шагов рассуждений занимают около 1-2 минут (в зависимости от аппаратного обеспечения).
Поддержка общества: Если у вас возникли проблемы, попросите помощи на странице проблем GitHub или обратитесь к официальному README.

С помощью этих шагов пользователи смогут быстро начать работу с CogView4, генерировать высококачественные изображения и использовать их в творческих проектах!