CogView4: графическая модель с открытым исходным кодом для создания двуязычных изображений высокой четкости на китайском и английском языках
Общее введение
CogView4 - это модель преобразования текста в граф с открытым исходным кодом, разработанная в лаборатории KEG Университета Цинхуа (THUDM) и предназначенная для преобразования текстовых описаний в высококачественные изображения. Она поддерживает двуязычный ввод подсказок, особенно хорошо понимает китайские подсказки и генерирует изображения с китайскими иероглифами, что идеально подходит для дизайна рекламы, создания коротких видеороликов и других сценариев. Будучи первой моделью с открытым исходным кодом, поддерживающей генерацию китайских иероглифов на экране, CogView4 отлично справляется со сложным семантическим выравниванием и выполнением команд. Он основан на текстовом кодере GLM-4-9B, поддерживает ввод слов любой длины и может генерировать изображения с разрешением до 2048. Проект размещен на GitHub с подробным кодом и документацией и привлек много внимания и участия со стороны разработчиков и создателей.
Новейшая модель CogView4 появится в продаже 13 марта интеллектуально стимулирующая речь Официальный сайт.

Опыт работы в Интернете: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Список функций
- Двуязычные изображения для создания слов-подсказок: Он поддерживает описания на китайском и английском языках и может точно понимать и генерировать изображения, соответствующие подсказкам, причем китайские сцены показывают себя особенно хорошо.
- Генерация китайских иероглифов на экране: Генерирует четкий китайский текст на изображениях, подходит для создания плакатов, рекламы и других творческих работ, требующих текстового содержания.
- Выход с произвольным разрешениемКомпания поддерживает создание изображений любого размера, от низкого разрешения до 2048x2048, для удовлетворения самых разных потребностей.
- Удлиненные слова-подсказкиСистема принимает текст любой длины и может обрабатывать до 1024 лексем, что упрощает описание сложных сценариев.
- Сложное семантическое выравнивание: Точно улавливает детали в словах и генерирует высококачественные изображения, соответствующие семантике.
- Настройка моделей с открытым исходным кодомПолный код и предварительно обученные модели предоставляются, и разработчики могут развивать или оптимизировать их в соответствии со своими потребностями.
Использование помощи
Процесс установки
CogView4 - это проект с открытым исходным кодом на базе Python, для запуска которого требуется локально настроенная среда. Ниже приведены подробные шаги по установке:
1. Подготовка окружающей среды
- операционная системаПоддерживаются Windows, Linux или macOS.
- требования к оборудованию: Для ускорения выводов рекомендуется использовать графические процессоры NVIDIA (не менее 16 ГБ видеопамяти); процессоры также могут работать, но медленнее.
- зависимость от программного обеспечения::
- Python 3.8 или выше
- PyTorch (рекомендуется установить GPU-версию, torch>=2.0)
- Git (для клонирования репозиториев)
2. Клонирование складов
Откройте терминал и введите следующую команду, чтобы загрузить исходный код проекта CogView4:
git clone https://github.com/THUDM/CogView4.git
cd CogView4
3. Установка зависимостей
Проект содержит файл requirements.txt, выполните следующую команду для установки необходимых библиотек:
pip install -r requirements.txt
Для GPU-ускорения убедитесь, что вы установили правильную версию PyTorch, например, обратившись к официальному сайту PyTorch за командами установки:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
4. загрузка предварительно обученных моделей
Модель CogView4-6B необходимо загрузить вручную с сайта Hugging Face или по официальной ссылке. Посетите страницу THUDM на GitHub, чтобы найти адрес загрузки модели (например. THUDM/CogView4-6B
), распакуйте его в корневой каталог проекта в папке checkpoints
папку. Или загрузите автоматически по коду:
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")
5. среда конфигурации
Если видеопамять ограничена, включите опции оптимизации памяти (например. enable_model_cpu_offload
), как описано в инструкции по применению ниже.
Как использовать CogView4
После установки пользователи могут вызывать CogView4 для генерации изображений через сценарий Python. Ниже приведена подробная процедура:
1. Базовая генерация изображений
Создайте файл Python (например. generate.py
), введите следующий код:
from diffusers import CogView4Pipeline
import torch
# 加载模型到 GPU
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# 优化显存使用
pipe.enable_model_cpu_offload() # 将部分计算移至 CPU
pipe.vae.enable_slicing() # 分片处理 VAE
pipe.vae.enable_tiling() # 分块处理 VAE
# 输入提示词
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"
image = pipe(
prompt=prompt,
guidance_scale=3.5, # 控制生成图像与提示的贴合度
num_images_per_prompt=1, # 生成一张图像
num_inference_steps=50, # 推理步数,影响质量
width=1024, # 图像宽度
height=1024 # 图像高度
).images[0]
# 保存图像
image.save("output.png")
Запустите скрипт:
python generate.py
В результате будет сгенерировано изображение размером 1024x1024 и сохранено в формате output.png
.
2. Генерация изображений с китайскими иероглифами
CogView4 поддерживает генерацию китайского текста на изображениях, например:
prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"
image = pipe(prompt=prompt, width=1024, height=1024).images[0]
image.save("poster.png")
После запуска на изображении будет четко видна надпись "Welcome to CogView4", которая подходит для создания рекламных материалов.
3. Настройка разрешения
CogView4 поддерживает вывод с любым разрешением, например, генерирует изображения 2048x2048:
image = pipe(prompt=prompt, width=2048, height=2048).images[0]
image.save("high_res.png")
Примечание: Для более высоких разрешений требуется больше видеопамяти, поэтому рекомендуется использовать графический процессор с 24 ГБ или более видеопамяти.
4. Работа с очень длинными подсказками
CogView4 может обрабатывать сложные описания, такие как:
prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"
image = pipe(prompt=prompt, num_inference_steps=50).images[0]
image.save("market.png")
Поддерживает до 1024 лексем, полностью разбирает длинный текст и генерирует детализированные изображения.
5. оптимизация производительности
Если видеопамяти недостаточно, настройте параметры:
- ниже
torch_dtype
из-заtorch.float16
- подниматься
num_inference_steps
для повышения качества (по умолчанию 50, рекомендуется 50-100) - пользоваться
pipe.enable_model_cpu_offload()
Переведите некоторые модели на вычисления в ЦП
Основные функции
Создание двуязычных изображений
Двуязычная поддержка CogView4 - это ее главная особенность. Например, введите смешанные слова подсказки:
prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"
image = pipe(prompt=prompt).images[0]
image.save("future_city.png")
Полученное изображение будет содержать как английское описание города будущего, так и китайский логотип "Future City", демонстрируя сильное семантическое понимание.
Высококачественный контроль деталей
Путем корректировки guidance_scale
(диапазон 1-10, по умолчанию 3,5), который контролирует, насколько хорошо изображение соответствует подсказке. Чем выше значение, тем больше деталей соответствует подсказке, но при этом может пострадать креативность:
image = pipe(prompt=prompt, guidance_scale=7.0).images[0]
Пакетная генерация
Создавайте несколько изображений одновременно:
images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f"output_{i}.png")
предостережение
- Требуется память VGAДля создания изображений 1024x1024 требуется около 16 ГБ видеопамяти, а для 2048x2048 - более 24 ГБ.
- время вывода: 50 шагов рассуждений занимают около 1-2 минут (в зависимости от аппаратного обеспечения).
- Поддержка общества: Если у вас возникли проблемы, попросите помощи на странице проблем GitHub или обратитесь к официальному README.
С помощью этих шагов пользователи смогут быстро начать работу с CogView4, генерировать высококачественные изображения и использовать их в творческих проектах!
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...