CFG-Zero-star: инструмент с открытым исходным кодом для улучшения качества генерации изображений и видео

Общее введение

CFG-Zero-star - это проект с открытым исходным кодом, разработанный Вейчен Фань и командой S-Lab в Наньянгском технологическом университете. Он нацелен на улучшение техники Classifier Free Guidance (CFG) в моделях потокового согласования для повышения качества генерации изображений и видео путем оптимизации стратегии наведения и метода нулевой инициализации. Этот инструмент поддерживает задачи генерации текста в изображение и текста в видео, и может быть адаптирован к моделям Stable Diffusion 3, SD3.5, Wan-2.1 и другим. Код полностью открыт и основан на лицензии Apache-2.0, что позволяет проводить академические исследования и использовать его в коммерческих целях. Проект предоставляет онлайн-демонстрации и подробную документацию для разработчиков, исследователей и энтузиастов ИИ.

CFG-Zero-star:提升图像和视频生成质量的开源工具

 

Список функций

  • Совершенствование техники CFG: оптимизация бутстрапинга без классификатора для улучшения качества генерируемого контента и сопоставления текстов.
  • Поддержка создания изображений: создание высококачественных изображений на основе текста, совместимое с Stable Diffusion 3 и SD3.5.
  • Поддержка генерации видео: создание динамического видео, адаптация к Wan-2.1 и другим видеомоделям.
  • Оптимизация с нулевой инициализацией: обнуление предсказания в начале генерации для улучшения качества выборки модели согласования потоков.
  • Открытый исходный код: предоставляется полный код, который пользователи могут свободно загружать, изменять или вносить в него свой вклад.
  • Демонстрационный интерфейс Gradio: встроенный инструмент онлайн-тестирования, не требующий сложной настройки.
  • Динамическая настройка параметров: поддерживает регулировку интенсивности наведения и количества шагов умозаключения для удовлетворения различных потребностей.
  • Интегрированная поддержка сторонних производителей: поддержка ComfyUI-KJNodes и расширений Wan2.1GP.

 

Использование помощи

CFG-Zero-star - это проект с открытым исходным кодом на GitHub, который требует от пользователей настройки собственного окружения и запуска кода. Ниже представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

  1. Создание виртуальной среды
    • Установите Anaconda (если нет, загрузите ее с сайта https://www.anaconda.com/).
    • Выполните следующую команду в терминале, чтобы создать среду:
      conda create -n CFG_Zero_Star python=3.10
      
    • Активируйте окружающую среду:
      conda activate CFG_Zero_Star
      
  2. Установка PyTorch
    • Установите PyTorch в соответствии с версией CUDA вашего GPU. Официальная рекомендация - CUDA 12.4:
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
      
    • Проверьте совместимость версий CUDA, см. https://docs.nvidia.com/deploy/cuda-compatibility/.
    • Пользователи без GPU могут установить версию для процессора:
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
      
  3. Скачать код проекта
    • Клонируйте репозиторий с помощью Git:
      git clone https://github.com/WeichenFan/CFG-Zero-star.git
      
    • Перейдите в каталог:
      cd CFG-Zero-star
      
  4. Установка зависимостей
    • Выполните команду для установки необходимых библиотек:
      pip install -r requirements.txt
      
    • Если не хватает requirements.txtУстановите основные зависимости вручную:
      pip install torch diffusers gradio numpy imageio
      
  5. Подготовка файлов модели
    • Загрузите модельные грузы Stable Diffusion 3 или SD3.5 с сайта https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
    • Поместите файл модели в каталог проекта или укажите путь в коде.

Работа основных функций

Основная функция CFG-Zero-star - генерировать изображения и видео. Вот точные шаги.

Создание изображений

  1. Параметры конфигурации
    • показать (билет) demo.pyУстановите слово для подсказки:
      prompt = "一片星空下的森林"
      
    • Включите оптимизацию CFG-Zero-star:
      use_cfg_zero_star = True
      
  2. Генерация бега
    • Введите его в терминал:
      python demo.py
      
    • Созданное изображение отображается или сохраняется по указанному пути.
  3. Параметры настройки
    • guidance_scale: Регулирует интенсивность рулевого управления текстом, по умолчанию 4.0, можно установить в диапазоне 1-20.
    • num_inference_steps: Шаги рассуждения, по умолчанию 28, увеличить для улучшения качества.

Создать видео

  1. Выберите модель
    • существовать demo.py Находится в:
      model_name = "wan-t2v"
      prompt = "一条河流穿过山谷"
      
  2. Генерация бега
    • Реализация:
      python demo.py
      
    • Видео сохраняется в формате MP4, путь по умолчанию generated_videos/{seed}_CFG-Zero-Star.mp4.
  3. Параметры настройки
    • height ответить пением width: Установите разрешение, по умолчанию 480x832.
    • num_frames: Кадры, по умолчанию 81.
    • fps: Частота кадров, по умолчанию 16.

Демо-версия с Gradio

  1. Интерфейс запуска
    • Бег:
      python demo.py
      
    • Зайдите на сайт http://127.0.0.1:7860 в своем веб-браузере.
  2. процедура
    • Введите слово запроса и выберите модель (SD3, SD3.5 или Wan-2.1).
    • тик Use CFG Zero StarНастройте параметры и отправьте заявку.
    • Результат будет отображен в интерфейсе.

Интеграция инструментов сторонних производителей

  • ComfyUI-KJNodes
    • Загрузите сайт https://github.com/kijai/ComfyUI-KJNodes и следуйте его инструкциям по установке.
    • существовать ComfyUI Загрузите узел CFG-Zero-star в
  • Wan2.1GP
    • Загрузите https://github.com/deepbeepmeep/Wan2GP и настройте его для использования.

предостережение

  • Генерация требует больших вычислений, поэтому рекомендуется использовать графический процессор NVIDIA с не менее чем 8 ГБ оперативной памяти.
  • Для первого запуска необходимо загрузить модель, не отключая интернет.
  • Проект следует лицензии Apache-2.0, которая запрещает создание порнографического, насильственного и т.п. контента.

Выполнив эти действия, вы сможете генерировать высококачественные изображения и видео с помощью CFG-Zero-star. Его работа требует определенной технической базы, но документация и демонстрационный интерфейс снижают порог использования.

 

сценарий применения

  1. научные исследования
    Исследователи могут использовать его для проверки эффективности моделей согласования потоков и анализа улучшений в CFG и нулевой инициализации, применимых в области компьютерного зрения.
  2. создание контента
    Создатели могут использовать текст для создания изображений или видеороликов, например "летающих драконов", для художественного оформления или коротких видеоклипов.
  3. разработка модели
    Разработчики могут использовать этот инструмент для оптимизации моделей генерации и отладки параметров, чтобы улучшить качество генерации.

 

QA

  1. Какую проблему решает CFG-Zero-star?
    Она оптимизирует технику CFG в модели согласования потоков и улучшает качество и соответствие текста сгенерированным изображениям и видео.
  2. Какие модели поддерживаются?
    Поддерживаются такие модели, как Stable Diffusion 3, SD3.5 и Wan-2.1.
  3. В чем смысл нулевой инициализации?
    Обнуление предсказаний на ранних этапах генерации помогает недостаточно обученным моделям улучшить качество выборки.
  4. Как определить, что модель недостаточно обучена?
    Если эффект значительно улучшается при включении нулевой инициализации, это указывает на то, что модель, возможно, не полностью обучена.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...