Плагин для ComfyUI, обеспечивающий возможность генерации видео на основе Wan 2.1

Общее введение

ComfyUI-WanVideoWrapper - это плагин с открытым исходным кодом, созданный разработчиком kijai, предназначенный для ComfyUI дизайн платформы. Он основан на разработанной компанией WanVideo Wan2.1 модель, обеспечивающая мощные функции генерации и обработки видео. Пользователи могут использовать его для преобразования изображений в видео (I2V), текста в видео (T2V) и видео в видео (V2V). Плагин подходит для энтузиастов искусственного интеллекта, создателей видео и пользователей, которым нужен эффективный инструмент. Проект размещен на GitHub, и по состоянию на март 2025 года получил более 1300 звезд и активное сообщество. Он все еще отмечен как "Work in Progress", и его функции постоянно совершенствуются.

基于Wan2.1为ComfyUI提供视频生成能力的插件

 

Список функций

  • Передача изображения в видео (I2V): Преобразование неподвижных изображений в видео с поддержкой пользовательских частот кадров и разрешений.
  • Текст в видео (T2V): Генерируйте видео на основе текстовых описаний с настраиваемыми параметрами генерации.
  • Видео на видео (V2V): Улучшите или измените стиль существующих видеороликов, чтобы действие продолжалось.
  • Wan2.1 Поддержка моделей: Использование Wan2.1's Трансформатор и модели VAE, а также совместим с родными модулями кодирования ComfyUI.
  • Создание длинных видеороликов: Поддержка создания видео с более чем 1000 кадрами благодаря настройкам размера окна и перекрытия.
  • оптимизация производительности: Поддержка torch.compile для повышения скорости генерации.

 

Использование помощи

Процесс установки

Чтобы использовать ComfyUI-WanVideoWrapper, вам необходимо установить ComfyUI и добавить плагин. Ниже приведены подробные шаги:

  1. Установите ComfyUI
    • Загрузите основную программу ComfyUI с GitHub (https://github.com/comfyanonymous/ComfyUI).
    • Распакуйте локально, например. C:\ComfyUI.
    • существовать ComfyUI_windows_portable работающий файл run_nvidia_gpu.bat Пуск (пользователи Windows).
  2. Установите плагин WanVideoWrapper
    • Перейдите в корневой каталог ComfyUI в папке custom_nodes Папка.
    • Клонируйте плагин с помощью команды Git:
      git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
      
    • Перейдите в каталог плагинов:
      cd ComfyUI-WanVideoWrapper
      
    • Установите зависимость:
      python_embeded\python.exe -m pip install -r requirements.txt
      
      • Если вы используете портативную версию, то ComfyUI_windows_portable папку для запуска:
        python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
        
  3. Скачать модель Wan2.1
    • Посетите хранилище моделей Hugging Face (https://huggingface.co/Kijai/WanVideo_comfy).
    • Загрузите необходимые документы:
      • Кодировщик текста в ComfyUI/models/text_encoders.
      • Модель трансформатора помещается в ComfyUI/models/diffusion_models.
      • Размещение модели VAE ComfyUI/models/vae.
    • Оригинальная модель также может быть заменена собственным текстовым кодировщиком ComfyUI и CLIP Vision.
  4. Запустите ComfyUI
    • После завершения установки перезапустите ComfyUI, и узел плагина автоматически загрузится в интерфейс.

Основные функции

1. преобразование изображения в видео (I2V)

  • предварительно: Убедитесь, что модель Wan2.1 и VAE загружены.
  • процедура:
    1. Добавление интерфейса ComfyUI WanVideoModelLoader узел, выберите модель Wan2.1 I2V.
    2. увеличить WanVideoVAELoader узел для загрузки модели VAE.
    3. расход или издержки Load Image узел, чтобы загрузить изображение.
    4. увеличить WanVideoSampler В узле задайте количество кадров (например, 81 кадр), разрешение (например, 512x512).
    5. затирка VHS_VideoCombine В узле установите частоту кадров (например, 16 кадров в секунду) и формат вывода (например, MP4).
    6. Нажмите "Сгенерировать", и результат будет сохранен в ComfyUI/output Папка.
  • принимать к сведению: Официальные тесты показывают, что кадры 512x512x81 занимают около 16 ГБ видеопамяти, что можно уменьшить, снизив разрешение.

2. Текст в видео (T2V)

  • предварительно:: Подготовьте текстовые описания, например, "Улицы города ночью".
  • процедура:
    1. увеличить LoadWanVideoT5TextEncoder узла (или с помощью собственной модели CLIP в ComfyUI).
    2. увеличить WanVideoTextEncode Узел, введите текст.
    3. затирка WanVideoModelLoader ответить пением WanVideoSampler Узел, задайте количество кадров (например, 256), разрешение (например, 720p).
    4. увеличить WanVideoDecode Декодирование узлов.
    5. расход или издержки VHS_VideoCombine Узел выводит видео.
    6. Нажмите "Generate", время генерации зависит от аппаратного обеспечения.
  • привлекать внимание к чему-л.: В официальном примере модель 1.3B T2V генерирует 1025 кадров с 5 ГБ оперативной памяти за 10 минут (RTX 5090).

3. видео с видео (V2V)

  • предварительно: Подготовьте короткий видеоролик (формат MP4).
  • процедура:
    1. расход или издержки VHS_LoadVideo Узел загружает видео.
    2. увеличить WanVideoEncode Кодированное видео.
    3. затирка WanVideoSampler узел для настройки параметров улучшения.
    4. увеличить WanVideoDecode Декодирование узлов.
    5. расход или издержки VHS_VideoCombine Узел выводит результаты.
    6. Нажмите "Generate", чтобы завершить улучшение.
  • типичный пример: Официальное тестирование V2V с помощью модели 14B T2V дает лучшие результаты.

4. Создание длинных видеороликов

  • процедура:
    1. существовать WanVideoSampler Узел задает количество кадров (например, 1025 кадров).
    2. Установите размер окна (например, 81 кадр) и величину перекрытия (например, 16), чтобы обеспечить последовательное движение.
    3. Остальные шаги такие же, как и для T2V или I2V.
  • требования к оборудованию: Рекомендуется использовать графические процессоры с большим объемом видеопамяти (например, 24 Гб), на машинах с меньшим объемом памяти частота кадров может быть снижена.

Основные функции

  • Поддержка ядра Wan2.1: Плагин основан на модели Wan2.1 и обеспечивает эффективную генерацию видео.
  • Совместимость с нативными модулями ComfyUI: Собственный текстовый кодировщик ComfyUI и CLIP Vision могут использоваться без дополнительных моделей.
  • Создание длинных видеороликов: Поддержка сверхдлинных видеороликов с оконными и перекрывающимися настройками, а также стабильная производительность на уровне 1025 кадров в секунду в официальных тестах.
  • оптимизация производительности: Поддержка torch.compile, что значительно повышает скорость генерации.

общие проблемы

  • Узел не показан: Убедитесь, что установка зависимостей завершена, или перезапустите ComfyUI.
  • Недостаточно видеопамяти: Уменьшите разрешение или частоту кадров, официально рекомендуется настраивать в зависимости от аппаратного обеспечения.
  • Ошибка модельного пути: Убедитесь, что модель помещена в правильную папку, обратитесь к официальным инструкциям.
© заявление об авторских правах

Похожие статьи

Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...