Wan2.1: Создание высококачественного видео на потребительских графических процессорах

Общее введение

Wan2.1 - это набор инструментов для создания видео, разработанный командой Wan-Video с открытым исходным кодом на GitHub и направленный на расширение границ создания видео с помощью технологий искусственного интеллекта. Основанный на передовой архитектуре диффузионного конвертера, он включает в себя уникальный автокодер с изменяющимся по времени кодированием (Wan-VAE), который поддерживает преобразование текста в видео, изображения в видео и т. д. Главными особенностями Wan2.1 являются его превосходная производительность и поддержка аппаратного обеспечения потребительского класса, например модели T2V-1.3B, которая требует всего 8,19 ГБ видеопамяти для работы и генерирует 5-секундные видео 480P на RTX 4090. видео на RTX 4090. Проект не только обеспечивает эффективную генерацию видео, но и поддерживает кодирование и декодирование 1080P без ограничений по длине, что делает его широко применимым для создателей контента, разработчиков и академических исследовательских групп.

Похожие статьи:Модель генерации видео VBench возглавляет чарты... Вершина чартов - WanX 2.1 скоро станет открытым исходным кодом!

Wan2.1:在消费级 GPU 上生成高质量视频

 

Список функций

  • Текст в видео: Генерирование динамического видеоконтента на основе вводимых текстовых описаний с поддержкой многоязычного ввода текста.
  • Изображение в видео: Преобразование неподвижных изображений в видеоролики с сохранением исходных пропорций и естественного движения изображения.
  • Редактирование видео: Изменение или оптимизация существующих видеороликов с помощью технологии искусственного интеллекта.
  • Поддерживает вывод данных с высоким разрешениемМожно создавать видеоролики в форматах 480P и 720P, а некоторые модели поддерживают 1080P без ограничения длины.
  • Технология Wan-VAE:: Обеспечивает эффективное временное сжатие, поддерживает создание длинных видео и сохраняет временную информацию.
  • Оптимизация графических процессоров для потребителей:: Работает на обычном оборудовании, что снижает барьер для использования.
  • поддержка многозадачности: Включает преобразование текста в изображение, видео в аудио и другие расширения.
  • Создание текстов на китайском и английском языках: Создание четкого текста на китайском и английском языках в видео.

 

Использование помощи

Wan2.1 - это мощный инструмент для создания видео с открытым исходным кодом, предназначенный для пользователей, которые хотят быстро генерировать высококачественный видеоконтент. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

Установка Wan2.1 требует некоторых технических навыков, в основном через репозиторий GitHub для получения кода и весов модели. Вот шаги:

1. Подготовка окружающей среды

  • операционная система: Поддержка Windows, Linux или macOS.
  • требования к оборудованию: GPU с объемом видеопамяти не менее 8 ГБ (например, RTX 3060 Ti или 4090), рекомендуются графические процессоры Nvidia.
  • зависимость от программного обеспечения: Python 3.10+, Git, графические драйверы и CUDA (если используется GPU).
  • Установка Python: Загрузите Python 3.10 или выше с официального сайта и установите флажок "Добавить Python в PATH" во время установки.

2. Загрузка кода и моделей

  1. Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
  1. Установите зависимые библиотеки:
pip install -r requirements.txt
  1. Загрузите модель весов из Hugging Face (пример T2V-1.3B):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
  • Дополнительные модели: T2V-14B (более высокая производительность, требует большего объема видеопамяти), I2V-480P/720P.

3. среда конфигурации

  • Если видеопамяти мало, включите параметры оптимизации (например. --offload_model True ответить пением --t5_cpu).
  • Убедитесь, что драйвер GPU и CUDA были установлены правильно, используя nvidia-smi Проверьте.

4. Проверка установки

Выполните следующую команду, чтобы проверить среду:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

Если видеофайл выводится, установка прошла успешно.

Функции Поток операций

Текст в видео

  1. Подготовленный текст:: Напишите описательные предложения, например, "Кошка грациозно идет по траве, а камера следит за ней".
  2. Выполнить команду:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"
  1. параметризация:
  • --size: Установите разрешение (например, 832).480 или 1280720).
  • --offload_model True: Оптимизация видеопамяти.
  • --sample_shift 8 --sample_guide_scale 6:: Повышение качества генерации.
  1. экспорт: Созданное видео сохраняется в текущем каталоге и имеет длительность около 5 секунд.

Изображение в видео

  1. Подготовка изображения: Загрузите изображение в формате JPG/PNG (например. input.jpg).
  2. Выполнить команду:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"
  1. в конце концов: Модель генерирует динамическое видео на основе изображения, сохраняя оригинальные пропорции и естественные движения.

Видеомонтаж

  1. Входное видео: Подготовка существующего видеофайла.
  2. Редакционные операции: Используйте такой инструмент, как DiffSynth-Studio (Wan 2.1 поддерживает расширения), чтобы вызвать соответствующий модуль из командной строки.
  3. пример команды (вычисления): См. документацию GitHub для получения информации о конкретных параметрах; в настоящее время поддерживается базовое редактирование.

Выходное устройство высокого разрешения

  • Используя модель T2V-14B или I2V-720P, установите --size 1280*720Новым видеокартам потребуется больше памяти (около 17 ГБ).
  • Wan-VAE поддерживает 1080P без ограничений по длине, что подходит для создания длинных видео.

Создание текста на китайском и английском языках

  1. Включите в подсказку текстовое описание, например, "Табличка с надписью "Добро пожаловать" на английском и китайском языках".
  2. Выполните команду Text to Video, и модель автоматически вставит чистый текст в видео.

Советы и рекомендации

  • оптимизировать производительность: Для низкоуровневого оборудования рекомендуются модели 1,3B и разрешение 480P; для высокоуровневого оборудования попробуйте 14B и 720P.
  • Предложения с подсказками: Улучшение качества генерации с помощью подробных описаний (например, действия, сцены, освещения).
  • Поддержка общества: Присоединяйтесь к дискуссионным группам GitHub Issues или Discord для получения помощи.

Выполнив эти действия, вы сможете легко использовать Wan2.1 для создания видеоконтента профессионального уровня как для творческих презентаций, так и для научных исследований.

© заявление об авторских правах

Похожие статьи

3MinTop:3分钟AI读书,快速掌握书籍精华培养阅读习惯

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...