Wan2.1: Создание высококачественного видео на потребительских графических процессорах

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

86.4K 00

Общее введение

Wan2.1 - это набор инструментов для создания видео, разработанный командой Wan-Video с открытым исходным кодом на GitHub и направленный на расширение границ создания видео с помощью технологий искусственного интеллекта. Основанный на передовой архитектуре диффузионного конвертера, он включает в себя уникальный автокодер с изменяющимся по времени кодированием (Wan-VAE), который поддерживает преобразование текста в видео, изображения в видео и т. д. Главными особенностями Wan2.1 являются его превосходная производительность и поддержка аппаратного обеспечения потребительского класса, например модели T2V-1.3B, которая требует всего 8,19 ГБ видеопамяти для работы и генерирует 5-секундные видео 480P на RTX 4090. видео на RTX 4090. Проект не только обеспечивает эффективную генерацию видео, но и поддерживает кодирование и декодирование 1080P без ограничений по длине, что делает его широко применимым для создателей контента, разработчиков и академических исследовательских групп.

Список функций

Текст в видео: Генерирование динамического видеоконтента на основе вводимых текстовых описаний с поддержкой многоязычного ввода текста.
Изображение в видео: Преобразование неподвижных изображений в видеоролики с сохранением исходных пропорций и естественного движения изображения.
Редактирование видео: Изменение или оптимизация существующих видеороликов с помощью технологии искусственного интеллекта.
Поддерживает вывод данных с высоким разрешениемМожно создавать видеоролики в форматах 480P и 720P, а некоторые модели поддерживают 1080P без ограничения длины.
Технология Wan-VAE:: Обеспечивает эффективное временное сжатие, поддерживает создание длинных видео и сохраняет временную информацию.
Оптимизация графических процессоров для потребителей:: Работает на обычном оборудовании, что снижает барьер для использования.
поддержка многозадачности: Включает преобразование текста в изображение, видео в аудио и другие расширения.
Создание текстов на китайском и английском языках: Создание четкого текста на китайском и английском языках в видео.

Использование помощи

Wan2.1 - это мощный инструмент для создания видео с открытым исходным кодом, предназначенный для пользователей, которые хотят быстро генерировать высококачественный видеоконтент. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

Установка Wan2.1 требует некоторых технических навыков, в основном через репозиторий GitHub для получения кода и весов модели. Вот шаги:

1. Подготовка окружающей среды

операционная система: Поддержка Windows, Linux или macOS.
требования к оборудованию: GPU с объемом видеопамяти не менее 8 ГБ (например, RTX 3060 Ti или 4090), рекомендуются графические процессоры Nvidia.
зависимость от программного обеспечения: Python 3.10+, Git, графические драйверы и CUDA (если используется GPU).
Установка Python: Загрузите Python 3.10 или выше с официального сайта и установите флажок "Добавить Python в PATH" во время установки.

2. Загрузка кода и моделей

Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

Установите зависимые библиотеки:

pip install -r requirements.txt

Загрузите модель весов из Hugging Face (пример T2V-1.3B):

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Дополнительные модели: T2V-14B (более высокая производительность, требует большего объема видеопамяти), I2V-480P/720P.

3. среда конфигурации

Если видеопамяти мало, включите параметры оптимизации (например. --offload_model True ответить пением --t5_cpu).
Убедитесь, что драйвер GPU и CUDA были установлены правильно, используя nvidia-smi Проверьте.

4. Проверка установки

Выполните следующую команду, чтобы проверить среду:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

Если видеофайл выводится, установка прошла успешно.

Функции Поток операций

Текст в видео

Подготовленный текст:: Напишите описательные предложения, например, "Кошка грациозно идет по траве, а камера следит за ней".
Выполнить команду:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"

параметризация:

--size: Установите разрешение (например, 832).480 или 1280720).
--offload_model True: Оптимизация видеопамяти.
--sample_shift 8 --sample_guide_scale 6:: Повышение качества генерации.

экспорт: Созданное видео сохраняется в текущем каталоге и имеет длительность около 5 секунд.

Изображение в видео

Подготовка изображения: Загрузите изображение в формате JPG/PNG (например. input.jpg).
Выполнить команду:

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"

в конце концов: Модель генерирует динамическое видео на основе изображения, сохраняя оригинальные пропорции и естественные движения.

Видеомонтаж

Входное видео: Подготовка существующего видеофайла.
Редакционные операции: Используйте такой инструмент, как DiffSynth-Studio (Wan 2.1 поддерживает расширения), чтобы вызвать соответствующий модуль из командной строки.
пример команды (вычисления): См. документацию GitHub для получения информации о конкретных параметрах; в настоящее время поддерживается базовое редактирование.

Выходное устройство высокого разрешения

Используя модель T2V-14B или I2V-720P, установите --size 1280*720Новым видеокартам потребуется больше памяти (около 17 ГБ).
Wan-VAE поддерживает 1080P без ограничений по длине, что подходит для создания длинных видео.

Создание текста на китайском и английском языках

Включите в подсказку текстовое описание, например, "Табличка с надписью "Добро пожаловать" на английском и китайском языках".
Выполните команду Text to Video, и модель автоматически вставит чистый текст в видео.

Советы и рекомендации

оптимизировать производительность: Для низкоуровневого оборудования рекомендуются модели 1,3B и разрешение 480P; для высокоуровневого оборудования попробуйте 14B и 720P.
Предложения с подсказками: Улучшение качества генерации с помощью подробных описаний (например, действия, сцены, освещения).
Поддержка общества: Присоединяйтесь к дискуссионным группам GitHub Issues или Discord для получения помощи.

Выполнив эти действия, вы сможете легко использовать Wan2.1 для создания видеоконтента профессионального уровня как для творческих презентаций, так и для научных исследований.