Wan2.1: Создание высококачественного видео на потребительских графических процессорах
Общее введение
Wan2.1 - это набор инструментов для создания видео, разработанный командой Wan-Video с открытым исходным кодом на GitHub и направленный на расширение границ создания видео с помощью технологий искусственного интеллекта. Основанный на передовой архитектуре диффузионного конвертера, он включает в себя уникальный автокодер с изменяющимся по времени кодированием (Wan-VAE), который поддерживает преобразование текста в видео, изображения в видео и т. д. Главными особенностями Wan2.1 являются его превосходная производительность и поддержка аппаратного обеспечения потребительского класса, например модели T2V-1.3B, которая требует всего 8,19 ГБ видеопамяти для работы и генерирует 5-секундные видео 480P на RTX 4090. видео на RTX 4090. Проект не только обеспечивает эффективную генерацию видео, но и поддерживает кодирование и декодирование 1080P без ограничений по длине, что делает его широко применимым для создателей контента, разработчиков и академических исследовательских групп.
Похожие статьи:Модель генерации видео VBench возглавляет чарты... Вершина чартов - WanX 2.1 скоро станет открытым исходным кодом!

Список функций
- Текст в видео: Генерирование динамического видеоконтента на основе вводимых текстовых описаний с поддержкой многоязычного ввода текста.
- Изображение в видео: Преобразование неподвижных изображений в видеоролики с сохранением исходных пропорций и естественного движения изображения.
- Редактирование видео: Изменение или оптимизация существующих видеороликов с помощью технологии искусственного интеллекта.
- Поддерживает вывод данных с высоким разрешениемМожно создавать видеоролики в форматах 480P и 720P, а некоторые модели поддерживают 1080P без ограничения длины.
- Технология Wan-VAE:: Обеспечивает эффективное временное сжатие, поддерживает создание длинных видео и сохраняет временную информацию.
- Оптимизация графических процессоров для потребителей:: Работает на обычном оборудовании, что снижает барьер для использования.
- поддержка многозадачности: Включает преобразование текста в изображение, видео в аудио и другие расширения.
- Создание текстов на китайском и английском языках: Создание четкого текста на китайском и английском языках в видео.
Использование помощи
Wan2.1 - это мощный инструмент для создания видео с открытым исходным кодом, предназначенный для пользователей, которые хотят быстро генерировать высококачественный видеоконтент. Ниже приведено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.
Процесс установки
Установка Wan2.1 требует некоторых технических навыков, в основном через репозиторий GitHub для получения кода и весов модели. Вот шаги:
1. Подготовка окружающей среды
- операционная система: Поддержка Windows, Linux или macOS.
- требования к оборудованию: GPU с объемом видеопамяти не менее 8 ГБ (например, RTX 3060 Ti или 4090), рекомендуются графические процессоры Nvidia.
- зависимость от программного обеспечения: Python 3.10+, Git, графические драйверы и CUDA (если используется GPU).
- Установка Python: Загрузите Python 3.10 или выше с официального сайта и установите флажок "Добавить Python в PATH" во время установки.
2. Загрузка кода и моделей
- Откройте терминал или командную строку и введите следующую команду, чтобы клонировать репозиторий:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
- Установите зависимые библиотеки:
pip install -r requirements.txt
- Загрузите модель весов из Hugging Face (пример T2V-1.3B):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
- Дополнительные модели: T2V-14B (более высокая производительность, требует большего объема видеопамяти), I2V-480P/720P.
3. среда конфигурации
- Если видеопамяти мало, включите параметры оптимизации (например.
--offload_model True
ответить пением--t5_cpu
). - Убедитесь, что драйвер GPU и CUDA были установлены правильно, используя
nvidia-smi
Проверьте.
4. Проверка установки
Выполните следующую команду, чтобы проверить среду:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"
Если видеофайл выводится, установка прошла успешно.
Функции Поток операций
Текст в видео
- Подготовленный текст:: Напишите описательные предложения, например, "Кошка грациозно идет по траве, а камера следит за ней".
- Выполнить команду:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"
- параметризация:
--size
: Установите разрешение (например, 832).480 или 1280720).--offload_model True
: Оптимизация видеопамяти.--sample_shift 8 --sample_guide_scale 6
:: Повышение качества генерации.
- экспорт: Созданное видео сохраняется в текущем каталоге и имеет длительность около 5 секунд.
Изображение в видео
- Подготовка изображения: Загрузите изображение в формате JPG/PNG (например.
input.jpg
). - Выполнить команду:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"
- в конце концов: Модель генерирует динамическое видео на основе изображения, сохраняя оригинальные пропорции и естественные движения.
Видеомонтаж
- Входное видео: Подготовка существующего видеофайла.
- Редакционные операции: Используйте такой инструмент, как DiffSynth-Studio (Wan 2.1 поддерживает расширения), чтобы вызвать соответствующий модуль из командной строки.
- пример команды (вычисления): См. документацию GitHub для получения информации о конкретных параметрах; в настоящее время поддерживается базовое редактирование.
Выходное устройство высокого разрешения
- Используя модель T2V-14B или I2V-720P, установите
--size 1280*720
Новым видеокартам потребуется больше памяти (около 17 ГБ). - Wan-VAE поддерживает 1080P без ограничений по длине, что подходит для создания длинных видео.
Создание текста на китайском и английском языках
- Включите в подсказку текстовое описание, например, "Табличка с надписью "Добро пожаловать" на английском и китайском языках".
- Выполните команду Text to Video, и модель автоматически вставит чистый текст в видео.
Советы и рекомендации
- оптимизировать производительность: Для низкоуровневого оборудования рекомендуются модели 1,3B и разрешение 480P; для высокоуровневого оборудования попробуйте 14B и 720P.
- Предложения с подсказками: Улучшение качества генерации с помощью подробных описаний (например, действия, сцены, освещения).
- Поддержка общества: Присоединяйтесь к дискуссионным группам GitHub Issues или Discord для получения помощи.
Выполнив эти действия, вы сможете легко использовать Wan2.1 для создания видеоконтента профессионального уровня как для творческих презентаций, так и для научных исследований.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...