STAR: ИИ-модель улучшения пространственного времени для повышения резкости разрешения видео

Последние ресурсы по искусственному интеллектуОпубликовано 12 месяцев назад Круг обмена ИИ

41.8K 00

Общее введение

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) - это инновационная система сверхразрешения видео, разработанная совместно Нанкинским университетом, ByteDance и Юго-Западным университетом. Проект посвящен решению ключевых проблем обработки видео с суперразрешением в реальном мире и позволяет добиться высококачественного улучшения видеокадров путем объединения априорных знаний о моделях диффузии текста и видео (T2V). Отличительная особенность модели STAR заключается в ее способности одновременно поддерживать точность пространственных деталей и временную согласованность, что зачастую трудно совместить с традиционными подходами на основе GAN. Проект предусматривает две версии реализации: легкую и тяжелую модели обработки для снижения качества на базе I2VGen-XL и тяжелую модель обработки для снижения качества на базе CogVideoX-5B, которые способны адаптироваться к потребностям улучшения видео в различных сценариях.

Список функций

Поддержка восстановления со сверхвысоким разрешением для многих типов обработки ухудшения качества видео (легких и тяжелых)
Автоматизированная генерация слов для подсказок, поддержка создания описания видео с помощью таких инструментов, как Pllava
Предоставление онлайновой демонстрационной платформы (HuggingFace Spaces)
Поддержка обработки входного видеосигнала с разрешением 720x480
Предоставьте полный код для вывода и предварительно обученные модели
Интеграция модуля улучшения локальной информации (LIEM) для улучшения качества детальной реконструкции экрана
Поддержка пакетной обработки видео
Обеспечивает гибкие возможности взвешивания моделей

Использование помощи

1. конфигурация окружающей среды

Сначала вам нужно настроить среду выполнения следующим образом:

Клонируйте репозиторий кода:

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

Создайте и активируйте среду conda:

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. Выбор и загрузка модели

STAR предлагает две версии модели:

Модель на основе I2VGen-XL:
- light_deg.pt: для обработки видео с деградацией света
- heavy_deg.pt: для обработки видео с сильной деградацией
Модель на базе CogVideoX-5B:
- Специально разработано для работы с сильно ухудшенным видео.
- Поддерживается только входное разрешение 720x480

Загрузите соответствующие модельные веса с сайта HuggingFace и поместите их вpretrained_weight/Каталог.

3. Поток обработки видео

Подготовьте тестовые данные:
- Поместите обрабатываемое видео вinput/video/каталог (на жестком диске компьютера)
- Подготовка слов для подсказки (три варианта):
  - непроизнесённое слово
  - Автоматически генерируется с помощью Pllava
  - Ручное написание описаний к видео
Настройте параметры обработки:
- модификацииvideo_super_resolution/scripts/inference_sr.shКонфигурация пути в
  - video_folder_path: путь к входному видео
  - txt_file_path: путь к файлу запроса
  - model_path: путь к весу модели
  - save_dir: путь сохранения выходных данных
Начните рассуждать:

bash video_super_resolution/scripts/inference_sr.sh

Примечание: Если вы столкнулись с проблемой переполнения памяти (OOM), вы можете добавить новый файл вinference_sr.shсредний минор (в музыке)frame_lengthПараметры.

4. Специальная конфигурация модели CogVideoX-5B

При использовании модели CogVideoX-5B необходимо выполнить дополнительные действия:

Создайте специальную среду:

conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt

Загрузите дополнительные зависимости:

Необходимо загрузить VAE и T5 Encoder
обновлениеcogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlКонфигурация пути в
Замена файла transformer.py

Последние ресурсы по искусственному интеллекту # AI Увеличение и восстановление изображений # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Последние ресурсы по искусственному интеллекту

1 месяц назад

015.6K

Bonsai: трехзначная взвешенная языковая модель, подходящая для работы с устройствами на границе

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Тонкая настройка крупной модели

9 месяцев назад

035.4K

Aivilization - мультиагентная платформа социального моделирования, запущенная HKUST

Последние ресурсы по искусственному интеллекту

4 месяца назад

055.1K

Unsloth: инструмент с открытым исходным кодом для эффективной тонкой настройки и обучения больших языковых моделей

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Тонкая настройка крупной модели

11 месяцев назад

048.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

STAR: ИИ-модель улучшения пространственного времени для повышения резкости разрешения видео

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

2. Выбор и загрузка модели

3. Поток обработки видео

4. Специальная конфигурация модели CogVideoX-5B

ImBD: обнаружение контента, созданного ИИ, определение того, создан ли контент ИИ или нет

Sana Labs: инструмент искусственного интеллекта для управления корпоративными знаниями и научного обучения сотрудников

Похожие статьи

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Bonsai: трехзначная взвешенная языковая модель, подходящая для работы с устройствами на границе

Aivilization - мультиагентная платформа социального моделирования, запущенная HKUST

Unsloth: инструмент с открытым исходным кодом для эффективной тонкой настройки и обучения больших языковых моделей

Нет комментариев

Последние коллекции

Последние статьи

STAR: ИИ-модель улучшения пространственного времени для повышения резкости разрешения видео

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

2. Выбор и загрузка модели

3. Поток обработки видео

4. Специальная конфигурация модели CogVideoX-5B

ImBD: обнаружение контента, созданного ИИ, определение того, создан ли контент ИИ или нет

Sana Labs: инструмент искусственного интеллекта для управления корпоративными знаниями и научного обучения сотрудников

Похожие статьи

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Bonsai: трехзначная взвешенная языковая модель, подходящая для работы с устройствами на границе

Aivilization - мультиагентная платформа социального моделирования, запущенная HKUST

Unsloth: инструмент с открытым исходным кодом для эффективной тонкой настройки и обучения больших языковых моделей

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи