MMAudio: генерирование синхронизированных звуковых эффектов и саундтреков для видеоматериалов, мультимодальный инструмент совместного обучения "видео-аудио".

Общее введение

MMAudio - это проект с открытым исходным кодом, целью которого является создание высококачественного синхронизированного аудио с помощью совместного мультимодального обучения. Основная функция проекта, разработанного Хо Кей Ченгом и др. в Китайском университете Гонконга, - генерирование синхронизированного аудио на основе видео и/или текстовых данных. Основная инновация MMAudio заключается в мультимодальном подходе к совместному обучению, который позволяет проводить обучение на широком спектре аудио-видео и аудио-текстовых данных. Кроме того, модуль синхронизации позволяет согласовывать генерируемое аудио с видеокадрами. Проект все еще находится в стадии разработки, но уже работает функциональность вывода по одному случаю, и код обучения будет добавлен. На сайте openart можно поискать родственные рабочие процессы.

MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

 

Список функций

  • Генерация видео в аудио: Генерирует синхронизированный звук на основе входящего видео.
  • Преобразование текста в звук: Генерируйте аудио на основе входного текста.
  • Совместное мультимодальное обучение: Совместное обучение на наборах аудио-видео и аудио-текстовых данных.
  • модуль синхронизации: Выравнивает сгенерированный звук по кадру видео.
  • открытый исходный код: Предоставляется полный открытый исходный код для облегчения вторичной разработки пользователями.
  • Модель предварительного обучения: Предоставляется широкий выбор предварительно обученных моделей, которые могут быть использованы непосредственно пользователем.
  • Демо-скрипт: Предоставьте пользователям множество демонстрационных скриптов для быстрого начала работы.

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды: Рекомендуется использовать окружение miniforge. Убедитесь, что установлены Python 3.9+ и PyTorch 2.5.1+ и соответствующие torchvision/torchaudio.
  2. Установка зависимостей: Выполните следующую команду для установки необходимых зависимостей:
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
  1. склад клонов: Клонируйте репозиторий MMAudio с помощью следующей команды:
   git clone https://github.com/hkchengrex/MMAudio.git
  1. Установка MMAudio: Перейдите в каталог MMAudio и выполните команду install:
   cd MMAudio
pip install -e .

Использование

  1. Запустите демонстрационный скрипт: MMAudio предоставляет несколько демонстрационных скриптов, которые позволяют пользователям запустить модель по умолчанию large_44k с помощью следующих команд:
   python demo.py
  1. Ввод видео или текста: Введите видеофайл или текст, и MMAudio создаст соответствующий синхронизированный звук.
  2. Посмотреть результаты: Созданный звук будет синхронизирован с входными видеокадрами и может быть просмотрен и использован непосредственно пользователем.

Подробный порядок работы функций

  • Генерация видео в аудио: Используйте видеофайл в качестве исходного, запустите демонстрационный скрипт, и MMAudio автоматически сгенерирует звук, синхронизированный с видео.
  • Преобразование текста в звук: Возьмите текст на вход, запустите соответствующий скрипт, и MMAudio сгенерирует соответствующий звук.
  • Совместное мультимодальное обучение: Пользователи могут проводить мультимодальное совместное обучение на собственных наборах данных на основе предоставленного обучающего кода для улучшения генерации моделей.
  • модуль синхронизации: Модуль автоматически выравнивает сгенерированный звук по видеокадру, чтобы обеспечить синхронизацию звука и видео.

предостережение

  • Экологические требования: В настоящее время тестируется только на системах Ubuntu, для других систем может потребоваться дополнительная настройка.
  • версия зависимости: Убедитесь, что установленные версии зависимостей соответствуют требованиям проекта, чтобы избежать проблем с совместимостью.
  • Модель предварительного обучения: Предварительно обученные модели будут загружены автоматически при запуске демонстрационного скрипта, либо пользователи могут загрузить их вручную и поместить в указанную директорию.

Выполнив эти действия, пользователи смогут быстро установить и использовать MMAudio для создания высококачественного синхронизированного звука. Подробная справка по использованию и демонстрационные скрипты помогут пользователям лучше понять и использовать инструмент.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...