TangoFlux: Быстрый инструмент для преобразования текста в дубляж, который генерирует 30 секунд длинного аудио за 3 секунды!

Общее введение

TangoFlux - это эффективная модель генерации текста в аудио (TTA), разработанная в лаборатории DeCLaRe. Модель способна генерировать до 30 секунд стереозвука 44,1 кГц всего за 3,7 с. TangoFlux использует методы согласования потоков и оптимизации предпочтений (Clap-Ranked Preference Optimization, CRPO) для улучшения выравнивания TTA путем генерирования и оптимизации данных о предпочтениях. Модель демонстрирует хорошие результаты как в объективных, так и в субъективных тестах, а весь код и модели имеют открытый исходный код для поддержки дальнейших исследований в области генерации TTA.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

Опыт работы: https://huggingface.co/spaces/declare-lab/TangoFlux

 

Сингапурский университет технологии и дизайна (SUTD) и NVIDIA совместно представили TangoFlux - высокоэффективную модель генерации текста в аудио (TTA) с примерно 115 миллионами параметров, способную генерировать аудио до 44,1 кГц всего за 3,7 секунды на одном GPU A40. Имея около 515 миллионов параметров, модель способна генерировать до 30 секунд звука 44,1 кГц всего за 3,7 секунды на одном GPU A40. TangoFlux обладает не только сверхбыстрой скоростью генерации, но и лучшим качеством звука, чем открытые аудиомодели, такие как Stable Audio.

Сравните TANGoFLux с другими современными моделями генерации текста в аудио: TANGoFLux не только генерирует примерно в 2 раза быстрее, чем самые быстрые модели, но и достигает лучшего качества звука (по оценкам CLAP и FD), и все это при меньшем количестве обучаемых параметров.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

 

TangoFlux, получивший название "Сверхбыстрая и достоверная генерация текста в аудио с помощью сопоставления потоков и оптимизации предпочтений по хлопку", состоит из блоков FluxTransformer, представляющих собой диффузионные трансформаторы (DiT) и мультимодальные диффузионные трансформаторы (MMDiT), которые, опираясь на текстовые подсказки и вкрапления длительности, генерируют до 30 секунд аудио в формате 44,1 кГц. Это диффузионный трансформатор (DiT) и мультимодальный диффузионный трансформатор (MMDiT), в которых учитываются текстовые подсказки и вкрапления длительности, чтобы генерировать аудио 44,1 кГц длиной до 30 секунд. TangoFlux обучает ректифицированные потоковые траектории скрытых представлений аудио, закодированных переменным автоэнкодером (VAE). Конвейер обучения TangoFlux состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений с помощью CRPO. В частности, CRPO итеративно генерирует новые синтетические данные и строит пары предпочтений, используя потери DPO для оптимизации предпочтений при согласовании потоков.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

 

Список функций

  • Быстрое генерирование аудио: Генерируйте до 30 секунд высококачественного аудио за 3,7 секунды.
  • Технология согласования потоков: Генерация звука с помощью FluxTransformer и Multimodal Diffusion Transformers.
  • Оптимизация CRPO: Улучшение качества генерации звука путем создания и оптимизации данных о предпочтениях.
  • Многоступенчатое обучение: Он состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений.
  • открытый исходный кодВесь код и модели находятся в открытом доступе для поддержки дальнейших исследований.

 

Использование помощи

Процесс установки

  1. Конфигурация среды: Убедитесь, что установлен Python 3.7 и выше, а также что установлены необходимые библиотеки зависимостей.
  2. склад клонов: Запуск в терминале git clone https://github.com/declare-lab/TangoFlux.git Хранилище клонирования.
  3. Установка зависимостей: Перейдите в каталог проекта и выполните команду pip install -r requirements.txt Установите все зависимости.

Процесс использования

  1. обучение модели::
    • Ускоритель конфигурации: Запуск accelerate config и следуйте подсказкам, чтобы настроить среду выполнения.
    • Настройте путь к учебному файлу: в configs/tangoflux_config.yaml Укажите путь к обучающему файлу и гиперпараметры модели в поле
    • Запустите сценарий обучения: Чтобы начать обучение, выполните следующую команду:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
    
    • Обучение DPO: Измените файл обучения, включив в него поля "selected", "reject", "caption" и "duration", и выполните следующую команду:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
    
  2. моделируемое рассуждение::
    • Загрузить модель: Убедитесь, что вы загрузили модель TangoFlux.
    • Генерация звука: используйте следующий код для генерации звука из текстовой подсказки:
     import torchaudio
    from tangoflux import TangoFluxInference
    from IPython.display import Audio
    model = TangoFluxInference(name='declare-lab/TangoFlux')
    audio = model.generate("生成音频的文本提示", duration=10)
    Audio(audio, rate=44100)
    

Детальное управление функциями

  • Преобразование текста в звук: Введите текстовый запрос, задайте длительность генерируемого звука (от 1 до 30 секунд), и модель сгенерирует соответствующий высококачественный звук.
  • склонность к оптимизации: Благодаря технологии CRPO модель способна генерировать звук, который в большей степени соответствует предпочтениям пользователя.
  • Многоступенчатое обучение: Она состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений, чтобы обеспечить качество и согласованность аудио, генерируемого моделью.

предостережение

  • требования к оборудованию: Для оптимальной производительности рекомендуется использовать GPU с более высокой вычислительной мощностью (например, A40).
  • Подготовка данных: Обеспечение разнообразия и качества обучающих данных для улучшения генерации моделей.

Выполнив эти шаги, пользователи смогут быстро приступить к работе с TangoFlux для высококачественного преобразования текста в аудио. Подробные инструкции по установке и использованию гарантируют, что пользователи смогут успешно завершить процесс обучения и вывода модели.

© заявление об авторских правах

Похожие статьи

Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...