TangoFlux: Быстрый инструмент для преобразования текста в дубляж, который генерирует 30 секунд длинного аудио за 3 секунды!
Общее введение
TangoFlux - это эффективная модель генерации текста в аудио (TTA), разработанная в лаборатории DeCLaRe. Модель способна генерировать до 30 секунд стереозвука 44,1 кГц всего за 3,7 с. TangoFlux использует методы согласования потоков и оптимизации предпочтений (Clap-Ranked Preference Optimization, CRPO) для улучшения выравнивания TTA путем генерирования и оптимизации данных о предпочтениях. Модель демонстрирует хорошие результаты как в объективных, так и в субъективных тестах, а весь код и модели имеют открытый исходный код для поддержки дальнейших исследований в области генерации TTA.

Опыт работы: https://huggingface.co/spaces/declare-lab/TangoFlux
Сингапурский университет технологии и дизайна (SUTD) и NVIDIA совместно представили TangoFlux - высокоэффективную модель генерации текста в аудио (TTA) с примерно 115 миллионами параметров, способную генерировать аудио до 44,1 кГц всего за 3,7 секунды на одном GPU A40. Имея около 515 миллионов параметров, модель способна генерировать до 30 секунд звука 44,1 кГц всего за 3,7 секунды на одном GPU A40. TangoFlux обладает не только сверхбыстрой скоростью генерации, но и лучшим качеством звука, чем открытые аудиомодели, такие как Stable Audio.
Сравните TANGoFLux с другими современными моделями генерации текста в аудио: TANGoFLux не только генерирует примерно в 2 раза быстрее, чем самые быстрые модели, но и достигает лучшего качества звука (по оценкам CLAP и FD), и все это при меньшем количестве обучаемых параметров.

TangoFlux, получивший название "Сверхбыстрая и достоверная генерация текста в аудио с помощью сопоставления потоков и оптимизации предпочтений по хлопку", состоит из блоков FluxTransformer, представляющих собой диффузионные трансформаторы (DiT) и мультимодальные диффузионные трансформаторы (MMDiT), которые, опираясь на текстовые подсказки и вкрапления длительности, генерируют до 30 секунд аудио в формате 44,1 кГц. Это диффузионный трансформатор (DiT) и мультимодальный диффузионный трансформатор (MMDiT), в которых учитываются текстовые подсказки и вкрапления длительности, чтобы генерировать аудио 44,1 кГц длиной до 30 секунд. TangoFlux обучает ректифицированные потоковые траектории скрытых представлений аудио, закодированных переменным автоэнкодером (VAE). Конвейер обучения TangoFlux состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений с помощью CRPO. В частности, CRPO итеративно генерирует новые синтетические данные и строит пары предпочтений, используя потери DPO для оптимизации предпочтений при согласовании потоков.

Список функций
- Быстрое генерирование аудио: Генерируйте до 30 секунд высококачественного аудио за 3,7 секунды.
- Технология согласования потоков: Генерация звука с помощью FluxTransformer и Multimodal Diffusion Transformers.
- Оптимизация CRPO: Улучшение качества генерации звука путем создания и оптимизации данных о предпочтениях.
- Многоступенчатое обучение: Он состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений.
- открытый исходный кодВесь код и модели находятся в открытом доступе для поддержки дальнейших исследований.
Использование помощи
Процесс установки
- Конфигурация среды: Убедитесь, что установлен Python 3.7 и выше, а также что установлены необходимые библиотеки зависимостей.
- склад клонов: Запуск в терминале
git clone https://github.com/declare-lab/TangoFlux.git
Хранилище клонирования. - Установка зависимостей: Перейдите в каталог проекта и выполните команду
pip install -r requirements.txt
Установите все зависимости.
Процесс использования
- обучение модели::
- Ускоритель конфигурации: Запуск
accelerate config
и следуйте подсказкам, чтобы настроить среду выполнения. - Настройте путь к учебному файлу: в
configs/tangoflux_config.yaml
Укажите путь к обучающему файлу и гиперпараметры модели в поле - Запустите сценарий обучения: Чтобы начать обучение, выполните следующую команду:
CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
- Обучение DPO: Измените файл обучения, включив в него поля "selected", "reject", "caption" и "duration", и выполните следующую команду:
CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
- Ускоритель конфигурации: Запуск
- моделируемое рассуждение::
- Загрузить модель: Убедитесь, что вы загрузили модель TangoFlux.
- Генерация звука: используйте следующий код для генерации звука из текстовой подсказки:
import torchaudio from tangoflux import TangoFluxInference from IPython.display import Audio model = TangoFluxInference(name='declare-lab/TangoFlux') audio = model.generate("生成音频的文本提示", duration=10) Audio(audio, rate=44100)
Детальное управление функциями
- Преобразование текста в звук: Введите текстовый запрос, задайте длительность генерируемого звука (от 1 до 30 секунд), и модель сгенерирует соответствующий высококачественный звук.
- склонность к оптимизации: Благодаря технологии CRPO модель способна генерировать звук, который в большей степени соответствует предпочтениям пользователя.
- Многоступенчатое обучение: Она состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений, чтобы обеспечить качество и согласованность аудио, генерируемого моделью.
предостережение
- требования к оборудованию: Для оптимальной производительности рекомендуется использовать GPU с более высокой вычислительной мощностью (например, A40).
- Подготовка данных: Обеспечение разнообразия и качества обучающих данных для улучшения генерации моделей.
Выполнив эти шаги, пользователи смогут быстро приступить к работе с TangoFlux для высококачественного преобразования текста в аудио. Подробные инструкции по установке и использованию гарантируют, что пользователи смогут успешно завершить процесс обучения и вывода модели.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...