TangoFlux: Быстрый инструмент для преобразования текста в дубляж, который генерирует 30 секунд длинного аудио за 3 секунды!

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

Общее введение

TangoFlux - это эффективная модель генерации текста в аудио (TTA), разработанная в лаборатории DeCLaRe. Модель способна генерировать до 30 секунд стереозвука 44,1 кГц всего за 3,7 с. TangoFlux использует методы согласования потоков и оптимизации предпочтений (Clap-Ranked Preference Optimization, CRPO) для улучшения выравнивания TTA путем генерирования и оптимизации данных о предпочтениях. Модель демонстрирует хорошие результаты как в объективных, так и в субъективных тестах, а весь код и модели имеют открытый исходный код для поддержки дальнейших исследований в области генерации TTA.

Опыт работы: https://huggingface.co/spaces/declare-lab/TangoFlux

Сингапурский университет технологии и дизайна (SUTD) и NVIDIA совместно представили TangoFlux - высокоэффективную модель генерации текста в аудио (TTA) с примерно 115 миллионами параметров, способную генерировать аудио до 44,1 кГц всего за 3,7 секунды на одном GPU A40. Имея около 515 миллионов параметров, модель способна генерировать до 30 секунд звука 44,1 кГц всего за 3,7 секунды на одном GPU A40. TangoFlux обладает не только сверхбыстрой скоростью генерации, но и лучшим качеством звука, чем открытые аудиомодели, такие как Stable Audio.

Сравните TANGoFLux с другими современными моделями генерации текста в аудио: TANGoFLux не только генерирует примерно в 2 раза быстрее, чем самые быстрые модели, но и достигает лучшего качества звука (по оценкам CLAP и FD), и все это при меньшем количестве обучаемых параметров.

TangoFlux, получивший название "Сверхбыстрая и достоверная генерация текста в аудио с помощью сопоставления потоков и оптимизации предпочтений по хлопку", состоит из блоков FluxTransformer, представляющих собой диффузионные трансформаторы (DiT) и мультимодальные диффузионные трансформаторы (MMDiT), которые, опираясь на текстовые подсказки и вкрапления длительности, генерируют до 30 секунд аудио в формате 44,1 кГц. Это диффузионный трансформатор (DiT) и мультимодальный диффузионный трансформатор (MMDiT), в которых учитываются текстовые подсказки и вкрапления длительности, чтобы генерировать аудио 44,1 кГц длиной до 30 секунд. TangoFlux обучает ректифицированные потоковые траектории скрытых представлений аудио, закодированных переменным автоэнкодером (VAE). Конвейер обучения TangoFlux состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений с помощью CRPO. В частности, CRPO итеративно генерирует новые синтетические данные и строит пары предпочтений, используя потери DPO для оптимизации предпочтений при согласовании потоков.

Список функций

Быстрое генерирование аудио: Генерируйте до 30 секунд высококачественного аудио за 3,7 секунды.
Технология согласования потоков: Генерация звука с помощью FluxTransformer и Multimodal Diffusion Transformers.
Оптимизация CRPO: Улучшение качества генерации звука путем создания и оптимизации данных о предпочтениях.
Многоступенчатое обучение: Он состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений.
открытый исходный кодВесь код и модели находятся в открытом доступе для поддержки дальнейших исследований.

Использование помощи

Процесс установки

Конфигурация среды: Убедитесь, что установлен Python 3.7 и выше, а также что установлены необходимые библиотеки зависимостей.
склад клонов: Запуск в терминале git clone https://github.com/declare-lab/TangoFlux.git Хранилище клонирования.
Установка зависимостей: Перейдите в каталог проекта и выполните команду pip install -r requirements.txt Установите все зависимости.

Процесс использования

обучение модели::
- Ускоритель конфигурации: Запуск accelerate config и следуйте подсказкам, чтобы настроить среду выполнения.
- Настройте путь к учебному файлу: в configs/tangoflux_config.yaml Укажите путь к обучающему файлу и гиперпараметры модели в поле
- Запустите сценарий обучения: Чтобы начать обучение, выполните следующую команду:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```
- Обучение DPO: Измените файл обучения, включив в него поля "selected", "reject", "caption" и "duration", и выполните следующую команду:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```
моделируемое рассуждение::
- Загрузить модель: Убедитесь, что вы загрузили модель TangoFlux.
- Генерация звука: используйте следующий код для генерации звука из текстовой подсказки:
```
 import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate("生成音频的文本提示", duration=10)
Audio(audio, rate=44100)
```

Детальное управление функциями

Преобразование текста в звук: Введите текстовый запрос, задайте длительность генерируемого звука (от 1 до 30 секунд), и модель сгенерирует соответствующий высококачественный звук.
склонность к оптимизации: Благодаря технологии CRPO модель способна генерировать звук, который в большей степени соответствует предпочтениям пользователя.
Многоступенчатое обучение: Она состоит из трех этапов: предварительное обучение, тонкая настройка и оптимизация предпочтений, чтобы обеспечить качество и согласованность аудио, генерируемого моделью.

предостережение

требования к оборудованию: Для оптимальной производительности рекомендуется использовать GPU с более высокой вычислительной мощностью (например, A40).
Подготовка данных: Обеспечение разнообразия и качества обучающих данных для улучшения генерации моделей.

Выполнив эти шаги, пользователи смогут быстро приступить к работе с TangoFlux для высококачественного преобразования текста в аудио. Подробные инструкции по установке и использованию гарантируют, что пользователи смогут успешно завершить процесс обучения и вывода модели.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Music

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

PostRoast: аналитический инструмент с искусственным интеллектом для оптимизации контента социальных сетей

Последние ресурсы по искусственному интеллекту # AI Социальные сети

12 месяцев назад

053.4K

Extract.fun：开源网站图片提取工具，利用Cloudflare浏览器渲染

Extract.fun: инструмент для извлечения изображений из веб-сайтов с открытым исходным кодом, использующий рендеринг браузера Cloudflare

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

052.1K

Xorbits Inference: развертывание нескольких моделей искусственного интеллекта одним щелчком мыши, распределенная система выводов

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

2 года назад

051.5K

Simple AI: умное тело, позволяющее искусственному интеллекту совершать звонки за вас, легко решая задачи бронирования и резервирования по телефону.

Последние ресурсы по искусственному интеллекту # AI Помощник по повышению эффективности жизни # Применение интеллектуального кузова

1 год назад

060.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

TangoFlux: Быстрый инструмент для преобразования текста в дубляж, который генерирует 30 секунд длинного аудио за 3 секунды!

Общее введение

Список функций