DiffRhythm: генерируйте песни длительностью до 4 минут 45 секунд за 10 секунд.
Общее введение
DiffRhythm - это проект с открытым исходным кодом, разработанный ASLP-lab (Группа обработки аудио, речи и языка, Северо-Западный политехнический университет) и направленный на сквозное создание музыки с помощью технологий искусственного интеллекта. Он основан на модели Latent Diffusion и способен всего за 10 секунд сгенерировать полноценную песню длительностью до 4 минут 45 секунд, включая вокал и бэк-треки. Инструмент не только быстр, но и прост в использовании: для создания высококачественной музыки достаточно предоставить текст и указания по стилю. Цель DiffRhythm - решить проблему традиционной модели создания музыки, которая отличается высокой сложностью, длительным временем создания и может генерировать только фрагменты, что является болевой точкой, и подходит для создателей музыки, преподавателей и пользователей в индустрии развлечений.
Инкапсуляция рабочих процессов ComfyUI: Chttps://github.com/billwuhao/ComfyUI_DiffRhythm

Опыт работы: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Список функций
- Комплексное создание композиций: Введите тексты и стилистические подсказки, чтобы автоматически сгенерировать полные песни с вокалом и бэк-треками.
- быстрый вывод: Создайте композицию продолжительностью до 4 минут 45 секунд за 10 секунд.
- Лирика, синхронизированная с мелодией: Убедитесь, что сгенерированная мелодия естественно сочетается со слогами и ритмом текста.
- Настройка стиля: Поддержка нескольких музыкальных стилей для создания музыки, отвечающей потребностям пользователя.
- Поддержка открытых источников:: Предоставление исходного кода и моделей, позволяющих пользователям настраивать и расширять функциональность.
- Высокое качество продукции: Создаваемая музыка отличается высоким качеством звучания и удобством прослушивания.
Использование помощи
Процесс установки
DiffRhythm - это основанный на GitHub проект с открытым исходным кодом, для установки и запуска которого требуются некоторые знания программирования. Ниже описаны подробные шаги по установке:
- Подготовка к защите окружающей среды
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше.
- Установите Git для загрузки кода с GitHub.
- Рекомендуется использовать виртуальную среду (например.
venv
возможноconda
), чтобы избежать конфликтов зависимостей.
- Скачать код проекта
- Откройте терминал и введите следующую команду, чтобы клонировать репозиторий DiffRhythm:
git clone https://github.com/ASLP-lab/DiffRhythm.git
- Перейдите в каталог проектов:
cd DiffRhythm
- Откройте терминал и введите следующую команду, чтобы клонировать репозиторий DiffRhythm:
- Установка зависимостей
- Проекты обычно предусматривают
requirements.txt
файл, в котором перечислены необходимые библиотеки Python. - Выполните следующую команду в терминале, чтобы установить зависимость:
pip install -r requirements.txt
- Если у вас нет этого файла, вы можете установить основные библиотеки, такие как PyTorch, вручную, обратившись к примечаниям о зависимостях на странице GitHub или в документации.
- Проекты обычно предусматривают
- Загрузите предварительно обученную модель
- Предварительно обученные модели DiffRhythm обычно размещаются на Hugging Face или других платформах облачного хранения данных.
- интервью ASLP-lab/DiffRhythm-base Загрузите файл модели (например.
cfm_model.pt
). - Поместите загруженные файлы моделей в указанную папку в директории проекта (обычно она описана в документации, например
models/
).
- Проверка установки
- Запустите в терминале простую тестовую команду (точную команду см. в файле README на GitHub), например:
python main.py --test
- Если сообщений об ошибках нет, значит, установка прошла успешно.
- Запустите в терминале простую тестовую команду (точную команду см. в файле README на GitHub), например:
Как использовать DiffRhythm
Основная функция DiffRhythm - генерировать песни, вводя тексты и стилистические подсказки. Ниже приводится подробный порядок действий:
1. Подготовка исходных материалов
- текст песни: Напишите текст песни (на китайском, английском и т.д.) и сохраните его в текстовом файле (например.
lyrics.txt
), или введите его непосредственно в командной строке. - Советы по стилю:: Подготовьте краткое описание стиля, например, "поп-рок", "классическое фортепиано" или "электронная танцевальная музыка".
2. Генерация песен
- Откройте терминал и войдите в каталог проекта DiffRhythm.
- Выполните команду generate (параметры указаны в официальной документации, пример команды приведен ниже):
python generate.py --lyrics "lyrics.txt" --style "pop rock" --output "song.wav"
- Описание параметра:
--lyrics
: Указывает путь к файлу с текстом песни.--style
: Введите реплику музыкального стиля.--output
: Указывает путь и имя выходного аудиофайла.
- Подождите около 10 секунд, и программа сгенерирует аудиофайл в формате WAV по указанному пути.
3. Проверка вывода
- Когда генерация будет завершена, найдите
song.wav
файл и воспроизведите его с помощью любого аудиоплеера (например, Windows Media Player или VLC). - Убедитесь, что текст совпадает с мелодией и что качество звука соответствует ожиданиям.
Основные функции
- Комплексное создание композиций: Нет необходимости в сегментации, DiffRhythm генерирует целые песни за один раз. Пользователям нужно только предоставить текст и стиль, а для получения готового продукта не требуется дополнительных настроек параметров.
- быстрый вывод: Скорость генерации чрезвычайно высока благодаря неавторегрессионной структуре и технике скрытой диффузии. По сравнению со временем генерации традиционных моделей, которое часто занимает несколько минут, 10-секундная генерация DiffRhythm значительно повышает эффективность.
- Лирика, синхронизированная с мелодией: Если вы обнаружите, что сгенерированная мелодия не соответствует тексту, вы можете изменить количество слогов в тексте или добавить описание, например "четкий темп", в подсказку стиля, чтобы оптимизировать вывод.
- Настройка стиля:: Попробуйте использовать различные стилевые подсказки, например "джаз", "фолк" или "хип-хоп", и понаблюдайте за тем, как меняются результаты. Чем конкретнее указание стиля, тем ближе сгенерированная музыка к ожидаемой.
Советы и рекомендации
- Оптимизировать лирикуКороткие тексты легче подобрать к мелодии, чем длинные, избегая слишком сложных фраз.
- Пакетная генерация:: Напишите простой скрипт, который циклически просматривает вызовы к
generate.py
Песня может быть сгенерирована для нескольких композиций одновременно. - вывод отладки: Если полученные результаты вас не устраивают, проверьте файлы журнала (если они есть) или настройте параметры модели (например, количество шагов диффузии), как описано в документации на GitHub.
предостережение
- требования к оборудованию: Процесс генерации требует больших вычислительных ресурсов, поэтому для увеличения скорости рекомендуется использовать компьютер, оснащенный графическим процессором.
- вклад с открытым исходным кодом: Если вы хорошо разбираетесь в программировании, вы можете форкнуть проект, оптимизировать код или добавить новые функции и отправить запрос на выгрузку.
- Предупреждение об авторских правах: Созданная музыка может быть связана с риском нарушения авторских прав из-за стилистического сходства и рекомендуется для изучения или некоммерческого использования.
Выполнив эти шаги, вы сможете быстро начать работу с DiffRhythm и прочувствовать процесс создания песни от текста до полной композиции!
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...