DiffRhythm: генерируйте песни длительностью до 4 минут 45 секунд за 10 секунд.

Общее введение

DiffRhythm - это проект с открытым исходным кодом, разработанный ASLP-lab (Группа обработки аудио, речи и языка, Северо-Западный политехнический университет) и направленный на сквозное создание музыки с помощью технологий искусственного интеллекта. Он основан на модели Latent Diffusion и способен всего за 10 секунд сгенерировать полноценную песню длительностью до 4 минут 45 секунд, включая вокал и бэк-треки. Инструмент не только быстр, но и прост в использовании: для создания высококачественной музыки достаточно предоставить текст и указания по стилю. Цель DiffRhythm - решить проблему традиционной модели создания музыки, которая отличается высокой сложностью, длительным временем создания и может генерировать только фрагменты, что является болевой точкой, и подходит для создателей музыки, преподавателей и пользователей в индустрии развлечений.

Инкапсуляция рабочих процессов ComfyUI: Chttps://github.com/billwuhao/ComfyUI_DiffRhythm

DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

Опыт работы: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

 

DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

 

Список функций

  • Комплексное создание композиций: Введите тексты и стилистические подсказки, чтобы автоматически сгенерировать полные песни с вокалом и бэк-треками.
  • быстрый вывод: Создайте композицию продолжительностью до 4 минут 45 секунд за 10 секунд.
  • Лирика, синхронизированная с мелодией: Убедитесь, что сгенерированная мелодия естественно сочетается со слогами и ритмом текста.
  • Настройка стиля: Поддержка нескольких музыкальных стилей для создания музыки, отвечающей потребностям пользователя.
  • Поддержка открытых источников:: Предоставление исходного кода и моделей, позволяющих пользователям настраивать и расширять функциональность.
  • Высокое качество продукции: Создаваемая музыка отличается высоким качеством звучания и удобством прослушивания.

 

Использование помощи

Процесс установки

DiffRhythm - это основанный на GitHub проект с открытым исходным кодом, для установки и запуска которого требуются некоторые знания программирования. Ниже описаны подробные шаги по установке:

  1. Подготовка к защите окружающей среды
    • Убедитесь, что на вашем компьютере установлен Python 3.8 или выше.
    • Установите Git для загрузки кода с GitHub.
    • Рекомендуется использовать виртуальную среду (например. venv возможно conda), чтобы избежать конфликтов зависимостей.
  2. Скачать код проекта
    • Откройте терминал и введите следующую команду, чтобы клонировать репозиторий DiffRhythm:
      git clone https://github.com/ASLP-lab/DiffRhythm.git
      
    • Перейдите в каталог проектов:
      cd DiffRhythm
      
  3. Установка зависимостей
    • Проекты обычно предусматривают requirements.txt файл, в котором перечислены необходимые библиотеки Python.
    • Выполните следующую команду в терминале, чтобы установить зависимость:
      pip install -r requirements.txt
      
    • Если у вас нет этого файла, вы можете установить основные библиотеки, такие как PyTorch, вручную, обратившись к примечаниям о зависимостях на странице GitHub или в документации.
  4. Загрузите предварительно обученную модель
    • Предварительно обученные модели DiffRhythm обычно размещаются на Hugging Face или других платформах облачного хранения данных.
    • интервью ASLP-lab/DiffRhythm-base Загрузите файл модели (например. cfm_model.pt).
    • Поместите загруженные файлы моделей в указанную папку в директории проекта (обычно она описана в документации, например models/).
  5. Проверка установки
    • Запустите в терминале простую тестовую команду (точную команду см. в файле README на GitHub), например:
      python main.py --test
      
    • Если сообщений об ошибках нет, значит, установка прошла успешно.

Как использовать DiffRhythm

Основная функция DiffRhythm - генерировать песни, вводя тексты и стилистические подсказки. Ниже приводится подробный порядок действий:

1. Подготовка исходных материалов

  • текст песни: Напишите текст песни (на китайском, английском и т.д.) и сохраните его в текстовом файле (например. lyrics.txt), или введите его непосредственно в командной строке.
  • Советы по стилю:: Подготовьте краткое описание стиля, например, "поп-рок", "классическое фортепиано" или "электронная танцевальная музыка".

2. Генерация песен

  • Откройте терминал и войдите в каталог проекта DiffRhythm.
  • Выполните команду generate (параметры указаны в официальной документации, пример команды приведен ниже):
python generate.py --lyrics "lyrics.txt" --style "pop rock" --output "song.wav"
  • Описание параметра:
    • --lyrics: Указывает путь к файлу с текстом песни.
    • --style: Введите реплику музыкального стиля.
    • --output: Указывает путь и имя выходного аудиофайла.
  • Подождите около 10 секунд, и программа сгенерирует аудиофайл в формате WAV по указанному пути.

3. Проверка вывода

  • Когда генерация будет завершена, найдите song.wav файл и воспроизведите его с помощью любого аудиоплеера (например, Windows Media Player или VLC).
  • Убедитесь, что текст совпадает с мелодией и что качество звука соответствует ожиданиям.

Основные функции

  • Комплексное создание композиций: Нет необходимости в сегментации, DiffRhythm генерирует целые песни за один раз. Пользователям нужно только предоставить текст и стиль, а для получения готового продукта не требуется дополнительных настроек параметров.
  • быстрый вывод: Скорость генерации чрезвычайно высока благодаря неавторегрессионной структуре и технике скрытой диффузии. По сравнению со временем генерации традиционных моделей, которое часто занимает несколько минут, 10-секундная генерация DiffRhythm значительно повышает эффективность.
  • Лирика, синхронизированная с мелодией: Если вы обнаружите, что сгенерированная мелодия не соответствует тексту, вы можете изменить количество слогов в тексте или добавить описание, например "четкий темп", в подсказку стиля, чтобы оптимизировать вывод.
  • Настройка стиля:: Попробуйте использовать различные стилевые подсказки, например "джаз", "фолк" или "хип-хоп", и понаблюдайте за тем, как меняются результаты. Чем конкретнее указание стиля, тем ближе сгенерированная музыка к ожидаемой.

Советы и рекомендации

  • Оптимизировать лирикуКороткие тексты легче подобрать к мелодии, чем длинные, избегая слишком сложных фраз.
  • Пакетная генерация:: Напишите простой скрипт, который циклически просматривает вызовы к generate.pyПесня может быть сгенерирована для нескольких композиций одновременно.
  • вывод отладки: Если полученные результаты вас не устраивают, проверьте файлы журнала (если они есть) или настройте параметры модели (например, количество шагов диффузии), как описано в документации на GitHub.

предостережение

  • требования к оборудованию: Процесс генерации требует больших вычислительных ресурсов, поэтому для увеличения скорости рекомендуется использовать компьютер, оснащенный графическим процессором.
  • вклад с открытым исходным кодом: Если вы хорошо разбираетесь в программировании, вы можете форкнуть проект, оптимизировать код или добавить новые функции и отправить запрос на выгрузку.
  • Предупреждение об авторских правах: Созданная музыка может быть связана с риском нарушения авторских прав из-за стилистического сходства и рекомендуется для изучения или некоммерческого использования.

Выполнив эти шаги, вы сможете быстро начать работу с DiffRhythm и прочувствовать процесс создания песни от текста до полной композиции!

© заявление об авторских правах

Похожие статьи

Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...