DiffRhythm: Genera canciones de hasta 4 minutos y 45 segundos en 10 segundos.

Introducción general

DiffRhythm es un proyecto de código abierto desarrollado por ASLP-lab (Audio, Speech and Language Processing Group, Northwestern Polytechnical University), centrado en la creación musical integral mediante tecnología de inteligencia artificial. Se basa en el modelo de difusión latente y es capaz de generar una canción completa de hasta 4 minutos y 45 segundos de duración, incluidas voces y coros, en tan sólo 10 segundos. La herramienta no sólo es rápida, sino también fácil de usar, sólo es necesario proporcionar letras y pistas de estilo para generar música de alta calidad, el objetivo de DiffRhythm es resolver el modelo tradicional de generación de música de alta complejidad, largo tiempo de generación, y sólo puede generar fragmentos de los puntos de dolor, adecuado para creadores de música, educadores y usuarios de la industria del entretenimiento.

Encapsulando flujos de trabajo ComfyUI: Chttps://github.com/billwuhao/ComfyUI_DiffRhythm

DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

Experiencia: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

 

DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

 

Lista de funciones

  • Generación de canciones de principio a finIntroduce letras y pistas de estilo para generar automáticamente canciones completas con voces y pistas de acompañamiento.
  • inferencia rápida: Genera una canción de hasta 4 minutos y 45 segundos en 10 segundos.
  • Letra sincronizada con la melodía: Asegúrese de que la melodía generada encaja de forma natural con las sílabas y el ritmo de la letra.
  • Personalización del estilo: Admite múltiples pistas de estilo musical para generar música que satisfaga las necesidades del usuario.
  • Soporte de código abierto:: Proporcionar código fuente y modelos que permitan a los usuarios personalizar y ampliar la funcionalidad.
  • Alta calidadLa música generada es de gran calidad sonora y auditiva.

 

Utilizar la ayuda

Proceso de instalación

DiffRhythm es un proyecto de código abierto basado en GitHub que requiere algunos conocimientos de programación para instalarse y ejecutarse. A continuación se detallan los pasos de instalación:

  1. Preparación medioambiental
    • Asegúrese de tener Python 3.8 o superior instalado en su ordenador.
    • Instala Git para descargar código de GitHub.
    • Se recomienda utilizar un entorno virtual (p. ej. venv tal vez conda) para evitar conflictos de dependencia.
  2. Descargar el código del proyecto
    • Abra un terminal e introduzca el siguiente comando para clonar el repositorio DiffRhythm:
      git clone https://github.com/ASLP-lab/DiffRhythm.git
      
    • Vaya al catálogo de proyectos:
      cd DiffRhythm
      
  3. Instalación de dependencias
    • Los proyectos suelen ofrecer requirements.txt que enumera las bibliotecas Python necesarias.
    • Ejecute el siguiente comando en el terminal para instalar la dependencia:
      pip install -r requirements.txt
      
    • Si no dispone de este archivo, puede instalar manualmente bibliotecas básicas como PyTorch consultando las notas sobre dependencias en la página de GitHub o en la documentación.
  4. Descargar modelo preentrenado
    • Los modelos preentrenados de DiffRhythm suelen alojarse en Hugging Face u otras plataformas de almacenamiento en la nube.
    • entrevistas ASLP-lab/DiffRhythm-base Descargue el archivo del modelo (por ejemplo cfm_model.pt).
    • Coloque los archivos de modelo descargados en la carpeta especificada del directorio del proyecto (normalmente descrita en la documentación, p. ej. models/).
  5. Verificar la instalación
    • Ejecute un sencillo comando de prueba en el terminal (consulte el archivo README de GitHub para conocer el comando exacto), por ejemplo:
      python main.py --test
      
    • Si no aparece ningún error, la instalación se ha realizado correctamente.

Cómo utilizar DiffRhythm

La función principal de DiffRhythm es generar canciones introduciendo letras y claves de estilo. A continuación se detalla el procedimiento de funcionamiento:

1. Preparación de los insumos

  • letra de canciónEscribe una letra (en chino, inglés, etc.) y guárdala como archivo de texto (p. ej. lyrics.txt), o introdúzcalo directamente en la línea de comandos.
  • Consejos de estilo:: Prepara una breve descripción del estilo, por ejemplo "pop-rock", "piano clásico" o "música electrónica de baile".

2. Generación de canciones

  • Abre un terminal y entra en el directorio del proyecto DiffRhythm.
  • Ejecute el comando generate (los parámetros específicos se basan en la documentación oficial, el comando de ejemplo es el siguiente):
python generate.py --lyrics "lyrics.txt" --style "pop rock" --output "song.wav"
  • Descripción de los parámetros:
    • --lyricsEspecifica la ruta del archivo de letras.
    • --style: Introduce una entrada de estilo musical.
    • --outputEspecifica la ruta y el nombre del archivo de audio de salida.
  • Espere unos 10 segundos y el programa generará un archivo de audio en formato WAV en la ruta especificada.

3. Comprobación del resultado

  • Una vez finalizada la generación, busque el song.wav y reproducirlo con cualquier reproductor de audio (como Windows Media Player o VLC).
  • Comprueba que la letra está sincronizada con la melodía y que la calidad del sonido es la esperada.

Funciones destacadas

  • Generación de canciones de principio a finDiffRhythm: sin necesidad de segmentación, DiffRhythm genera canciones completas de una sola vez. Los usuarios solo tienen que proporcionar la letra y el estilo, y no es necesario ajustar ningún parámetro adicional para obtener el producto final.
  • inferencia rápidaLa velocidad de generación es extremadamente rápida gracias a la estructura no autorregresiva y a la técnica de difusión latente. En comparación con el tiempo de generación de los modelos tradicionales, que suele durar varios minutos, la generación en 10 segundos de DiffRhythm mejora enormemente la eficacia.
  • Letra sincronizada con la melodíaSi ves que la melodía generada no coincide con la letra, puedes ajustar el número de sílabas de la letra o añadir descripciones como "tempo claro" en el consejo de estilo para optimizar la salida.
  • Personalización del estiloPrueba con diferentes estilos, como "jazz", "folk" o "hip-hop", y observa cómo cambian los resultados. Cuanto más específica sea la indicación de estilo, más se acercará la música generada a lo esperado.

Trucos y consejos

  • Optimizar lyrics: Las letras cortas son más fáciles de adaptar a una melodía que las largas, evitando las frases demasiado complejas.
  • Generación de lotes:: Escriba un script sencillo que repita las llamadas a la función generate.pySe puede generar para varias canciones a la vez.
  • salida de depuraciónSi los resultados generados no son satisfactorios, compruebe los archivos de registro (si los hay) o ajuste los parámetros del modelo (por ejemplo, el número de pasos de difusión) como se describe en la documentación de GitHub.

advertencia

  • requisitos de hardware: El proceso de generación requiere grandes recursos computacionales, por lo que se recomienda utilizar un ordenador equipado con una GPU para aumentar la velocidad.
  • contribución al código abiertoSi eres bueno programando, puedes hacer un fork del proyecto, optimizar el código o añadir nuevas funcionalidades y enviar un pull request.
  • Alerta de derechos de autor: La música generada puede implicar riesgos de derechos de autor debido a similitudes estilísticas y se recomienda para estudio o uso no comercial.

Con estos pasos, podrás empezar rápidamente a utilizar DiffRhythm y experimentar el proceso de creación de una canción desde la letra hasta la canción completa.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...