SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial

36.3K 00

¿Qué es SongBloom?

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente para generar una canción completa de alta fidelidad de 2 minutos y 30 segundos con doble canal/48 kHz, que incluye la introducción, la canción principal, el estribillo, el coro y el final de la estructura completa. La innovadora tecnología reduce drásticamente el fenómeno de "generación de ilusiones" de desajuste entre letra y melodía, reduciendo significativamente la tasa de error de fonemas y llevando la precisión de la letra a un nuevo nivel en la industria. La delicadeza vocal supera al modelo comercial superior Suno-V4.5, y la musicalidad es comparable a la de las composiciones profesionales. Por primera vez, se introduce el modelo de difusión autorregresiva en la generación de canciones de larga duración, combinando la tecnología discrete sketch token y VAE latent para tener en cuenta la coherencia estructural y los detalles sonoros.

Características de SongBloom

Generación eficiente de capacidadLa función más novedosa es la posibilidad de generar rápidamente una canción completa de 2 minutos y 30 segundos con sólo una muestra de audio de 10 segundos y la letra correspondiente.
Salida de audio de alta calidad: Admite la generación de audio de alta calidad de 48 kHz y doble canal para obtener una calidad de sonido clara y profesional.
Paradigma de generación de innovación: Utilización de técnicas de generación intercalada, combinadas con el esbozo autorregresivo y el refinamiento del modelo de difusión para optimizar la estructura de la canción y la calidad del sonido.
Soporte de entrada multimodal: Admite tanto la entrada de letras como de muestras de audio, fusionando con precisión la información multimodal para generar canciones que se ajusten mejor a las necesidades.
Facilidad de uso del código abiertoEl proyecto es de código abierto , proporcionar directrices detalladas y múltiples versiones del modelo , fácil de implementar y utilizar , adecuado para diferentes dispositivos para ejecutar .
Rendimiento cercano a SOTA: Cerca de los mejores del sector en cuanto a calidad de audio y precisión de las letras, superando a los modelos de código abierto existentes.

Puntos fuertes de SongBloom

Generación eficaz de canciones completasSólo tienes que introducir 10 segundos de audio de referencia y la letra correspondiente para generar una canción completa de 2 minutos y 30 segundos en alta fidelidad de 48 kHz y doble canal con una estructura completa de introducción, introducción, estribillo y conclusión.
Correspondencia precisa de letrasEl fenómeno de la "generación de ilusiones", consistente en la falta de correspondencia entre la letra y la melodía, se ha reducido considerablemente gracias a una tecnología innovadora, y la tasa de errores fonéticos se ha reducido notablemente, lo que ha dado lugar a un nuevo nivel de precisión de la letra en la industria.
Excelente calidad de sonido y musicalidad: La finura vocal supera la del modelo comercial superior Suno-V4.5, con una musicalidad comparable a la de las composiciones profesionales y cercana a la de los mejores del sector.
Alta calidadLa calidad de audio es clara y profesional, cercana a la mejor sobre el terreno (SOTA), con soporte para la generación de audio de alta calidad de dos canales y 48 kHz.
industrias innovadoras: Se utiliza un paradigma de generación escalonada combinado con el esbozo autorregresivo y el perfeccionamiento del modelo de difusión para optimizar la estructura general y la calidad sonora de la canción, a la vanguardia de la tecnología.
fusión multimodal: Admite tanto la entrada de letras como de muestras de audio, fusionando con precisión la información multimodal para generar canciones que se ajusten mejor a las necesidades.

¿Cuál es el sitio web oficial de SongBloom?

Repositorio Github:: https://github.com/tencent-ailab/SongBloom
Biblioteca de modelos HuggingFace:: https://huggingface.co/CypressYang/SongBloom
Documento técnico arXiv:: https://arxiv.org/pdf/2506.07634
Demostración de la experiencia en línea:: https://cypress-yang.github.io/SongBloom_demo/

Para quién es SongBloom

creador de música: Proporciona inspiración creativa y un marco para la generación rápida de canciones para músicos profesionales y aficionados por igual, ayudándoles a explorar nuevos estilos musicales y direcciones creativas.
productor de audioEn la producción de audio para cine, televisión, juegos, publicidad y otras industrias, se utiliza para generar rápidamente música de fondo o temas musicales con el fin de mejorar la eficacia de la producción.
Educadores musicales y estudiantes: Como herramienta de educación musical para ayudar a los estudiantes a comprender la estructura y el proceso creativo de la música, estimular el interés por el aprendizaje y ayudar a los profesores en la enseñanza.
creador de contenidos: Ofrecer a los usuarios contenidos musicales personalizados en las redes sociales, vídeos cortos y otras plataformas para potenciar la interactividad y la diversión.
Empresa y marcaCreación de música personalizada para empresas y marcas para la promoción de productos, la publicidad de eventos, etc., con el fin de mejorar el impacto de la marca y la participación de los usuarios.