SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU
Что такое SongBloom?
SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Достаточно ввести всего 10 секунд эталонного аудио и соответствующий текст, чтобы сгенерировать двухканальную/48 кГц песню продолжительностью 2 минуты 30 секунд с высокой точностью воспроизведения, включая вступление, основную песню, припев, запев и конец полной структуры. Инновационная технология значительно уменьшает явление "генерации иллюзий", когда текст и мелодия не совпадают, значительно снижая процент ошибок фонем и выводя точность текста на новый уровень в индустрии. Вокальное мастерство превосходит топовую коммерческую модель Suno-V4.5, а музыкальность сравнима с профессиональными композициями. Впервые в генерацию длительных песен внедрена модель авторегрессивной диффузии, сочетающая дискретный маркер и латентную технологию VAE для учета структурной целостности и звуковых деталей.

Особенности SongBloom
- Эффективная генерация мощностейНовейшая функция - возможность быстро сгенерировать полную песню продолжительностью 2 минуты 30 секунд, используя всего лишь 10-секундный аудиосэмпл и соответствующий текст.
- Высококачественный аудиовыход: Поддержка двухканального высококачественного звука 48 кГц для четкого и профессионального качества звучания.
- Парадигма генерации инноваций: Использование методов чередующейся генерации в сочетании с авторегрессионным скетчингом и уточнением диффузионной модели для оптимизации структуры композиции и качества звучания.
- Поддержка мультимодального ввода: Поддерживает ввод как текстов песен, так и аудиообразцов, точно объединяя мультимодальную информацию для создания песен, которые лучше всего соответствуют требованиям.
- Простота использования с открытым исходным кодомПроект с открытым исходным кодом, подробное руководство и несколько версий моделей, прост в развертывании и использовании, подходит для различных устройств.
- Близкие к SOTA характеристики: Приближается к лучшим в области по качеству звука и точности текстов, превосходя существующие модели с открытым исходным кодом.
Основные преимущества SongBloom
- Эффективное создание полных песен: Просто введите 10 секунд эталонного аудио и соответствующий текст, чтобы сгенерировать 2 минуты 30 секунд двухканальной/48 кГц hi-fi полной песни с полной структурой вступления, лида, припева и аутро.
- Точное сопоставление текстовФеномен "поколения иллюзий" - несоответствие между текстом и мелодией - был значительно уменьшен благодаря инновационным технологиям, а уровень фонетических ошибок значительно снизился, что позволило достичь нового высокого уровня точности текстов в индустрии.
- Отличное качество звука и музыкальность: Вокальное изящество превосходит таковое у топовой коммерческой модели Suno-V4.5, а музыкальность сопоставима с профессиональными композициями и близка к лучшим в этой области.
- Высокое качество продукцииКачество звука чистое и профессиональное, близкое к лучшему в полевых условиях (SOTA), с поддержкой двухканального, 48 кГц высококачественного аудио.
- инновационные отрасли: Используется парадигма поэтапного генерирования в сочетании с авторегрессионным эскизированием и уточнением диффузионной модели для оптимизации общей структуры и качества звучания песни, что является передовым технологическим решением.
- мультимодальное слияние: Поддерживает ввод как текстов песен, так и аудиообразцов, точно объединяя мультимодальную информацию для создания песен, которые лучше всего соответствуют требованиям.
Каков официальный сайт SongBloom?
- Репозиторий Github:: https://github.com/tencent-ailab/SongBloom
- Библиотека моделей HuggingFace:: https://huggingface.co/CypressYang/SongBloom
- Технический документ arXiv:: https://arxiv.org/pdf/2506.07634
- Демонстрация опыта работы в режиме онлайн:: https://cypress-yang.github.io/SongBloom_demo/
Для кого предназначен SongBloom
- создатель музыки: Обеспечивает творческое вдохновение и основу для быстрого создания песен как для профессиональных музыкантов, так и для любителей, помогая им исследовать новые музыкальные стили и творческие направления.
- аудиопродюсер: В аудиопроизводстве для кино, телевидения, игр, рекламы и других отраслей используется для быстрого создания фоновой музыки или тематических песен для повышения эффективности производства.
- Преподаватели музыки и студенты: Как инструмент музыкального образования, помогающий учащимся понять структуру и творческий процесс музыки, стимулирующий интерес к обучению и помогающий учителям в преподавании.
- создатель контента: Предоставление пользователям персонализированного музыкального контента в социальных сетях, коротких видеороликов и других платформ для повышения интерактивности и удовольствия.
- Корпоративная и брендовая сторона: Создание индивидуальной музыки для компаний и брендов для продвижения товаров, рекламы мероприятий и т. д., чтобы повысить влияние бренда и вовлеченность пользователей.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




