SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

堆友AI

Что такое SongBloom?

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Достаточно ввести всего 10 секунд эталонного аудио и соответствующий текст, чтобы сгенерировать двухканальную/48 кГц песню продолжительностью 2 минуты 30 секунд с высокой точностью воспроизведения, включая вступление, основную песню, припев, запев и конец полной структуры. Инновационная технология значительно уменьшает явление "генерации иллюзий", когда текст и мелодия не совпадают, значительно снижая процент ошибок фонем и выводя точность текста на новый уровень в индустрии. Вокальное мастерство превосходит топовую коммерческую модель Suno-V4.5, а музыкальность сравнима с профессиональными композициями. Впервые в генерацию длительных песен внедрена модель авторегрессивной диффузии, сочетающая дискретный маркер и латентную технологию VAE для учета структурной целостности и звуковых деталей.

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

Особенности SongBloom

  • Эффективная генерация мощностейНовейшая функция - возможность быстро сгенерировать полную песню продолжительностью 2 минуты 30 секунд, используя всего лишь 10-секундный аудиосэмпл и соответствующий текст.
  • Высококачественный аудиовыход: Поддержка двухканального высококачественного звука 48 кГц для четкого и профессионального качества звучания.
  • Парадигма генерации инноваций: Использование методов чередующейся генерации в сочетании с авторегрессионным скетчингом и уточнением диффузионной модели для оптимизации структуры композиции и качества звучания.
  • Поддержка мультимодального ввода: Поддерживает ввод как текстов песен, так и аудиообразцов, точно объединяя мультимодальную информацию для создания песен, которые лучше всего соответствуют требованиям.
  • Простота использования с открытым исходным кодомПроект с открытым исходным кодом, подробное руководство и несколько версий моделей, прост в развертывании и использовании, подходит для различных устройств.
  • Близкие к SOTA характеристики: Приближается к лучшим в области по качеству звука и точности текстов, превосходя существующие модели с открытым исходным кодом.

Основные преимущества SongBloom

  • Эффективное создание полных песен: Просто введите 10 секунд эталонного аудио и соответствующий текст, чтобы сгенерировать 2 минуты 30 секунд двухканальной/48 кГц hi-fi полной песни с полной структурой вступления, лида, припева и аутро.
  • Точное сопоставление текстовФеномен "поколения иллюзий" - несоответствие между текстом и мелодией - был значительно уменьшен благодаря инновационным технологиям, а уровень фонетических ошибок значительно снизился, что позволило достичь нового высокого уровня точности текстов в индустрии.
  • Отличное качество звука и музыкальность: Вокальное изящество превосходит таковое у топовой коммерческой модели Suno-V4.5, а музыкальность сопоставима с профессиональными композициями и близка к лучшим в этой области.
  • Высокое качество продукцииКачество звука чистое и профессиональное, близкое к лучшему в полевых условиях (SOTA), с поддержкой двухканального, 48 кГц высококачественного аудио.
  • инновационные отрасли: Используется парадигма поэтапного генерирования в сочетании с авторегрессионным эскизированием и уточнением диффузионной модели для оптимизации общей структуры и качества звучания песни, что является передовым технологическим решением.
  • мультимодальное слияние: Поддерживает ввод как текстов песен, так и аудиообразцов, точно объединяя мультимодальную информацию для создания песен, которые лучше всего соответствуют требованиям.

Каков официальный сайт SongBloom?

  • Репозиторий Github:: https://github.com/tencent-ailab/SongBloom
  • Библиотека моделей HuggingFace:: https://huggingface.co/CypressYang/SongBloom
  • Технический документ arXiv:: https://arxiv.org/pdf/2506.07634
  • Демонстрация опыта работы в режиме онлайн:: https://cypress-yang.github.io/SongBloom_demo/

Для кого предназначен SongBloom

  • создатель музыки: Обеспечивает творческое вдохновение и основу для быстрого создания песен как для профессиональных музыкантов, так и для любителей, помогая им исследовать новые музыкальные стили и творческие направления.
  • аудиопродюсер: В аудиопроизводстве для кино, телевидения, игр, рекламы и других отраслей используется для быстрого создания фоновой музыки или тематических песен для повышения эффективности производства.
  • Преподаватели музыки и студенты: Как инструмент музыкального образования, помогающий учащимся понять структуру и творческий процесс музыки, стимулирующий интерес к обучению и помогающий учителям в преподавании.
  • создатель контента: Предоставление пользователям персонализированного музыкального контента в социальных сетях, коротких видеороликов и других платформ для повышения интерактивности и удовольствия.
  • Корпоративная и брендовая сторона: Создание индивидуальной музыки для компаний и брендов для продвижения товаров, рекламы мероприятий и т. д., чтобы повысить влияние бренда и вовлеченность пользователей.
© заявление об авторских правах

Похожие статьи

Claude Engineer: 利用Claude模型自主生成和管理AI工具的智能体对话助手

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...