Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

堆友AI

Что такое Step-Audio-EditX?

Step-Audio-EditX - это крупная модель редактирования аудио с открытым исходным кодом, разработанная командой Step-Audio-Star, которая ориентирована на тонкую работу с аудиоконтентом с помощью технологий искусственного интеллекта. Модель может динамически настраивать настроение, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох) аудио, а также поддерживает множество языков, таких как китайский, английский, сычуаньский, кантонский и т. д. Основная технология заключается в использовании крупномасштабного обучения синтезированным данным. Основная технология заключается в использовании крупномасштабного обучения на синтетических данных для достижения высокой выразительности редактирования голосов без опоры на традиционные встроенные априорные знания. Эксперименты показывают, что модель превосходит аналогичные инструменты, такие как Minimax-2.6-HD и DouBao-Seed-TTS-2.0, в таких задачах, как редактирование эмоций. Модель и сопутствующие инструменты доступны пользователям через Hugging Face и GitHub.

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Особенности Step-Audio-EditX

  • Первый в мире аудиоредактор LLM с открытым исходным кодом:Одна карта с 8 ГБ может работать, а 4×A800 обеспечивают звук кинематографического качества.
  • 30+ эмоциональных слайдеров: Интенсивность гнева, счастья, печали и т. д. может повторяться много раз, и чем больше вы ее настраиваете, тем больше она доходит до вашей головы.
  • 15 стилей речи: Избалованный, шепелявый, старик, ребенок, серьезный, щедрый, преувеличенный Переключение одним щелчком, поддержка наложения.
  • 10 лексем подъязыка класса: Дыхание, смех, вздохи, о, эн, хнн, эм, вставленные с той же точностью, что и субтитры.
  • Нулевой образец TTS: подсказка для клонирования любого тона, текст плюс "[Cantonese]" "[Szechuan]" для создания диалекта в считанные секунды.
  • полносвязный открытый исходный код (OLOS): код вывода, код обучения, 8-битные квантованные веса, Gradio Demo, HF Space - все сразу.
  • Большие интервальные данные: Не требуется дополнительного кодера/адаптера, SFT+PPO обеспечивает развязку атрибутов и итеративное управление.
  • Унифицированная структураСоздание аудио - это единое целое для TTS, редактирования эмоций, переноса стиля, шумоподавления и настройки скорости речи.

Основные преимущества Step-Audio-EditX

  • Первый в мире аудиоредактор LLM с открытым исходным кодомПервый, кто использует Большую языковую модель 3B для редактирования речи, с открытым исходным кодом, весами, обучающими скриптами и онлайн-демонстрациями, а также с одной картой на 8 ГБ, которая может работать с 4×A800 для качества звука, соответствующего уровню публикации.
  • Синтетические данные с большим интервалом времениSFT+PPO: SFT+PPO выполняется только с данными пары "один и тот же текст, разные атрибуты", без дополнительного кодера или адаптера, для достижения разделения атрибутов и итеративного управления, что значительно снижает сложность системы и стоимость вывода.
  • Трехосевое итерационное управление с тонкой настройкойЭмоции (30+ тегов), стиль речи (15+ тегов) и паралингвистика (10 типов лексем) могут быть многократно наложены или ослаблены, а интенсивность настраивается с помощью ползунка, который становится все лучше и лучше.
  • Нулевой образец TTS + диалектная нарезкаНиже приведен пример клонирования любого тона: одна подсказка может клонировать любой тон; такие теги, как "[Szechuan]" и "[Cantonese]", добавляются перед текстом, чтобы вывести диалект напрямую, без дополнительного обучения.
  • Превосходит конкурентов с закрытым исходным кодом: При оценке эмоциональной точности один раунд редактирования поднял клонированную речь MiniMax-2.6-hd и Beanbag Seed-TTS-2.0 с 50 до 70+ баллов, и она продолжает лидировать после трех раундов собственной итерации.

Какой официальный сайт у Step-Audio-EditX?

  • Веб-сайт проекта:: https://stepaudiollm.github.io/step-audio-editx/
  • Репозиторий Github:: https://github.com/stepfun-ai/Step-Audio-EditX
  • Библиотека моделей HuggingFace:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • Технический документ arXiv:: https://arxiv.org/pdf/2511.03601

Для кого предназначен Step-Audio-EditX?

  • Короткометражное видео / Создатели фильмов и телепередач: Клонирование тембра с нулевым сэмплом + эмоциональная итерация для быстрого создания многосимвольных, многоэмоциональных закадровых голосов, что позволяет сэкономить расходы на запись и постпродакшн.
  • Продюсер подкастов / аудиокнигНаложение стилей "шепот/сладость/серьезность" одним щелчком мыши, пакетный вывод различных версий аудио и улучшенное погружение в контент.
  • Планирование игры и управление виртуальным идолом: Вставляйте смех, дыхание и вздохи в реальном времени для NPC и VTuber, чтобы создать более яркие и интерактивные голоса персонажей.
  • Команда по рекламе и маркетингуОдин и тот же текст может быть озвучен на "страстном/высококлассном/диалекте" без привлечения актера озвучивания, что позволяет адаптировать его к различным каналам доставки.
  • Разработчик содержания образования и обучения языкам: Генерируйте чтения, соответствующие возрасту и месту, используя теги "старый/детский/диалектный", чтобы уменьшить нагрузку на учителя при записи.
  • Поставщики интеллектуальных систем обслуживания клиентов/голосовых помощниковTTS можно редактировать непосредственно в соответствии с исходным настроением и стилем, а также использовать для быстрого запуска нескольких сценариев, таких как "успокаивающий, рекламный и серьезный".
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...