Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Последние ресурсы по искусственному интеллектуОпубликовано 5 месяцев назад Круг обмена ИИ

30.7K 00

Что такое Step-Audio-EditX?

Step-Audio-EditX - это крупная модель редактирования аудио с открытым исходным кодом, разработанная командой Step-Audio-Star, которая ориентирована на тонкую работу с аудиоконтентом с помощью технологий искусственного интеллекта. Модель может динамически настраивать настроение, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох) аудио, а также поддерживает множество языков, таких как китайский, английский, сычуаньский, кантонский и т. д. Основная технология заключается в использовании крупномасштабного обучения синтезированным данным. Основная технология заключается в использовании крупномасштабного обучения на синтетических данных для достижения высокой выразительности редактирования голосов без опоры на традиционные встроенные априорные знания. Эксперименты показывают, что модель превосходит аналогичные инструменты, такие как Minimax-2.6-HD и DouBao-Seed-TTS-2.0, в таких задачах, как редактирование эмоций. Модель и сопутствующие инструменты доступны пользователям через Hugging Face и GitHub.

Особенности Step-Audio-EditX

Первый в мире аудиоредактор LLM с открытым исходным кодом:Одна карта с 8 ГБ может работать, а 4×A800 обеспечивают звук кинематографического качества.
30+ эмоциональных слайдеров: Интенсивность гнева, счастья, печали и т. д. может повторяться много раз, и чем больше вы ее настраиваете, тем больше она доходит до вашей головы.
15 стилей речи: Избалованный, шепелявый, старик, ребенок, серьезный, щедрый, преувеличенный Переключение одним щелчком, поддержка наложения.
10 лексем подъязыка класса: Дыхание, смех, вздохи, о, эн, хнн, эм, вставленные с той же точностью, что и субтитры.
Нулевой образец TTS: подсказка для клонирования любого тона, текст плюс "[Cantonese]" "[Szechuan]" для создания диалекта в считанные секунды.
полносвязный открытый исходный код (OLOS): код вывода, код обучения, 8-битные квантованные веса, Gradio Demo, HF Space - все сразу.
Большие интервальные данные: Не требуется дополнительного кодера/адаптера, SFT+PPO обеспечивает развязку атрибутов и итеративное управление.
Унифицированная структураСоздание аудио - это единое целое для TTS, редактирования эмоций, переноса стиля, шумоподавления и настройки скорости речи.

Основные преимущества Step-Audio-EditX

Первый в мире аудиоредактор LLM с открытым исходным кодомПервый, кто использует Большую языковую модель 3B для редактирования речи, с открытым исходным кодом, весами, обучающими скриптами и онлайн-демонстрациями, а также с одной картой на 8 ГБ, которая может работать с 4×A800 для качества звука, соответствующего уровню публикации.
Синтетические данные с большим интервалом времениSFT+PPO: SFT+PPO выполняется только с данными пары "один и тот же текст, разные атрибуты", без дополнительного кодера или адаптера, для достижения разделения атрибутов и итеративного управления, что значительно снижает сложность системы и стоимость вывода.
Трехосевое итерационное управление с тонкой настройкойЭмоции (30+ тегов), стиль речи (15+ тегов) и паралингвистика (10 типов лексем) могут быть многократно наложены или ослаблены, а интенсивность настраивается с помощью ползунка, который становится все лучше и лучше.
Нулевой образец TTS + диалектная нарезкаНиже приведен пример клонирования любого тона: одна подсказка может клонировать любой тон; такие теги, как "[Szechuan]" и "[Cantonese]", добавляются перед текстом, чтобы вывести диалект напрямую, без дополнительного обучения.
Превосходит конкурентов с закрытым исходным кодом: При оценке эмоциональной точности один раунд редактирования поднял клонированную речь MiniMax-2.6-hd и Beanbag Seed-TTS-2.0 с 50 до 70+ баллов, и она продолжает лидировать после трех раундов собственной итерации.

Какой официальный сайт у Step-Audio-EditX?

Веб-сайт проекта:: https://stepaudiollm.github.io/step-audio-editx/
Репозиторий Github:: https://github.com/stepfun-ai/Step-Audio-EditX
Библиотека моделей HuggingFace:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
Технический документ arXiv:: https://arxiv.org/pdf/2511.03601

Для кого предназначен Step-Audio-EditX?

Короткометражное видео / Создатели фильмов и телепередач: Клонирование тембра с нулевым сэмплом + эмоциональная итерация для быстрого создания многосимвольных, многоэмоциональных закадровых голосов, что позволяет сэкономить расходы на запись и постпродакшн.
Продюсер подкастов / аудиокнигНаложение стилей "шепот/сладость/серьезность" одним щелчком мыши, пакетный вывод различных версий аудио и улучшенное погружение в контент.
Планирование игры и управление виртуальным идолом: Вставляйте смех, дыхание и вздохи в реальном времени для NPC и VTuber, чтобы создать более яркие и интерактивные голоса персонажей.
Команда по рекламе и маркетингуОдин и тот же текст может быть озвучен на "страстном/высококлассном/диалекте" без привлечения актера озвучивания, что позволяет адаптировать его к различным каналам доставки.
Разработчик содержания образования и обучения языкам: Генерируйте чтения, соответствующие возрасту и месту, используя теги "старый/детский/диалектный", чтобы уменьшить нагрузку на учителя при записи.
Поставщики интеллектуальных систем обслуживания клиентов/голосовых помощниковTTS можно редактировать непосредственно в соответствии с исходным настроением и стилем, а также использовать для быстрого запуска нескольких сценариев, таких как "успокаивающий, рекламный и серьезный".

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

DCT-Net: инструмент с открытым исходным кодом для преобразования фотографий и видео в стилизованное аниме

Последние ресурсы по искусственному интеллекту # AI Image Style Control # AI Java Open Source Projecct # AI Стиль преобразования видео

1 год назад

060.9K

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Последние ресурсы по искусственному интеллекту

10 месяцев назад

042.8K

Motionvid.ai: быстрое создание анимированных видеороликов для презентаций с использованием текста или эскизов

Последние ресурсы по искусственному интеллекту # AI Generated Presentation/PPT # AI Video Generation Tool

1 год назад

055.7K

Photoroom: отличный инструмент для удаления фона (бесплатно)

Последние ресурсы по искусственному интеллекту # AI-ключ для смены фона

10 месяцев назад

058.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Что такое Step-Audio-EditX?

Особенности Step-Audio-EditX

Основные преимущества Step-Audio-EditX

Какой официальный сайт у Step-Audio-EditX?

Для кого предназначен Step-Audio-EditX?

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

Похожие статьи

DCT-Net: инструмент с открытым исходным кодом для преобразования фотографий и видео в стилизованное аниме

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Motionvid.ai: быстрое создание анимированных видеороликов для презентаций с использованием текста или эскизов

Photoroom: отличный инструмент для удаления фона (бесплатно)

Нет комментариев

Последние коллекции

Последние статьи

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Что такое Step-Audio-EditX?

Особенности Step-Audio-EditX

Основные преимущества Step-Audio-EditX

Какой официальный сайт у Step-Audio-EditX?

Для кого предназначен Step-Audio-EditX?

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

Похожие статьи

DCT-Net: инструмент с открытым исходным кодом для преобразования фотографий и видео в стилизованное аниме

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Motionvid.ai: быстрое создание анимированных видеороликов для презентаций с использованием текста или эскизов

Photoroom: отличный инструмент для удаления фона (бесплатно)

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи