Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型
Step-Audio-EditX是什么
Step-Audio-EditX是开源的音频编辑大模型,由阶跃星辰团队研发,专注于通过人工智能技术实现音频内容的精细操控。模型能动态调整音频的情绪、说话风格(如撒娇、老人腔等)和副语言元素(如笑声、叹气),支持中文、英文、四川话、粤语等多种语言。核心技术在于采用大规模合成数据训练,无需依赖传统嵌入式先验知识,实现跨声音的高表现力编辑。实验显示,模型在情感编辑等任务上超越了Minimax-2.6-HD和DouBao-Seed-TTS-2.0等同类工具。用户可通过Hugging Face和GitHub获取模型及配套工具。

Step-Audio-EditX的功能特色
- 全球首个开源 LLM 音频编辑器:单卡 8 GB 即可跑,4×A800 获影院级音质。
- 30+ 情感滑杆:愤怒、开心、悲伤等强度可多次迭代,越调越上头。
- 15 种说话风格:撒娇、耳语、老人、小孩、严肃、慷慨、夸张一键切换,支持叠加。
- 10 类副语言 token:呼吸、笑声、叹气、oh、en、hnn、uhm 像字幕一样精准插入。
- 零样本 TTS:一句提示克隆任意音色,文本加“[粤语]”“[四川话]”秒出方言。
- 全链路开源:推理代码、训练代码、8bit 量化权重、Gradio Demo、HF Space 一次给齐。
- 大间隔数据驱动:无需额外编码器/adapter,SFT+PPO 实现属性解耦与迭代控制。
- 统一框架:同时搞定 TTS、情感编辑、风格迁移、降噪、语速调节,一站式完成音频创作。
Step-Audio-EditX的核心优势
- 全球首个开源 LLM 音频编辑器:率先把 3B 大语言模型用于语音编辑,代码、权重、训练脚本、在线 Demo 全套开源,单卡 8 GB 可跑,4×A800 即得出版级音质。
- 大间隔合成数据驱动:仅用“同文本、异属性”成对数据做 SFT+PPO,无需额外编码器或 adapter,实现属性解耦与迭代控制,显著降低系统复杂度与推理成本。
- 三轴细粒度迭代控制:情感(30+ 标签)、说话风格(15+ 标签)、副语言(10 类 token)均可多次叠加或削弱,强度滑杆式调节,越调越上头。
- 零样本 TTS + 方言秒切:一句提示即可克隆任意音色;文本前加“[四川话]”“[粤语]”等标签直接输出方言,无需额外训练。
- 性能超越闭源竞品:在情感准确度评测中,一轮编辑即可把 MiniMax-2.6-hd 与豆包 Seed-TTS-2.0 的克隆语音从 50 分提升到 70+,自身迭代三轮后继续领先。
Step-Audio-EditX官网是什么
- Веб-сайт проекта:https://stepaudiollm.github.io/step-audio-editx/
- Репозиторий Github:https://github.com/stepfun-ai/Step-Audio-EditX
- Библиотека моделей HuggingFace:https://huggingface.co/stepfun-ai/Step-Audio-EditX
- Технический документ arXiv:https://arxiv.org/pdf/2511.03601
Step-Audio-EditX的适用人群
- 短视频 / 影视创作者:零样本克隆音色+情感迭代,快速生成多角色、多情绪配音,节省录音与后期成本。
- 播客 / 有声书制作人:一键叠加“耳语/撒娇/严肃”等风格,批量输出不同版本音频,提升内容沉浸感。
- 游戏策划 & 虚拟偶像运营:为 NPC、VTuber 实时插入笑声、呼吸、叹气,打造更鲜活的互动角色语音。
- 广告与营销团队:无需请声优,即可把同一条文案生成“热情/高端/方言”多版配音,适配不同投放渠道。
- 教育内容与语言学习开发者:利用“老人/小孩/方言”标签生成适龄、适地读音,降低教师录音工作量。
- 智能客服/语音助手厂商:在原有 TTS 上直接编辑情绪与风格,快速上线“安抚、促销、严肃”等多场景话术。
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие посты
Нет комментариев...




