Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

30.7K 00

Step-Audio-EditXとは？

Step-Audio-EditXは、Step-Audio-Starチームによって開発されたオープンソースの音声編集ラージモデルです。このモデルは、音声のムード、話し方（例：小心、老人訛りなど）、パラ言語要素（例：笑い、ため息）を動的に調整することができ、中国語、英語、四川語、広東語などの多言語をサポートしています。コア技術は、大規模な合成データ訓練の使用にあります。コア技術は、大規模な合成データ学習を利用することで、従来の埋め込み型先験的知識に頼ることなく、音声を横断した表現力の高い編集を実現することにある。実験によると、このモデルは感情編集などのタスクにおいて、Minimax-2.6-HDやDouBao-Seed-TTS-2.0などの類似ツールを凌駕しています。このモデルと付随するツールは、Hugging FaceとGitHubを通じてユーザーに提供されている。

Step-Audio-EditXの特徴

世界初のオープンソースLLMオーディオエディター：8GBのカード1枚で動作し、4×A800でシネマクオリティのサウンドが得られる。
30以上のエモーショナル・スライダー怒り、喜び、悲しみなどの激しさは何度も繰り返すことができ、チューニングすればするほど頭に入ってくる。
15のスピーキング・スタイル甘やかされ、ささやかれ、老人、子供、真面目、寛大、大げさなワンクリックスイッチ、サポートオーバーレイ。
10 クラス副言語トークン息、笑い、ため息、ああ、エン、フン、ウーン......字幕と同じ正確さで挿入される。
ゼロサンプルTTS：一句提示克隆任意音色，文本加“[粤语]”“[四川话]”秒出方言。
フルリンクオープンソース（OLOS）推論コード、トレーニングコード、8ビット量子化ウェイト、グラディオ・デモ、HFスペースが一度に使える。
大区間データ駆動SFT+PPOは、属性の分離と反復制御を実現します。
統一フレームワーク音声作成は、TTS、感情編集、スタイル移行、ノイズ除去、スピーチレート調整のためのワンストップショップである。

Step-Audio-EditXの主な利点

世界初のオープンソースLLMオーディオエディター3Bビッグ言語モデルを音声編集に初めて採用し、オープンソース・コード、ウェイト、トレーニング・スクリプト、オンライン・デモを備え、8GBのカード1枚で4×A800を動作させ、出版レベルの音質を実現。
大区間合成データ駆動SFT+PPO：SFT+PPOは、エンコーダやアダプタを追加することなく、「同じテキスト、異なる属性」のペアデータのみで行われ、属性のデカップリングと反復制御を実現し、システムの複雑性と推論コストを大幅に削減します。
3軸きめ細かな反復制御感情（30以上のタグ）、話し方（15以上のタグ）、パラ言語（10種類のトークン）はすべて、何度も重ねたり、弱めたりすることができ、スライダーバーで強弱を調整すれば、どんどん良くなる。
ゼロサンプルTTS＋方言カット四川語]」や「広東語]」といったタグをテキストの前に追加することで、追加トレーニングなしで方言を直接出力することができる。
クローズドソースの競合他社を凌駕Emotional Accuracyのレビューでは、MiniMax-2.6-hdとBeanbag Seed-TTS-2.0のクローン音声は、1回の編集で50点から70点以上に上がり、3回の編集後もリードを保っている。

Step-Audio-EditXの公式サイトを教えてください。

プロジェクトのウェブサイト:: https://stepaudiollm.github.io/step-audio-editx/
Githubリポジトリ:: https://github.com/stepfun-ai/Step-Audio-EditX
HuggingFaceモデルライブラリ:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.03601

Step-Audio-EditXは誰のためのものですか？

ショートビデオ / 映画・TVクリエイターゼロサンプルのクローン音色＋感情の反復で、マルチキャラクター、マルチエモーションのボイスオーバーを素早く生成し、レコーディングとポストプロダクションのコストを削減します。
ポッドキャスト／オーディオブック・プロデューサーワンクリックで "ささやき声/甘い声/真剣な声 "のスタイルをオーバーレイでき、異なるバージョンの音声をバッチ出力でき、コンテンツへの没入感が高まります。
ゲーム企画＆バーチャルアイドル運営NPCやVTuberにリアルタイムで笑い声や吐息、ため息などを挿入し、より生き生きとしたインタラクティブなキャラクターボイスを作成できます。
広告・マーケティングチーム声優を雇うことなく、同じテキストを「情熱的／高級／方言」で吹き替えられるので、さまざまな配信チャンネルに対応できる。
教育コンテンツおよび言語学習開発者"old/child/dialect "タグを使用して、年齢に適した、地域化された読み上げを生成し、教師の記録作業を軽減します。
インテリジェントなカスタマーサービス／音声アシスタント・ベンダーTTSは、元のムードやスタイルをそのまま編集することができ、「癒し系、宣伝系、シリアス系」など、複数のシーンに素早く対応できる。