Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

堆友AI

Step-Audio-EditXとは?

Step-Audio-EditXは、Step-Audio-Starチームによって開発されたオープンソースの音声編集ラージモデルです。このモデルは、音声のムード、話し方(例:小心、老人訛りなど)、パラ言語要素(例:笑い、ため息)を動的に調整することができ、中国語、英語、四川語、広東語などの多言語をサポートしています。コア技術は、大規模な合成データ訓練の使用にあります。コア技術は、大規模な合成データ学習を利用することで、従来の埋め込み型先験的知識に頼ることなく、音声を横断した表現力の高い編集を実現することにある。実験によると、このモデルは感情編集などのタスクにおいて、Minimax-2.6-HDやDouBao-Seed-TTS-2.0などの類似ツールを凌駕しています。このモデルと付随するツールは、Hugging FaceとGitHubを通じてユーザーに提供されている。

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditXの特徴

  • 世界初のオープンソースLLMオーディオエディター:8GBのカード1枚で動作し、4×A800でシネマクオリティのサウンドが得られる。
  • 30以上のエモーショナル・スライダー怒り、喜び、悲しみなどの激しさは何度も繰り返すことができ、チューニングすればするほど頭に入ってくる。
  • 15のスピーキング・スタイル甘やかされ、ささやかれ、老人、子供、真面目、寛大、大げさなワンクリックスイッチ、サポートオーバーレイ。
  • 10 クラス副言語トークン息、笑い、ため息、ああ、エン、フン、ウーン......字幕と同じ正確さで挿入される。
  • ゼロサンプルTTS:一句提示克隆任意音色,文本加“[粤语]”“[四川话]”秒出方言。
  • フルリンクオープンソース(OLOS)推論コード、トレーニングコード、8ビット量子化ウェイト、グラディオ・デモ、HFスペースが一度に使える。
  • 大区間データ駆動SFT+PPOは、属性の分離と反復制御を実現します。
  • 統一フレームワーク音声作成は、TTS、感情編集、スタイル移行、ノイズ除去、スピーチレート調整のためのワンストップショップである。

Step-Audio-EditXの主な利点

  • 世界初のオープンソースLLMオーディオエディター3Bビッグ言語モデルを音声編集に初めて採用し、オープンソース・コード、ウェイト、トレーニング・スクリプト、オンライン・デモを備え、8GBのカード1枚で4×A800を動作させ、出版レベルの音質を実現。
  • 大区間合成データ駆動SFT+PPO:SFT+PPOは、エンコーダやアダプタを追加することなく、「同じテキスト、異なる属性」のペアデータのみで行われ、属性のデカップリングと反復制御を実現し、システムの複雑性と推論コストを大幅に削減します。
  • 3軸きめ細かな反復制御感情(30以上のタグ)、話し方(15以上のタグ)、パラ言語(10種類のトークン)はすべて、何度も重ねたり、弱めたりすることができ、スライダーバーで強弱を調整すれば、どんどん良くなる。
  • ゼロサンプルTTS+方言カット四川語]」や「広東語]」といったタグをテキストの前に追加することで、追加トレーニングなしで方言を直接出力することができる。
  • クローズドソースの競合他社を凌駕Emotional Accuracyのレビューでは、MiniMax-2.6-hdとBeanbag Seed-TTS-2.0のクローン音声は、1回の編集で50点から70点以上に上がり、3回の編集後もリードを保っている。

Step-Audio-EditXの公式サイトを教えてください。

  • プロジェクトのウェブサイト:: https://stepaudiollm.github.io/step-audio-editx/
  • Githubリポジトリ:: https://github.com/stepfun-ai/Step-Audio-EditX
  • HuggingFaceモデルライブラリ:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.03601

Step-Audio-EditXは誰のためのものですか?

  • ショートビデオ / 映画・TVクリエイターゼロサンプルのクローン音色+感情の反復で、マルチキャラクター、マルチエモーションのボイスオーバーを素早く生成し、レコーディングとポストプロダクションのコストを削減します。
  • ポッドキャスト/オーディオブック・プロデューサーワンクリックで "ささやき声/甘い声/真剣な声 "のスタイルをオーバーレイでき、異なるバージョンの音声をバッチ出力でき、コンテンツへの没入感が高まります。
  • ゲーム企画&バーチャルアイドル運営NPCやVTuberにリアルタイムで笑い声や吐息、ため息などを挿入し、より生き生きとしたインタラクティブなキャラクターボイスを作成できます。
  • 広告・マーケティングチーム声優を雇うことなく、同じテキストを「情熱的/高級/方言」で吹き替えられるので、さまざまな配信チャンネルに対応できる。
  • 教育コンテンツおよび言語学習開発者"old/child/dialect "タグを使用して、年齢に適した、地域化された読み上げを生成し、教師の記録作業を軽減します。
  • インテリジェントなカスタマーサービス/音声アシスタント・ベンダーTTSは、元のムードやスタイルをそのまま編集することができ、「癒し系、宣伝系、シリアス系」など、複数のシーンに素早く対応できる。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません