Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

최신 AI 리소스2 개월 전에 게시 됨 AI 공유 서클
16.2K 00
堆友AI

Step-Audio-EditX란 무엇인가요?

Step-Audio-EditX는 인공지능 기술을 통한 오디오 콘텐츠의 미세한 조작에 중점을 둔 Step-Audio-Star 팀이 개발한 오픈 소스 오디오 편집 대형 모델입니다. 이 모델은 오디오의 분위기, 말투(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨)를 동적으로 조정할 수 있으며 중국어, 영어, 사천어, 광동어 등 여러 언어를 지원합니다. 핵심 기술은 대규모 합성 데이터 학습을 사용하는 데 있습니다. 핵심 기술은 대규모 합성 데이터 학습을 사용하여 기존의 내장된 선험적 지식에 의존하지 않고도 음성 전반에 걸쳐 고도로 표현력 있는 편집을 달성하는 데 있습니다. 실험 결과, 이 모델은 감정 편집과 같은 작업에서 Minimax-2.6-HD 및 DouBao-Seed-TTS-2.0과 같은 유사한 도구보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 이 모델과 함께 제공되는 도구는 Hugging Face와 GitHub를 통해 사용자가 사용할 수 있습니다.

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX의 특징

  • 세계 최초의 오픈 소스 LLM 오디오 편집기입니다:8GB의 단일 카드로 실행할 수 있으며 4×A800은 영화관 수준의 사운드를 제공합니다.
  • 30개 이상의 감성 슬라이더분노, 행복, 슬픔 등의 강도는 여러 번 반복할 수 있으며, 조정할수록 더 많이 머릿속으로 들어갑니다.
  • 15가지 말하기 스타일버릇없는, 속삭이는, 노인, 어린이, 진지한, 관대하고 과장된 원클릭 스위치, 지원 오버레이.
  • 10 클래스 하위 언어 토큰숨소리, 웃음소리, 한숨소리, 오, 엔, 흐음, 음을 자막과 동일하게 정확하게 삽입합니다.
  • 제로 샘플 TTS모든 톤, 텍스트에 "[광동어]" "[사천어]"를 더하여 몇 초 만에 방언을 생성하는 단서입니다.
  • 풀링크 오픈 소스(OLOS)추론 코드, 트레이닝 코드, 8비트 양자화 가중치, Gradio 데모, HF 스페이스를 한 번에 사용할 수 있습니다.
  • 큰 간격의 데이터 중심추가 인코더/어댑터가 필요하지 않으며, SFT+PPO는 속성의 디커플링과 반복 제어를 실현합니다.
  • 통합 프레임워크오디오 제작은 TTS, 감정 편집, 스타일 마이그레이션, 노이즈 감소 및 음성 속도 조정을 위한 원스톱 상점입니다.

Step-Audio-EditX의 핵심 이점

  • 세계 최초의 오픈 소스 LLM 오디오 편집기오픈 소스 코드, 가중치, 학습 스크립트 및 온라인 데모와 함께 음성 편집에 3B 빅 언어 모델을 최초로 사용하며, 출판용 음질을 위해 4×A800을 실행할 수 있는 단일 8GB 카드가 제공됩니다.
  • 큰 간격의 합성 데이터 기반SFT+PPO: 추가 인코더나 어댑터 없이 '동일한 텍스트, 다른 속성' 쌍 데이터만으로 SFT+PPO를 수행하여 속성 분리 및 반복 제어를 달성하므로 시스템 복잡성과 추론 비용을 크게 줄일 수 있습니다.
  • 3축 세분화된 반복 제어감정(30개 이상의 태그), 말하기 스타일(15개 이상의 태그), 보조 언어(10가지 유형의 토큰)를 모두 여러 번 겹치거나 약화시킬 수 있으며, 슬라이더 막대로 강도를 조절하여 점점 더 좋아지게 할 수 있습니다.
  • 제로 샘플 TTS + 방언 자르기다음은 모든 톤을 복제하는 방법의 예입니다. 단일 큐로 모든 톤을 복제할 수 있으며, 텍스트 앞에 '[사천어]', '[광둥어]' 등의 태그를 추가하면 추가 학습 없이 바로 방언을 출력할 수 있습니다.
  • 비공개 소스 경쟁사보다 뛰어난 성능감정 정확도 평가에서는 한 번의 편집으로 MiniMax-2.6-hd와 Beanbag Seed-TTS-2.0의 복제 음성이 50점에서 70점 이상으로 향상되었으며, 세 차례의 자체 반복 후에도 계속 선두를 유지하고 있습니다.

Step-Audio-EditX의 공식 웹사이트는 무엇인가요?

  • 프로젝트 웹사이트:: https://stepaudiollm.github.io/step-audio-editx/
  • 깃허브 리포지토리:: https://github.com/stepfun-ai/Step-Audio-EditX
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • arXiv 기술 논문:: https://arxiv.org/pdf/2511.03601

Step-Audio-EditX는 누구를 위한 서비스인가요?

  • 단편 동영상/영화 및 TV 크리에이터제로 샘플 클론 음색 + 감정 반복으로 멀티 캐릭터, 멀티 감정 보이스오버를 빠르게 생성하여 녹음 및 후반 작업 비용을 절감할 수 있습니다.
  • 팟캐스트/오디오북 제작자클릭 한 번으로 '속삭임/달콤함/진중함' 스타일의 오버레이, 다양한 버전의 오디오를 일괄 출력하고 콘텐츠 몰입도를 높일 수 있습니다.
  • 게임 기획 및 가상 아이돌 운영웃음, 숨소리, 한숨을 실시간으로 삽입하여 NPC와 VTuber가 더욱 생동감 있고 인터랙티브한 캐릭터 음성을 만들 수 있습니다.
  • 광고 및 마케팅 팀성우를 고용할 필요 없이 동일한 텍스트를 '열정적/고급/사투리'로 더빙할 수 있으므로 다양한 전달 채널에 맞게 조정할 수 있습니다.
  • 교육 콘텐츠 및 언어 학습 개발자'노인/어린이/방언' 태그를 사용하여 연령에 적합하고 현지화된 낭독문을 생성하여 교사의 녹음 작업량을 줄입니다.
  • 지능형 고객 서비스/음성 어시스턴트 공급업체TTS는 원래의 분위기와 스타일에 맞게 직접 편집할 수 있으며 '차분한, 홍보용, 진지한' 등 다양한 시나리오에 빠르게 사용할 수 있습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...