Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델

31.2K 00

Step-Audio-EditX란 무엇인가요?

Step-Audio-EditX는 인공지능 기술을 통한 오디오 콘텐츠의 미세한 조작에 중점을 둔 Step-Audio-Star 팀이 개발한 오픈 소스 오디오 편집 대형 모델입니다. 이 모델은 오디오의 분위기, 말투(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨)를 동적으로 조정할 수 있으며 중국어, 영어, 사천어, 광동어 등 여러 언어를 지원합니다. 핵심 기술은 대규모 합성 데이터 학습을 사용하는 데 있습니다. 핵심 기술은 대규모 합성 데이터 학습을 사용하여 기존의 내장된 선험적 지식에 의존하지 않고도 음성 전반에 걸쳐 고도로 표현력 있는 편집을 달성하는 데 있습니다. 실험 결과, 이 모델은 감정 편집과 같은 작업에서 Minimax-2.6-HD 및 DouBao-Seed-TTS-2.0과 같은 유사한 도구보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 이 모델과 함께 제공되는 도구는 Hugging Face와 GitHub를 통해 사용자가 사용할 수 있습니다.

Step-Audio-EditX의 특징

세계 최초의 오픈 소스 LLM 오디오 편집기입니다:8GB의 단일 카드로 실행할 수 있으며 4×A800은 영화관 수준의 사운드를 제공합니다.
30개 이상의 감성 슬라이더분노, 행복, 슬픔 등의 강도는 여러 번 반복할 수 있으며, 조정할수록 더 많이 머릿속으로 들어갑니다.
15가지 말하기 스타일버릇없는, 속삭이는, 노인, 어린이, 진지한, 관대하고 과장된 원클릭 스위치, 지원 오버레이.
10 클래스 하위 언어 토큰숨소리, 웃음소리, 한숨소리, 오, 엔, 흐음, 음을 자막과 동일하게 정확하게 삽입합니다.
제로 샘플 TTS모든 톤, 텍스트에 "[광동어]" "[사천어]"를 더하여 몇 초 만에 방언을 생성하는 단서입니다.
풀링크 오픈 소스(OLOS)추론 코드, 트레이닝 코드, 8비트 양자화 가중치, Gradio 데모, HF 스페이스를 한 번에 사용할 수 있습니다.
큰 간격의 데이터 중심추가 인코더/어댑터가 필요하지 않으며, SFT+PPO는 속성의 디커플링과 반복 제어를 실현합니다.
통합 프레임워크오디오 제작은 TTS, 감정 편집, 스타일 마이그레이션, 노이즈 감소 및 음성 속도 조정을 위한 원스톱 상점입니다.

Step-Audio-EditX의 핵심 이점

세계 최초의 오픈 소스 LLM 오디오 편집기오픈 소스 코드, 가중치, 학습 스크립트 및 온라인 데모와 함께 음성 편집에 3B 빅 언어 모델을 최초로 사용하며, 출판용 음질을 위해 4×A800을 실행할 수 있는 단일 8GB 카드가 제공됩니다.
큰 간격의 합성 데이터 기반SFT+PPO: 추가 인코더나 어댑터 없이 '동일한 텍스트, 다른 속성' 쌍 데이터만으로 SFT+PPO를 수행하여 속성 분리 및 반복 제어를 달성하므로 시스템 복잡성과 추론 비용을 크게 줄일 수 있습니다.
3축 세분화된 반복 제어감정(30개 이상의 태그), 말하기 스타일(15개 이상의 태그), 보조 언어(10가지 유형의 토큰)를 모두 여러 번 겹치거나 약화시킬 수 있으며, 슬라이더 막대로 강도를 조절하여 점점 더 좋아지게 할 수 있습니다.
제로 샘플 TTS + 방언 자르기다음은 모든 톤을 복제하는 방법의 예입니다. 단일 큐로 모든 톤을 복제할 수 있으며, 텍스트 앞에 '[사천어]', '[광둥어]' 등의 태그를 추가하면 추가 학습 없이 바로 방언을 출력할 수 있습니다.
비공개 소스 경쟁사보다 뛰어난 성능감정 정확도 평가에서는 한 번의 편집으로 MiniMax-2.6-hd와 Beanbag Seed-TTS-2.0의 복제 음성이 50점에서 70점 이상으로 향상되었으며, 세 차례의 자체 반복 후에도 계속 선두를 유지하고 있습니다.

Step-Audio-EditX의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://stepaudiollm.github.io/step-audio-editx/
깃허브 리포지토리:: https://github.com/stepfun-ai/Step-Audio-EditX
허깅페이스 모델 라이브러리:: https://huggingface.co/stepfun-ai/Step-Audio-EditX
arXiv 기술 논문:: https://arxiv.org/pdf/2511.03601

Step-Audio-EditX는 누구를 위한 서비스인가요?

단편 동영상/영화 및 TV 크리에이터제로 샘플 클론 음색 + 감정 반복으로 멀티 캐릭터, 멀티 감정 보이스오버를 빠르게 생성하여 녹음 및 후반 작업 비용을 절감할 수 있습니다.
팟캐스트/오디오북 제작자클릭 한 번으로 '속삭임/달콤함/진중함' 스타일의 오버레이, 다양한 버전의 오디오를 일괄 출력하고 콘텐츠 몰입도를 높일 수 있습니다.
게임 기획 및 가상 아이돌 운영웃음, 숨소리, 한숨을 실시간으로 삽입하여 NPC와 VTuber가 더욱 생동감 있고 인터랙티브한 캐릭터 음성을 만들 수 있습니다.
광고 및 마케팅 팀성우를 고용할 필요 없이 동일한 텍스트를 '열정적/고급/사투리'로 더빙할 수 있으므로 다양한 전달 채널에 맞게 조정할 수 있습니다.
교육 콘텐츠 및 언어 학습 개발자'노인/어린이/방언' 태그를 사용하여 연령에 적합하고 현지화된 낭독문을 생성하여 교사의 녹음 작업량을 줄입니다.
지능형 고객 서비스/음성 어시스턴트 공급업체TTS는 원래의 분위기와 스타일에 맞게 직접 편집할 수 있으며 '차분한, 홍보용, 진지한' 등 다양한 시나리오에 빠르게 사용할 수 있습니다.