SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

31.5K 00

SAM 오디오란?

SAM 오디오는 메타의 오픈 소스입니다.멀티모달 오디오 세분화 모델는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리합니다. 유연하고 효율적인 오디오 처리를 위해 텍스트, 시각 및 시간적 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 및 기타 작업을 위한 새로운 솔루션을 제공합니다. 사용자는 간단한 텍스트 설명(예: "기타 소리")을 입력하거나, 동영상에서 소리가 나는 개체를 클릭하거나, 소리가 나타나는 시간 범위를 표시하여 SAM 오디오를 사용할 수 있습니다.

SAM 오디오 기능

멀티 모달 프롬프트 지원::
- 텍스트 알림자연어 설명에서 해당 소리를 추출할 수 있습니다(예: "개 짖는 소리", "사람 목소리").
- 시각적 단서동영상에서 보컬 개체(예: 악기, 화자)를 클릭하면 자동으로 오디오가 분리됩니다.
- 시간 범위 팁대상 소리가 발생하는 시간을 표시하여 정확한 분리 위치 파악을 가능하게 합니다.
통합 모델 아키텍처다양한 사운드 카테고리에 대해 개별적으로 훈련할 필요가 없고, 단서를 기반으로 새로운 작업에 바로 적용할 수 있으며, 강력한 범용성과 확장성을 제공합니다.
높은 성능과 효율성광범위한 오디오 분리 작업에서 기존 모델보다 성능이 뛰어나고, 실시간에 가까운 처리 속도(실시간 계수 ~0.7)로 실행되며, 대규모 오디오 처리를 지원합니다.
광범위한 애플리케이션 시나리오오디오 정리, 배경 소음 제거, 음악 제작, 비디오 포스트 프로세싱, 접근성 기술 등 전문적인 오디오 처리의 기준을 낮추는 기타 영역에 적합합니다.

SAM 오디오의 핵심 강점

멀티모달 상호 작용텍스트, 시각 및 시간 클립 등 다양한 큐잉 방법을 지원하여 사용자가 필요에 따라 유연하게 선택할 수 있으며, 오디오가 자연스럽게 이해되고 처리되는 방식에 더 가깝습니다.
업계 최고의 성능음성, 음악, 범용 사운드 분리 등 다양한 오디오 분리 작업에서 최고의 성능을 발휘하며 복잡한 오디오 믹스를 처리할 수 있습니다.
참조 오디오 검토 없음SAM Audio Judge는 레퍼런스 트랙 없이도 오디오 품질을 객관적으로 평가할 수 있어 실제 청취 경험에 더 가깝습니다.
효율적인 실시간 처리실시간 처리보다 빠르게 실행(실시간 계수 약 0.7)되어 대규모 오디오 처리에 적합하며 작업 효율을 향상시킵니다.
실제 환경 벤치마킹실제 애플리케이션에서 모델의 신뢰성과 유효성을 보장하기 위해 실제 시나리오의 광범위한 오디오 작업을 다루는 SAM Audio-Bench에서 평가했습니다.
오픈 소스 및 커뮤니티 지원이 코드는 개발자와 연구자들이 더 쉽게 탐구하고 적용하고 오디오 처리 기술 개발을 촉진하기 위해 오픈 소스로 제공됩니다.