SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル（Metaより

31.6K 00

SAMオーディオとは

SAM AudioはMeta社のオープンソースです。マルチモーダル音声セグメンテーションモデル音声編集、視覚的、時間的な手がかりを組み合わせて、柔軟で効率的な音声処理を実現します。柔軟で効率的なオーディオ処理のために、テキスト、ビジュアル、および時間的なキューを組み合わせることで、オーディオ編集、ノイズ除去、サウンド抽出、およびその他のタスクのための新しいソリューションを提供します。ユーザーは、簡単なテキスト記述（例えば「ギターの音」）、ビデオ内の音のするオブジェクトのクリック、または音が現れる時間範囲をマークすることで、SAM Audioを使用できます。

SAMオーディオの特徴

マルチモーダルなプロンプトのサポート::
- テキストアラート例：「犬の鳴き声」「人の声」など）。
- 視覚的手がかり: ビデオ内のヴォーカルオブジェクト（楽器やスピーカーなど）をクリックすると、その音声が自動的に分離されます。
- タイムスパンのヒント対象音が発生する時間帯をマークし、セパレーションの正確な特定を可能にします。
統一モデル・アーキテクチャ異なる音カテゴリーを個別に訓練する必要がなく、キューを基にした新しいタスクに直接適用でき、汎用性と拡張性に優れています。
高い性能と効率広範なオーディオ分離タスクにおいて既存モデルを凌駕し、ほぼリアルタイムに近い処理速度（リアルタイム係数〜0.7）で動作し、大規模なオーディオ処理をサポートします。
幅広いアプリケーション・シナリオオーディオ・クリーンアップ、バックグラウンド・ノイズ除去、音楽制作、ビデオ・ポストプロセッシング、アクセシビリティ・テクノロジーなど、プロフェッショナル・オーディオ・プロセッシングのハードルを下げるために。

SAMオーディオの強み

マルチモーダルインタラクションテキスト、ビジュアル、タイムクリップなど様々なキューイング方法をサポートし、ユーザーのニーズに応じて柔軟に選択することができます。
業界をリードする性能音声、音楽、汎用サウンドセパレーションなど、幅広いオーディオセパレーションタスクでトップクラスの性能を発揮し、複雑なオーディオミックスにも対応します。
ノー・リファレンス・オーディオ・レビューSAM Audio Judgeは、リファレンストラックを必要とせず、より人間のリスニング体験に近い客観的な音質評価を提供します。
効率的なリアルタイム処理リアルタイム処理よりも高速（リアルタイムファクター約0.7）に動作するため、大規模な音声処理に適しており、作業効率が向上します。
実環境ベンチマークSAM Audio-Benchによる評価では、実際のシナリオにおける幅広いオーディオタスクをカバーし、実世界のアプリケーションにおけるモデルの信頼性と妥当性を保証します。
オープンソースとコミュニティ・サポート開発者や研究者のさらなる探求と応用を容易にし、オーディオ処理技術の発展を促進するため、コードはオープンソースとなっています。

SAMオーディオの公式ウェブサイトは？

プロジェクトのウェブサイト:: https://ai.meta.com/samaudio/
Githubリポジトリ:: https://github.com/facebookresearch/sam-audio

SAMオーディオの対象者

オーディオ編集者オーディオのクリーンアップ、バックグラウンドノイズの除去、オーディオの修復を必要とするプロのオーディオ編集者。
クリエイティブ・メディア・クリエーター音楽プロデューサー、ビデオ・エディター、コンテンツ・クリエイターなど、オーディオ・クリエイティビティやリミックスのための人材を含む。
研究員オーディオ分析、音響生態学、音楽情報検索の分野で活躍する研究者。
補聴器開発者補聴器メーカーと協力して、聴覚障害者のより効果的な聴覚補助技術を開発する。
愛用者個人的なオーディオ・コンテンツの品質を向上させたいユーザー、または日常生活で簡単なオーディオ処理を必要とするユーザー。