Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

27.8K 00

Vidi2とは？

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成グランドモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、音声モダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルな対話と推論を実現します。ビデオ内の特定のイベントやターゲット・オブジェクトの時間範囲と空間的位置を正確に特定し、モデルが自動的に対応する時間帯とターゲット領域を画面内に注釈を付けることができ、ミリ秒レベルの精度で注釈を付けることができる。何時間もの生映像を処理し、特定のセマンティクスに一致するクリップを素早く取り出すことができる。

Vidi2の特徴

マルチモーダル処理能力テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画面コンテンツ、音声情報、自然言語コマンドを同時に理解できるため、クロスモーダルなインタラクションや推論が可能です。
微細な空間的・時間的ポジショニング（STG）例えば、「X分に誰かがある動作をした」というテキスト記述に従って、モデルは自動的に対応する時間帯とターゲットエリアを画面内にマークすることができ、その誤差はミリ秒レベルまで正確である。
長いビデオの理解と検索何時間もの生映像を処理し、特定のセマンティクスに一致するセグメントを素早く検索し、映像コンテンツが複雑でシーンが頻繁に切り替わる場合でも高い精度を維持することができます。超長時間ビデオ（1時間以上）のシナリオでは、主流の商用モデルを凌ぐ性能を発揮。
ビデオクイズと推論プロット、登場人物の関係、出来事の因果関係などの質問に答え、何度も推論を繰り返して妥当な答えを導き出すことで、ユーザーがビデオ内の重要な情報に素早くアクセスできるようにします。
インテリジェントな編集とクリエイティブな支援自動的にハイライトクリップを抽出し、短いビデオタイトルを生成することができ、ユーザーのニーズに応じてインテリジェントな合成トリミングと自動マルチカメラ切り替えを実行し、ビデオ作成の敷居を大幅に下げ、作成効率を向上させます。

Vidi2の主な利点

微細な空間的・時間的測位能力Vidi2は、ビデオ内のタイムスタンプとターゲットオブジェクトのバウンディングボックスの両方を認識することができ、テキストクエリが与えられると、対応する時間帯を見つけるだけでなく、これらの時間範囲内の特定のオブジェクトの位置を正確にマークし、1秒単位の粒度で指定されたオブジェクトやキャラクターの追跡を実現し、群衆の中の特定のキャラクターを追跡したり、不連続のショットで小道具を分離したりするタスクをサポートします。
強力なビデオ理解と生成Vidi2は、何時間もの生映像を処理し、その中のストーリーラインを理解し、簡単なプロンプトに基づいて完全なTikTokショートビデオやフィルムクリップを生成することができます。
先進技術アーキテクチャGemma-3をバックボーンネットワークとして使用し、再設計された適応型マークアップ圧縮と組み合わせることで、長時間の映像処理でも重要なディテールを失うことなく、効率性を維持することができます。また、テキスト、ビジュアル、オーディオを共同で処理することで、クロスモーダルな処理フローを統一し、動画を理解・作成する。
優れたパフォーマンスVUE-TR-V2 benchmark for open time retrievalにおいて、Vidi2は48.75という総合的なIoUを達成し、特に超ロングビデオ（1時間以上）において商用モデルを17.5ポイントも上回りました。ローカリゼーションタスク（VUE-STG）では、Vidi2はvIoUで32.57、tIoUで53.19という最高のパフォーマンスを達成しています。
効率的なデータ・トレーニング戦略Vidi2のトレーニングプロセスでは、実際の多様なビデオデータと合成ローカライゼーションデータを組み合わせ、大規模な空間的推論と時間的推論を整合させるために注意深く管理されたアノテーションを重視します。さらに、Temporal-aware Multimodal Alignment (TAMA)戦略を採用し、段階的な双方向強化学習メカニズムにより、モデルのパフォーマンスを向上させます。

Vidi2の公式ウェブサイトは？

プロジェクトのウェブサイト:: https://bytedance.github.io/vidi-website/
Githubリポジトリ:: https://github.com/bytedance/vidi
arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.19529

Vidi2の対象者

ビデオクリエーターVidi2は、ビデオクリエイターがビデオスクリプト、アウトライン、タイトルを素早く生成し、長いビデオをプラットフォーム・パブリッシングに適した短いビデオに自動的に編集し、クリエイティブ効率を大幅に向上させることができます。
コンテンツ編集チーム大量のビデオ映像を扱わなければならない編集チームにとって、Vidi2はビデオ内の重要なクリップを自動的に識別して抽出し、ハイライト・モーメントを生成することができるため、手作業によるスクリーニングと編集の時間を節約することができます。
ソーシャルメディア運営者Vidi2は、長いビデオコンテンツをソーシャルメディア・プラットフォームに適した短いビデオに素早く変換することができ、事業者がコンテンツをより効率的に公開し、その普及を向上させるのに役立つ。
映画プロデューサーポストプロダクションでは、Vidi2はプロット理解、編集、字幕を支援し、制作効率を高めることができます。
広告・マーケティングチームVidi2 は、魅力的なビデオコンテンツを迅速に生成し、広告チームがより魅力的な広告ビデオを作成し、広告効果を向上させることができます。
教育者教育者はVidi2を使用して、教育用ビデオの処理を最適化し、教育に適した短いビデオクリップを生成し、教材の使用効率を向上させることができます。