Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル
カレイドとは?
Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。Kaleidoは、低品質のサンプルフィルタリングと多様なデータ合成を含む特別なデータ構築パイプラインを通じて、高品質のトレーニングデータを生成します。その革新的な基準回転位置符号化(R-RoPE)機構は、安定的かつ正確に複数の基準画像を統合し、多被験者シナリオにおける一貫性を維持します。Kaleidoは、複数のベンチマークで優れた性能を発揮し、一貫性、忠実度、汎化能力の点で従来のアプローチを大幅に上回ります。

カレイドの特徴
- データがパイプラインの革新を築く多段階のスケーラブルなS2Vデータ構築パイプラインを使用し、ビデオスライス/キャプション、被写体ローカライズ、品質フィルタリング、背景デカップリング、ポーズモーション強調の各ステップを行うことで、データの多様性と品質を効果的に向上させ、モデルトレーニング用の高品質なサンプルを提供します。
- R-RoPEメカニズム参照回転位置符号化(R-RoPE:Reference Rotational Position Encoding)を導入することで、参照画像に独自の回転位置符号化を付与し、複数参照画像の安定した統合を実現。
- 優れた性能いくつかのベンチマークテストにおいて、Kaleidoは、被写体の一貫性、背景のデカップリング、および映像品質の点で既存の手法を大幅に上回り、特に美的品質と映像の滑らかさの点で、クローズドソースモデルに迫る高い性能を発揮しました。
カレイドの強み
- データの多様性と質多段階のデータ構築パイプラインを通じて、低品質サンプルのフィルタリングと多様なデータ合成を実現し、学習データの豊富さと高い忠実度を確保することで、モデルの性能向上の基礎を築きます。
- 多被験者コヒーレンス革新的なR-RoPEメカニズムは、複数の参照画像を効果的に統合し、多被写体シーンにおける一貫性を大幅に向上させ、被写体の混乱を回避し、高品質の多被写体映像を生成します。
- バックグラウンドデカップリング機能被写体と背景を明確に分離し、背景の汚染を回避し、ビデオ生成の自然さとリアリズムを向上させます。
- 優れたパフォーマンスいくつかのベンチマークテストにおいて、Kaleidoは、被写体の一貫性、背景のデカップリング、映像の品質、美的品質、映像の滑らかさにおいて、既存の手法を大幅に上回り、クローズドソースのモデルのレベルに近づくか、上回ることさえあります。
- オープンソースがエコロジーを推進するKaleidoは、オープンソースプロジェクトとして、映像生成分野の研究と応用を強力にサポートし、この分野全体の技術開発とエコロジー構築を促進し、幅広い応用の可能性を持っています。
カレイドの公式サイトは?
- プロジェクトのウェブサイト:: https://criliasmiller.github.io/Kaleido_Project/
- GitHubリポジトリ:: https://github.com/zai-org/Kaleido
- HuggingFaceモデルライブラリ:: https://huggingface.co/zai-org/Kaleido-14B-S2V
- arXivテクニカルペーパー:: https://arxiv.org/pdf/2510.18573
カレイドは誰のためのものですか?
- 動画コンテンツ制作者広告、Eコマース、映画、テレビなどのコンテンツ制作に最適です。
- 人工知能研究者オープンソースモデルとして、Kaleidoは研究者に豊富な実験データと高度な技術フレームワークを提供し、ビデオ生成に関連する研究作業を容易にします。
- 開発者&エンジニアKaleidoをお客様のプロジェクトに組み込んだり、新しいアプリケーションを開発したり、既存のシステムを最適化したりすることができます。
- クリエイティブ・デザイナーKaleido Multi-Subject Video Generation機能は、クリエイティブなアイデアを素早く実現し、デザインワークに新しいアイデアや素材を提供します。
- 教育者と学生ビデオ生成技術の原理と応用を理解し、関連するスキルと創造性を身につけるための教育や学習に利用できる。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




