Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

堆友AI

夢1.5とは

Yume1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルであり、リアルタイムのインタラクティブレンダリング(シングルカードで12FPS)が可能である。このモデルは、時空間チャネル・モデリング(TSCM)技術を採用し、コンテキスト長が長くなっても安定したサンプリング・レートを維持し、自己強制(Self-Forcing)を統合して推論を高速化し、エラーの蓄積を低減する。このモデルは世界の生成と編集タスクで優れた性能を発揮し、関連論文とオープンソースコードはGitHubを通じて入手可能である。

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

夢1.5の特徴

  • 効率的なリアルタイム生成Yume-1.5は、毎秒12フレーム(解像度540p)での推論を可能にし、ベンチマーク生成時間を8秒に短縮し、リアルタイム性能を大幅に向上させ、リアルな仮想世界を迅速に生成します。
  • テキストコントロール機能このモデルは、自然言語によるプロンプトを通じて動的なイベントの生成をサポートし、ユーザーはテキストコマンドを通じて仮想世界の生成と変化を制御することができ、生成されたコンテンツのセマンティックガイダンスを可能にする。
  • キーボード操作の経験キーボードベースの生成的な世界探索をサポートし、一人称ナビゲーションをシミュレートし、ユーザーがキーボードでキャラクターやカメラの動きをコントロールできるようにすることで、ユーザーとのインタラクション体験を向上させます。
  • 技術革新のブレークスルー長時間の映像生成における履歴コンテキストの急激な増大の問題を、階層的圧縮技術によって履歴フレームコンテキストを多次元で効率的に圧縮する時空間チャネルモデリング(TSCM)技術を用いることによって解決する。
  • 双方向の注目蒸留テキスト埋め込みスキームの改良と組み合わせることで、サンプリング処理を高速化し、自己回帰生成における誤差の蓄積を低減し、推論効率を大幅に向上させる。
  • 混合データセットのトレーニング生成されたコンテンツのセマンティック・ステアリングは、ハイブリッド・データセット学習戦略と、イベント記述とアクション記述のアーキテクチャ分解によって達成され、モデル生成の質と多様性を向上させる。
  • 幅広い用途Yume-1.5は、没入型シミュレーション、仮想具現化、インタラクティブ・エンターテインメントの分野で幅広い応用が可能で、よりリアルで豊かな仮想世界体験をユーザーに提供することができます。

夢1.5の主な利点

  • 効率的な推論パフォーマンス: Yume-1.5では、推論速度12フレーム/秒(解像度540p)を実現し、ベンチマーク生成時間を8秒に短縮し、リアルタイム生成の効率を大幅に改善しました。
  • テキスト主導のインタラクティブ性ユーザは自然言語コマンドによって仮想世界の生成と変化を制御することができ、ダイナミックなイベントの生成を可能にし、ユーザと仮想世界とのインタラクションを強化する。
  • 一人称ナビゲーションの経験一人称ナビゲーションをシミュレートするキーボードベースのインタラクションをサポートし、ユーザーはキャラクターとカメラの動きを自由にコントロールすることができ、没入感のある探索体験を提供します。
  • 革新的なモデリング技術時間-空間-チャンネル結合モデリング(TSCM)は、長時間のビデオ生成における履歴コンテキストの急激な増大の問題を効果的に解決し、生成の質と効率を向上させるために使用される。
  • 双方向の注意メカニズム双方向の注意力蒸留とテキスト埋め込みスキームの強化により、サンプリングプロセスを高速化し、エラーの蓄積を低減することで、推論速度をさらに向上させた。
  • 混合データセットのトレーニング戦略トレーニングのために複数のデータセットを組み合わせることで、モデルの異なるシーンやイベントへの適応能力が向上し、生成されるコンテンツの多様性とリアリズムが高まります。

夢1.5の公式サイトは?

  • プロジェクトのウェブサイト:: https://stdstu12.github.io/YUME-Project/
  • GitHubリポジトリ:: https://github.com/stdstu12/YUME
  • HuggingFaceモデルライブラリ:: https://huggingface.co/stdstu123/Yume-5B-720P
  • arXivテクニカルペーパー:: https://arxiv.org/pdf/2512.22096

夢1.5は誰のためのものですか?

  • ゲーム開発者Yume-1.5を使用することで、仮想ゲーム世界を迅速に生成し、開発時間とコストを削減し、より没入感のあるゲーム体験をプレイヤーに提供することができます。
  • 仮想現実(VR)および拡張現実(AR)開発者このモデルは、リアルな仮想環境を作成し、VR/ARアプリケーションのリアリズムとインタラクティブ性を高めるために使用することができます。
  • 映画プロデューサー映画、テレビドラマ、その他の映画やテレビ作品の制作を支援するために、バーチャルなシーンや特殊効果を生成するために使用することができ、実際のセットを構築するコストと時間を節約することができます。
  • 教育者歴史再現や科学シミュレーションのような教育シナリオのために、バーチャルな教育環境を構築することで、生徒の学習や理解への関心を高めることができる。
  • 建築デザイナーおよびプランナー建築モデルや都市計画のバーチャル・シナリオを素早く生成し、プログラム・プレゼンテーションやクライアントとのコミュニケーションに活用することで、設計効率を高めることができます。
  • エンターテインメント業界関係者テーマパークやエスケープルームのような施設の設計者は、Yume-1.5を使用して、エンターテインメント体験を豊かにするユニークなバーチャルシナリオを生成することができます。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません