InfinityStar - Byteオープンソース時空間自己回帰ビデオ生成フレームワーク

28.3K 00

インフィニティ・スターとは

InfinityStarは、ByteDance社によってオープンソース化された、高解像度の画像とビデオ生成用に設計された、統一された時空間自己回帰フレームワークです。離散自己回帰アプローチを使用することで、単一のモデルでテキストから画像、テキストから動画、画像から動画のタスクを同時に処理できる。このフレームワークはVBenchベンチマークで83.74を記録し、既存の自己回帰モデルを上回り、拡散モデルよりも10倍高速です。コアテクノロジーには、時空間ピラミッドモデリング（動画を最初のフレーム画像と動的クリップに分解）、効率的な離散視覚曖昧性解消器（知識継承と確率的量化子により学習を深く加速）、最適化されたトランスフォーマーアーキテクチャ（意味的スケールの繰り返しや時空間スパースアテンションなど）が含まれます。ユーザーはDiscordコミュニティを通じてその能力を体験することができ、シングルGPUによる5秒720p動画の分刻みの生成をサポートしている。

インフィニティスターの特徴

高解像度ビデオ生成複雑でダイナミックなシーンを素早く合成し、高解像度コンテンツの要求に応えることができます。
マルチタスク・サポートテキストから画像へ、テキストから動画へ、画像から動画へなど、幅広い生成タスクをカバーし、多様なコンテンツ作成ニーズに応えます。
効率的なキャパシティの創出5秒間の720pビデオの生成にかかる時間はわずか58秒で、これは従来の拡散モデルよりもはるかに速く、生成効率が大幅に向上している。
統一時空間モデリング（UTM）外観情報と動的情報を効果的に切り離す時空間ピラミッド構造により、空間的・時間的依存性を効率的に捉える。
知識継承戦略知識継承ストラテジーを利用することで、学習時間を短縮し、計算リソースの消費を抑えることができます。
オープンソースと使いやすさすべてのコードとモデルはオープンソース化されており、研究者や開発者が迅速に研究を開始し、さらなる研究やアプリケーション開発を行うことができます。
高品質の結果生成VBench ベンチマークテストで優れたパフォーマンスを発揮し、幅広いアプリケーションシナリオのニーズを満たすディテールに富んだ高品質のビデオや画像を生成します。

インフィニティスターの主な利点

効率的な発電速度このビデオジェネレーターは、5秒間の720pビデオを生成するのにわずか58秒しかかからず、これは従来の拡散モデルより10倍速く、ビデオ生成効率を大幅に改善する。
高品質出力VBenchベンチマークテストでは、他のモデルよりもはるかに高いスコアを記録し、ディテールが豊かで視覚効果に優れた高品質の動画や画像を生成します。
マルチタスク・サポートテキストから画像へ、テキストから動画へ、画像から動画へなど、多様なコンテンツ制作のニーズに対応します。
統一時空間モデリング（UTM）時空間ピラミッド構造を採用することで、外観情報と動的情報を効果的に切り離し、空間的・時間的な依存関係を効率的に捉えることが可能になり、モデルの性能が向上する。
知識継承戦略知識継承ストラテジーを利用することで、学習時間を短縮し、計算リソースの消費を抑えることができます。
オープンソースと使いやすさすべてのコードとモデルはオープンソース化されており、研究者や開発者が迅速に研究を開始し、さらなる研究やアプリケーション開発を行うことができます。
長時間のビデオ生成機能より長く、高品質なビデオコンテンツの生成をサポートし、ビデオ生成の応用範囲を拡大します。

InfinityStarの公式サイトとは？

Githubリポジトリ:: https://github.com/FoundationVision/InfinityStar
HuggingFaceモデルライブラリ:: https://huggingface.co/FoundationVision/InfinityStar
arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.04675

InfinityStarは誰のためのものですか？

コンテンツクリエータービデオプロデューサー、アニメーター、広告クリエーターなど、様々なクリエイターを対象に、高品質なビデオコンテンツを素早く生成し、制作効率を向上させます。
ゲーム開発者インタラクティブなゲームや仮想現実（VR）/拡張現実（AR）アプリケーションの開発に使用でき、ユーザー体験を向上させるインタラクティブなビデオ生成をサポートします。
教育者コンテンツに関連したアニメーションやビデオを作成することで、教育効果や生徒の学習意欲を向上させるための指導用ビデオを作成するために使用します。
ソーシャルメディア運営者ソーシャル・メディア・プラットフォーム向けにリッチで多様なビデオコンテンツを提供し、ユーザーが魅力的なビデオを素早く作成し、コンテンツ配信を強化できるようにする。
(研究者コンピュータビジョンと人工知能の分野で、映像生成技術の新たな応用と境界の拡大を探求する研究。
コーポレート・マーケティング・チーム広告やプロモーションビデオの作成に使用され、ブランドのトーンに合ったコンテンツを素早く生成し、マーケティング効果とブランドインパクトを向上させる。