一般的なシナリオと垂直的なシナリオ、これはAIビッグモデルの開発に直面する最初の選択である。
市場に出回っている映像モデルの多くは、ユーザーから入力されたプロンプトワードをもとに、様々なシーンに対応した映像コンテンツを生成する汎用的なモデルである。その一方で、バイトダンスが最近発表した「悟空」のように、グッズを使ったデジタルヒューマンライブストリーミングの応用に焦点を当てた、より応用シーンに近いバーティカルな分野を開拓する動画ビッグモデルも登場している。
SkyReels V1:中国におけるAIショートドラマ動画生成モデルのマイルストーン
崑崙ワールドワイドは本日、中国初のAIショートドラマ制作用大型動画生成モデル「SkyReels V1」を発表した。 AIショートドラマプラットフォーム「SkyReels」は2024年12月に正式に開始され、「SkyReels V1」は同プラットフォームに強力なビッグモデル技術を提供する。
スカイリールV1は、実際の観察・経験によれば、市販されているビデオモデルの中で「最も性能に優れたモデル」と言える。登場人物の微細な表情、アクションのディテール、シーンの構成、画作り、レンズ操作など、さまざまな面で映画やテレビに匹敵する表現力を発揮し、「映画スターやクイーン級」のパフォーマンス映像を生み出すことができる。
SkyReels A1:制御された表情の動きのための同時オープンソースアルゴリズム
スカイリールV1と同時に発表された。 SkyReels A1は、KunlunWanweiが開発した初のSOTAレベル、ビデオベースモデルベース、表情・アクション制御可能なアルゴリズムである。
さらに、SkyReels V1とSkyReels A1はオープンソースモデルであり、オープンソース契約に従って、すべてのユーザーが無料でダウンロードして使用することができます。オープンソースのアドレスは以下の通り:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
もしDeepSeek R1がテキストのビッグモデル、特に推論モデルの新しいオープンソースベンチマークを設定したとすれば、Kunlun Wanweiの スカイリールV1 活況を呈するAIショートドラマ市場において、オープンソースの新境地を確立した「SkyReels A1」と「SkyReels A1」。 この2機種のサポートにより、AIショートドラマ市場は「DeepSeekの瞬間」を迎えることが期待される。
1.最高のパフォーマンスを発揮するビデオ・メガモデル
SkyReels V1は、オープンソースコミュニティの恩恵を受け、積極的に貢献する大規模なモデルです。2023年12月にテンセントがオープンソース化したハイブリッド・ビデオ・グランド・モデル「HunYuan-Video」をベースに開発された。
オープンソースのモデルは汎用的なタスクでは優れた性能を発揮しますが、特定のドメインやニッチなタスクでは最適な性能を発揮できないことがあります。 そのため、モデル・ベンダーは通常、実際の学習プロセスにおいて、多くの微調整、推論の最適化、セキュリティの調整を行う必要があります。
現在、AI短編ドラマ市場のビデオビッグモデルは、一般的にキャラクターの表情生成に欠陥があり、最も顕著な問題は、キャラクターの表情が空虚で、生き生きとしていないことである。 崑崙は「SkyReels V1」で、このような業界のペインポイントを突破したいと考えている。
モデルのトレーニングは、大型モデルの知識と能力を習得するための重要な要素です。 スカイリールV1のトレーニングプロセスにおいて、崑崙微の中核的な目標は、モデルに「どのように演技するか」を教えることである。 この目的のために、崑崙は主に次の2つの核心的な技術革新を実施した:
データのクリーニングとラベリング:モデルの微調整の要
1つ目はデータのクリーニングとラベリングで、これはモデルの微調整の重要な部分である。 教師が授業の準備をするために質の高い教材が必要なように、崑崙微は独自に開発した質の高いデータクレンジングと手作業によるラベリングプロセスに基づいて、1000万レベルの質の高い映画、テレビシリーズ、ドキュメンタリーのデータセットを構築した。 これは、SkyReels V1が演技を学ぶための「教材」となる。
映像理解の人間中心マルチモーダルグランドモデル:キャラクター理解の向上
"教材 "だけでは不十分で、モデリングに関するより深い指導が必要である。 そこでKunlunWanweiは、ビデオ理解のための独自の人間中心(キャラクター中心)マルチモーダルモデルを開発した。 その目的は、ビデオ内の登場人物に関連する情報を理解するモデルの能力を大幅に向上させることである。
映像理解のマルチモーダル大規模モデルに基づくこの一連のキャラクター知能分析システムは、表情認識、キャラクター空間位置認識、行動意図理解、パフォーマンスシーン理解など、複数のレベルで「映画スターレベル」のキャラクターパフォーマンス効果を実現することができる。
映画スター」の演技とは?
例えば、「SkyReels V1」は、映画さながらのキャラクターの微表情演技を生成することが可能で、33種類の微妙なキャラクター表情と400種類以上の自然な動きの組み合わせに対応し、リアルな感情表現を高度に再現している。
もうひとつの例は、SkyReels V1が映画用照明の美学もマスターしていることです。 ハリウッド級の高品質な映画やテレビのデータで訓練されたSkyReels V1が生成するすべてのフレームは、構図、俳優の位置、カメラアングルにおいて、映画のようなクオリティを備えています。
スカイリールV1とクローズドソースモデルとの比較
SkyReels V1はオープンソースのモデルだが、Conch AIやCorinne AIといったクローズドソースのモデルに匹敵する結果を生み出している。 同じキューワード条件下で、スカイリールV1、コンクAI、ケリングAIの生成結果を比較すると以下のようになる:
キューワード1: ゴージャスな赤メガネをかけ、真紅の口紅を塗った茶髪の女性の写真。彼女は正面に向かって手を振り、微笑み、そして笑った。
スカイリールV1。
コンクAI。
ケリンAI。
キューワード2: 昔ながらの銅製潜水用ヘルメットをかぶった深海ダイバーの顔が、正面からの劇的なアップで浮かび上がっている。ヘルメットの分厚い円形ガラスからは、彼の穏やかな表情がよく見える。ヘルメットの内側には小さな気泡が浮き上がり、内壁には水滴が付着している。彼は開いた本を注意深く持ち、水中の流れにページを静かになびかせている。その本は、水中の環境とは対照的に、乾いて無傷のように見えた。柔らかな日差しが水中を突き抜け、彼の顔を照らし、本のページを黄金色に輝かせた。魚たちは泳ぎ回り、その色は水深の深さによって薄らいでいるが、青緑色の背景の前ではまだ鮮やかだ。ダイバーは水中にいるにもかかわらず、読書に完全に没頭し、熱心に文章を読んでいる。文学と深海という超現実的な組み合わせが夢のような雰囲気を醸し出し、思いがけない場所での知識の探求を際立たせている。
スカイリールV1。
コンクAI。
ケリンAI。
実際の結果を見ると、SkyReels V1は、画像の鮮明さやキャラクターの演技の細かさにおいて、クローズドソースモデルの強さを示しています。 また、髪の動きなどのディテールにおいても、SkyReels V1はクローズドソースを凌駕しています。
オープンソースモデルに引けを取らないグラフ生成ビデオ機能
さらに、SkyReels V1は、テキスト生成ビデオだけでなく、画像生成ビデオもサポートしており、現在のオープンソースモデルの中で最も強力なグラフ生成ビデオモデルの1つです。
SkyReels V1のグラフ生成ビデオ機能を検証するため、中国の旧正月映画『哪吒(Ne Zha)鬼子降臨』の人気キャラクター、グラウンドホッグの静止画をモデルに与え、グラウンドホッグが顔を上げ、一瞬ポーズをとってから叫ぶというキューワードを設定しました。 SkyReels V1が生み出す結果は見事なものだ:
議論の余地はある。SkyReels V1は、現在市販されているビデオ用マクロモデルの中で最も性能に精通したモデルです。
2.自社開発の推論フレームワークSkyReels Infer:すべての人のためのオープンソースモデルの構築
さらに価値があるのは、SkyReels V1がオープンソースのモデルとして、結果を生み出す上で大きなブレークスルーを起こしただけでなく、推論効率も非常に高いことだ。 これは、クンルン・ワンウェイが開発した推論フレームワーク「SkyReels Infer」のおかげだ。
自学自習の推論フレームワークの意味するもの
自己研究型の推論フレームワークの重要性とは?
一般的に、オープンソースモデルは、特に大規模なアプリケーションシナリオにおいて、推論フレームワークのために特別に最適化されることはあまりない。 しかし、推論フレームワークを最適化しなければ、推論効率とコストの面でユーザーエクスペリエンスの要求を満たすことは難しい。
その一例として、オープンAIが2024年初頭にSoraをリリースした際、ユーザーからSoraが1分間の動画を生成するのに1時間かかったという報告があった。 これは、Soraがほぼ1年後にリリースされた主な理由の一つであった。 今日に至るまで、多くの大型動画モデルは動画生成に長い待ち時間がかかることに直面している。
KunlunWanweiが開発した推論フレームワークSkyReels Inferは、高いパフォーマンスを維持するだけでなく、効率や使いやすさも考慮している。
スカイリールインファーの優れた性能
SkyReels Inferの推理スピードは素晴らしい。 RTX 4090カード1枚で、544Pの動画を生成するのにわずか80秒しかかからない。 ユーザーは物思いにふけったり、携帯電話をブラウズしていても、すでに動画が生成されているのだ。
SkyReels Inferは、分散マルチカード並列コンピューティングをサポートしています。 これは強力なテクノロジーだ。 簡単に言えば、複数のグラフィックカードがビデオ生成タスクで連携できるようになる。
Context Parallel、CFG Parallel、VAE Parallelなどの技術により、複数のグラフィックスカードが非常に効率的なチームとして連携し、大幅な処理速度を実現します。 これは、複雑なアニメーションや特殊効果ビデオの作成など、大規模な計算を必要とするアプリケーションに特に有効です。
SkyReels Inferは、低ビデオメモリ最適化にも優れています。 fp8量子化とパラメータ・レベル・オフロード技術により、SkyReels Inferは、ビデオ・メモリの少ない一般的なグラフィック・カードでもスムーズに動作する。
グラフィックスメモリは、グラフィックスカードが同時に処理できるデータ量を決定する重要なパラメータである。 以前は、多くのビデオ世代モデルが高いグラフィックスメモリを必要とし、グラフィックスカードの性能不足のために一般ユーザーがそれらを使用できないことがよくありました。 SkyReels Inferの低メモリ最適化は、この状況を完全に変えました。 つまり、ユーザーは高価なハイエンドグラフィックカードを購入することなく、ビデオジェネレーションモデルのパワーを簡単に体験できるようになったのだ。 これにより、AI映像生成の敷居が下がり、より多くのユーザーがAI技術の楽しさを享受できるようになったことは間違いない。
SkyReels Inferは、オープンソースのDiffuserライブラリをベースにしています。 Diffuserライブラリは、豊富な機能とツールを提供する優れたオープンソースライブラリです。 SkyReels InferはDiffuserライブラリをベースとしており、当然ながらその利点の多くを受け継いでいます。 開発者にとっては、SkyReels Inferをすぐに使い始められ、既存のプロジェクトに簡単に統合できることを意味します。
パフォーマンス比較
SkyReels Inferの実際のパフォーマンスは? 崑崙では、SkyReels V1とSkyReels Inferを使って、テンセントのオープンソースHunYuan-Videoと性能を比較しています。 テストの結果、SkyReels V1はHunYuan-Videoよりも544pの動画を生成するスピードとレイテンシーが優れていることがわかりました。
さらに、SkyReels V1はマルチカード展開戦略をサポートしており、最大8枚のグラフィックスカードを同時に利用してコンピューティングタスクを高速化することができます。 さらに、SkyReels V1は、A800のようなハイエンドグラフィックスカードやRTX 4090のようなコンシューマーグラフィックスカードと互換性があり、プロフェッショナルユーザーとカジュアルユーザーの両方のニーズに応えます。
3.オープンソースの表情動作制御アルゴリズム SkyReels A1:業界をリードする「AIフェイススワップ」技術
特筆すべきは、モデルのトレーニングと推論セッションの後により正確で制御可能なキャラクター映像生成を実現するため、崑崙はさらに、映像ベースモデルに基づく表情の動きを制御可能なアルゴリズム「SkyReels A1」をオープンソース化した。
SkyReels A1は、基礎となるトレーニングと推論技術の上に位置するアプリケーションレイヤーのアルゴリズムであり、映画のような表情キャプチャのためのRunwayのAct-One技術をベンチマークしている。
SkyReels A1の「AIフェイススワップ」ゲーム。
Runway Act-One」と「崑崙スカイリールA1」のゲームプレイの核心は「AIフェイススワップ」である。ユーザーはキャラクターAの写真とキャラクターBのビデオクリップを用意するだけで、キャラクターBの表情、動き、セリフをそのままキャラクターAに移植することができる。
ID類似度、画質、表情、ポーズにおいて、SkyReels A1は、業界の類似オープンソースアルゴリズムと比較して、SOTA(State of the Art)の結果を達成しています。業界の類似オープンソースアルゴリズムと比較して、SkyReels A1は、クローズドソースのAct-Oneテクノロジーに近いSOTA(State of the Art)結果を達成しており、世代品質において優位性があります。
ビデオ主導で映画のような表現が可能
第一に、スカイリールA1は、ランウェイ・アクトワンを上回るキャラクター表現のドライブ性を備え、ビデオ主導で映画のような表現キャプチャーを可能にする。
忠実な微量発現の再現
次に、忠実な微細表情の再現です。 SkyReels A1は、ポートレート、半身、全身の構図など、あらゆるヒューマンスケールをベースに、動きのある人物のリアルな映像を生成することができます。 このリアルさは、表情の変化や感情の正確なシミュレーション、肌の質感や体の動きへの追従性など、多次元的なディテールの深さから生まれます。
例えば、横顔の表情コントロール生成:
そして、よりリアルな眉と目の微表情生成:
フェイスホールドとラージモーション処理
SkyReels A1は、微表情だけでなく、顔の保持や大規模なモーション処理などの分野でもRunway Act-Oneを凌駕している。 顔の保持や大規模なモーション処理は、まさに多くの映像生成モデルがエラーを起こしやすい分野である。
例えば、次のような場合、一番右のキャラクターの顔は、元のキャラクター画像と一致せず、大きな歪みが見られる。
SkyReels A1では、頭や自然な体の動きも大きくすることができます。 以下の例では、一番右のキャラクターの体はほとんど動いていません。
SkyReels A1のアルゴリズムが、従来のビデオ制作の複雑なプロセスを簡素化し、コンテンツ制作者に効率的で柔軟性のある低コストのソリューションを提供することで、さまざまなクリエイティブコンテンツの制作に幅広く活用できることがよくわかります。
4.AI短編ドラマ市場における「DeepSeekの瞬間
SkyReels V1とSkyReels A1のオープンソース化は、KunlunWeiの大型映像モデルのオープンソース化計画の第一歩に過ぎません。 今後、崑崙は、プロフェッショナルグレードのミラーコントロールバージョン、720P解像度のモデルパラメータ、より大きなトレーニングデータセット用のモデルパラメータ、フルボディ制御生成をサポートするビデオ生成アルゴリズムなど、関連技術のオープンソースを継続する予定です。
崑崙ワールドワイドの会長兼CEOであるファン・ハンは、Chinese Linuxの創始者であり、Chinese Linux四銃士の一人であり、中国における最も初期のサイバーセキュリティ専門家の一人であり、インターネット業界において30年の経験を有している。 1994年からオープンソース運動に積極的に参加し、インターネットにおけるオープンソースの概念を早くから提唱してきた。
ファン・ハンは、オープンソースのビッグモデルは商業的なクローズドソースのビッグモデルを補完し、代替する重要なものであると公言しており、オープンソースを通じて技術の民主化を促進し、業界の敷居を下げることを望んでいる。
早くも2022年12月、崑崙WVは「崑崙天宮」AIGCの全シリーズのアルゴリズムとモデルを発表し、完全なオープンソースを発表した。 崑崙は国内AIGC分野で最も総合的なレイアウトを持つ企業の一つであるだけでなく、AIGCオープンソースコミュニティに専念する中国初の企業でもある。
過去3年間、崑崙万威は天宮シリーズの大型モデルをリリースし、オープンソース化してきた。 2024年4月、崑崙万威は4000億のパラメーターを持つMoEスーパーモデル「天宮3.0」をリリースし、同時にオープンソース化した。 2024年6月、KunlunWeiは2,000億スパースMoEモデルを再びオープンソース化し、1台のRTX 4090サーバーで推論をサポートする初のオープンソース1,000億MoEモデルとなった。 2024年11月、KWLはSkywork-o1-Openと他の一連のモデルをオープンソース化した。
オープンソース技術を信条とする崑崙は、AGI(一般人工知能)の夢を実現するために業界を牽引することを約束する。
2020年にAI分野に参入して以来、崑崙は「演算インフラ-ビッグモデルアルゴリズム-AI応用」という産業チェーン全体のレイアウトを完成させ、多角的なAIビジネスマトリックスを構築した。
AIショートドラマは、崑崙富裕層の多様なAI応用マトリックスの重要なセグメントである。
AIショートドラマは、2025年に高い成長が見込まれる新興市場である。 TikTok for Businessが発表した「2024年ショートドラマ海外マーケティング白書」では、海外市場におけるショートドラマの月間平均利用者数は将来的に2億~3億人に達し、市場規模は100億ドルに達すると予測しており、市場のポテンシャルは大きい。
2024年12月、KunlunWanweiは米国でAIショートドラマプラットフォーム「Skyreels」を発表し、世界のAIエンターテインメント市場におけるKunlunWanweiの重要な一歩を示すとともに、北米の視聴者に新たなインテリジェントショートドラマ体験をもたらした。 SkyReels AIショートドラマプラットフォームは、プロのコンテンツ制作者に強力な制作ツールを提供するだけでなく、AIショートドラマ制作の敷居を大幅に下げ、プロでないユーザーでも簡単に始められるようにした。
世界の映画・テレビ業界におけるAIの広範な影響
AI技術は世界の映画・テレビ業界にどのような革命をもたらすのか?
2024年世界人工知能会議のスピーチで、崑崙ワールドワイドのファン・ハン会長は、AIは海外、特に言語小国において大きな発展の配当を持っていると指摘した。
映画やドラマ業界を例に挙げ、ナイジェリアで映画を制作するのにかかる費用は約2万ドルだと指摘した。 中国が3億人民元かけて制作した『さすらいの地球』や、アメリカが数億ドルかけて制作した『アバター』と比較すると、このような制作費は明らかに競争力がない。 しかし、AI技術の登場がこのギャップを埋めることが期待されている。
私の個人的な予測では、AI技術を使えば、3~5年後には『さまよえる地球』レベルの超大作を製作するコストは数万ドルにまで下がるだろう。 これは海外の多くの地域に大きな発展の機会をもたらすだろう。 小説、音楽、映像、コミックなど、ローカライズされた文化商品を見たがるのはどこの国の人々も同じであり、自国の文化に近いコンテンツを必要としている。 したがって、海外のAIは大きな発展の配当を秘めているのです」。 とファン・ハンは語った。
より小さなレベルでは、AIがもたらす配当は、文化製品の生産コストの指数関数的な削減にあり、これにより「一人一ドラマ」の創造モードが可能になる。 より大きなレベルでは、創作の敷居を下げることで、AIGCテクノロジーは恵まれない文化集団が自らコンテンツを制作する力を与え、グローバルな文化的肯定を促進する。
業界では一般的に、AIの出現は「iPhoneの瞬間」だと考えられているが、ファン・ハンは、AIはむしろ携帯電話のカメラ革命のようなものだと考えている。なぜなら、カメラは撮影方法の変化を引き起こし、その結果、JitterbugやShutterbugのような巨大なショートビデオプラットフォームが生まれたからだ。 同様に、AIは多数の新しいAI UGCプラットフォームを生み出し、パーソナライズされたコンテンツ生産と消費の黄金時代を切り開くだろう。
オープンソース初のAI短編ドラマ制作用映像生成モデル「SkyReels V1」と、SOTA級初の映像ベースモデルによる表情制御アルゴリズム「SkyReels A1」は、まさにAIGC時代の普遍性を加速させるツールです。オープンソース初のAI短編ドラマ制作用映像生成モデル「SkyReels V1」と、初のSOTA級、映像ベースモデルによる表情制御アルゴリズム「SkyReels A1」は、まさにAIGC時代の到来を加速させるツールである。
AIショートドラマ市場は、それに属する「DeepSeekの瞬間」を迎えると予想される。