AIパーソナル・ラーニング
と実践的なガイダンス

MiniMaxマルチモーダル生成技術が刷新:被写体リファレンス、肖像リファレンス画像でスタイリスティックに一貫した動画を生成

劇場での生活を体験するためにさまざまな役になりきったり、ショットのひとつひとつに振り付けをする監督になったり、脚本家としてパラレルワールドの無限の可能性について書いたり。

コンクAIは、さまざまな人が映画へのアプローチ方法を持つことを可能にする、夢を作る機械です。新年早々、コンクAIは世界中のユーザーに新たなクリエイティブ・ヘルパー「Subject Reference」を提供する。


 

ミニマックス 自社開発の最新ビデオモデル「S2V-01を使用する。シングル・フィギュア・ボディ・リファレンス・アーキテクチャ伝統的なプログラム1%までの入力および計算コストと入力するだけだ。写真だ。これは実現可能である。視覚的ディテールの正確な再現こちらも利用可能高い自由度と組み合わせ可能性. ユーザー待ち時間の大幅な短縮高可用性を実現するためだ。

主なリファレンス機能は現在、グローバルに完全にオンライン化されている。 コンク・ビデオ 創造プラットフォームは即座に体験できる。

 

画像を入力し、高解像度の超大作を出力する

AI映像生成の分野では、ダイナミックな映像の中で、キャラクターの顔をマルチアングルでいかにリアルに安定させるか、連続クリップスプライシングで制作する際に、キャラクターの役割をいかに一貫性の高いものにするかは、業界にとって難しい課題でした。当社では、自社開発の映像モデル「S2V-01」により、ユーザーに最適なソリューションを提供します。

Conch AIで "被写体参照 "機能を選択した後、ユーザーは写真をアップロードするだけで、被写体の役割を特定し、ロックすることができます。テキストボックスにプロンプトワードを入力すると、長い時間待つ必要がなく、創造的で一貫した高品質のビデオを生成することができます。

S2V-01モデルは、写真に写っている性別、年齢、肌の色、顔の構造の違いなど、顔の特徴を正確に識別することができ、生成されたキャラクターは、どのフレームでも安定した一貫性を保つことができる。主人公の表情制御と非主題シーンの質感は、やはりコンクAIの「得意技」だ。

MiniMaxマルチモーダル生成技術の再発明:被写体参照、ポートレートでビデオ生成-1

主な参照+プロンプト:薄暗い部屋で、ゲーム機の光る画面を見つめる少年のアップ。 カメラは目の高さより少し上に位置し、コントローラを軽快に操作する彼の集中した表情に焦点を合わせている。カメラは目の高さより少し上に配置され、彼の指が軽快にコントローラーを操作しているときの集中した表情に焦点を合わせている。ゲームキャラクターが登場し、画面の枠から解き放たれる。

 

MiniMaxマルチモーダル生成技術の再発明:被写体参照、ポートレートでビデオ生成-1

クリエイターのオリヴィオ・サリカス(@OlivioSarikas)は、見る者をおとぎ話の国へと誘うアニメーションの題材として、キャンバスに油絵で描かれたアニメの肖像画をアップロードした。

 

現在、コンチAIは一人の人物を参照する機能にオープンであり、ビデオ被写体によって生成された顔参照として認識可能な顔情報をアップロードする必要がある。将来的には、コンチAIは複数の人物、物体、シーンを参照する機能や、その他の豊富な機能をオープンにしていく予定です。

 

入力と計算のコストを劇的に削減し、ビデオ制作体験を再構築

MiniMaxはその初期から、役割、スタイルなどを含め、画像参照の能力を継続的に探求してきました。数多くの技術的な探求の結果、ピクチャ参照スキームの効果の上限は、主題クラス参照問題に対して十分高く、効果とスケーラビリティを考慮すると、微調整されたLoRA(Low-Rank Adaptation)スキームよりもさらに優れていると考えています。私たちは、優れた技術とは、現実の問題を解決するのに十分な機能を持ちながら、できるだけ幅広いユーザーに役立つものであるべきだと考えています。

MiniMaxの被写体参照スキームは、入力として1つの画像のみを必要とするため、追加の学習計算コストや待ち時間がなく、従来のテキスト生成ビデオやグラフ生成ビデオに近い生成コストとなる。現在のLoRAソリューションと比較すると、被写体参照はユーザーの入力コストと計算コストの両方を1%未満に削減し、ユーザーの待ち時間を大幅に削減し、ユーザー体験を倍増させる。

MiniMaxマルチモーダル生成技術の再発明:被写体参照、ポートレートでビデオ生成-1

主な参考+プロンプト:中世の城の廊下を、凝ったガウンに白い手袋をはめた女性が歩いている。 彼女はカメラに背を向けて走り、そしてカメラに振り返り、その表情は冷静さから恐怖へと変化する。廊下の端は薄暗い。カメラは女性が近づいてくるのを追い、中景からアップに変わり、女性の顔に焦点を合わせる。

 

姿勢、表情、照明など他の情報に邪魔されることなく、被写体そのものの必要な視覚情報(人の顔の特徴など)だけを映像に残すために、MiniMaxはデータ構築、モデルアーキテクチャ、トレーニング戦略について多くの最適化を続けてきました。すでにオンライン化されているS2V-01モデルでは、この2つの側面の重要な効果を同時に達成している:

  • 視覚的なディテールを正確に再現:生成された動画に登場するキャラクターの顔の特徴は、参照画像との類似性が高い;
  • 高い自由度+コンビナトリアル:アイデンティティを表現する顔の特徴を除けば、他のすべての次元は自由度が高い。例えば、キャラクタはテキストで制御して任意のポーズや表情を示すことができ、キャラクタは自然で調和のとれた照明のある任意の環境に配置することができる。

被写体参照技術により、ユーザーはカード抽選による整合性問題の解決に縛られることなく、コンテンツ表現により集中できるようになり、長尺映像コンテンツの制作効率が飛躍的に向上する。あなたの役割は当然、一貫している。

 

視覚モダリティが切り拓くAI共創の時代

AI技術はすでにマイクロフィルム、広告、バラエティ、アニメ、CGエフェクトなどのコンテンツ制作業界に利便性をもたらしたが、映像本体が生成プロセスで崩壊しやすいことが最大の問題であり、コンテンツを提示することはしばしば柔軟性に欠け、断片化された感覚を持っている。

マスターリファレンス機能の開始は、プロのクリエーターに一貫性の高いビジュアル表現とクリエイティブな柔軟性を提供し、ショートビデオや広告を含むいくつかの映像制作業界に破壊的なイノベーションをもたらす。現在、MiniMaxはAPIサービスという形でオープンプラットフォームに被写体参照機能を載せており、企業やプロのクリエイターにより完璧なソリューションを提供するために、マルチ被写体参照という側面で探求を続けていく。

2024年12月、ミニマックスが発売したグラフィカルな動画モデル「I2V-01-Live」が大好評を博し、「コンクAI」の海外アクセス数は2700万件を突破、過去最高を更新し、12月の世界AI動画製品ランキングでトップに立った。

MiniMaxマルチモーダル生成技術の再発明:被写体参照、ポートレートでビデオ生成-1
世界のAIビデオ製品リスト 2024年12月

 

人と世界との関わり方は本質的にマルチモーダルであり、マルチモーダルな理解と生成はまさにAGIとAI共創時代の幕開けにつながる重要なリンクなのです。私たちは、より多くのユーザーがMiniMaxで知能を共創し、Conch AIで創造の喜びを享受することを期待しています。ここでは、被写体参照機能を使った遊び方の教本を用意しましたので、元記事をクリックしてジャンプしてください。MiniMaxとConch AIを応援してくださる皆様、愛してくださる皆様、ありがとうございます。

無断転載を禁じます:チーフAIシェアリングサークル " MiniMaxマルチモーダル生成技術が刷新:被写体リファレンス、肖像リファレンス画像でスタイリスティックに一貫した動画を生成

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語