グーグル、AIビデオ「Veo2」、AIマッピング「Imagen3」を発表

40.4K 00

今年初め、Googleは動画生成モデルであるVeoと最新の画像生成モデルであるImagen 3を発表しました。それ以来、YouTubeクリエイターがYouTube Shorts用の動画背景を作成するクリエイティブな可能性を追求し、企業クライアントがVertex AIを使用してクリエイティブなワークフローを強化しています。企業クライアントはVertex AIでクリエイティブなワークフローを強化し、クリエイターはVertex AIを使用することで、クリエイティブなワークフローを強化しています。ビデオFX 歌で応えるイメージFX そのストーリーを伝えるために。映画製作者から企業まで、あらゆる方面のパートナーとともに、私たちはこれらの技術を開発し、進化させ続けています。

真夜中、OpenAIは、彼らのゴミのようなライブストリームが何も見せられなかった後、パーソナライズされたAI検索を投稿した。しかし、グーグルはからかいもマーケティングもせず、Xに2つの大作を無言で投稿した。

本日、Googleは新しいビデオモデル「Veo 2」と最新バージョン「Imagen 3」を発表しました。これらのモデルは現在、VideoFX、ImageFX、そして最新の実験的プロジェクトWhiskでご利用いただけます。

Veo 2：最先端の映像生成技術
Veo 2 は、さまざまなテーマやスタイルで非常に高品質なビデオを作成します。人間のレビュアーによる直接比較では、Veo 2 は主要なモデルに対して最先端の結果を達成しました。

現実世界の物理学や、人間の動きや表情の細部への理解が深まり、全体的なディテールとリアリズムの感覚に貢献します。veo 2は映画撮影の独特な言語を理解しています：ジャンルを提供し、ショットを指定し、映画的な効果を提案するだけで、veo 2はそれを実行します - 最大4Kの解像度で、長さは数分に及ぶこともあります。最大4Kの解像度で、数分に及ぶ長さで。ローアングルからシーンを横切るトラッキングショットや、顕微鏡を覗く科学者のクローズアップを依頼すれば、Veo 2がそれを作成します。プロンプトに「18mm レンズ」と入力するだけで、Veo 2 は、このレンズの特徴である広角効果をキャプチャする方法や、プロンプトに「浅い被写界深度」を追加して背景をぼかし、被写体に焦点を合わせる方法を知っています。

現在最も進化したAI動画モデル「Veo 2」と、AI作画モデルの改良版「Imagen 3」。その仕上がりを見ていた私たち一行は、その吹き上がりに感嘆の声を上げていた。吹っ飛ぶという言葉はほとんど使わないが、AI動画ヴェオ2のエフェクトは本当に、あの運命の2月16日の夜のそらを見ているようで、ちょっと歓声をあげたくさえなった。ひとつひとつ。

I. AIビデオ

オンライン・エフェクト Veo 2 アンビルト・エフェクト

ビデオモデルは、余分な指や予期しないオブジェクトなど、不要な詳細を「幻覚」することがよくありますが、Veo 2ではこのような問題が発生する頻度が低いため、よりリアルな出力が得られます。その結果、よりリアルな出力が得られます。

安全性と責任ある開発へのコミットメントが、Veo 2の設計の指針となりました。私たちは、VideoFX、YouTube、Vertex AIを通じて徐々に展開されるモデルの品質と安全性を特定、理解、改善するために、Veoのユーザビリティを拡張することに注意を払いました。

当社のすべての画像および動画生成モデルと同様に、Veo 2の出力には、AIが生成したコンテンツであることを識別するのに役立つ不可視のSynthID透かしが含まれており、誤報や誤認識の可能性を低減します。

本日、Google Labs の動画生成ツール VideoFX に Veo 2 の新機能を導入し、アクセス可能なユーザーの範囲を拡大します。ウェイティングリストに登録するには、Google Labs にアクセスしてください。また、来年には、Veo 2 を YouTube Shorts やその他の製品にも拡張する予定です。

グーグル自身が、Metaが公開したベンチマークデータセットMovieGenBenchを通して、人間によるオブザーバー・レビューを行い、1003個のデータを作成し、どちらがよりよく機能するかをブラインドでテストさせた。最終的に得られた結果は次のようなものだった。 Google全新发布AI视频Veo2、AI绘图Imagen3

この作品について少し説明すると、総合的な好み（Overall Preference）とプロンプトの順守（Prompt Match）に分かれた2つの表がある。
各グラフの横軸は、Meta、Kerin v1.5、Minimax、Sora Turboの各モデルを比較したもので、Googleが行ったのは、これらのモデルに対するVeo 2のブラインドポイントツーポイントテストである。
本当に、国内モデルが比較のベンチマークとして使えるようになった。

各列は3つの部分で構成され、色は結果の分類を表している：
グリーン・セクション（Veo）：レビュアーが比較で好んだVeo出力の割合。
白い部分（同点）：両者を区別できない、つまり明確な好みがないと考えるレビュアーの割合。
ピンクの部分(Other preferred)：レビュアーは他のモデル(非Veo)のプロポーションを好む。

グーグル・ディープマインドのいつもの太眉スタイルでは、基本的に何もごまかさないので、ご覧の通り、グーグルのVeo 2はほとんどのケースで最適な結果を達成している。
そしてグーグルのレビューでは、Veo 2を除いた他の4機種の中で最強なのはKorin v1.5という、なかなか興味深い結果になっている。そして、ひとつ注目すべきことがある。4K映像をストレート出力できるVeo 2.

彼らがYoutubeにアップした動画もネイティブ4Kで、これはかなり怖い。彼ら自身、現時点での最大の難点であり限界は、やはり動きにあるという。
元の声明は、"複雑なシーンや複雑な動きのあるシーンにおいて、リアルでダイナミックな、あるいは複雑な映像を完全に一貫性をもって作成することは、依然として困難である "というものだった。

II. AIドローイング・イマージェン3

Googleはまた、Imagen 3画像生成モデルを改良し、より明るく、より良い構図の画像を生成できるようになった。フォトリアリズムから印象派、抽象芸術からアニメまで、より多様な芸術スタイルをより正確にレンダリングできるようになった。また、今回のアップグレードにより、より忠実にキューに従うことができるようになり、より豊かなディテールやテクスチャをレンダリングできるようになりました。人間のレビュアーによって行われた主要な画像生成モデルとの比較では、Imagen 3は最先端のレベルに達しました。

本日より、Google Labsの画像生成ツールであるImageFXにおいて、Imagen 3の最新モデルが世界100カ国以上で利用可能になります。詳しくはImageFXをご覧ください。

Veo 2に加え、グーグルのウェーブはAIマッピングImagen 3モデルの改良版もそのまま送り出したが、これは正確にはImagen 3の第2世代であるImagen 3-002モデルである。Imagen 3の第一世代は2024年5月14日、グーグルのI/O開発者会議で発表された。半年後、グーグルは今剣3を大幅に進化させ、第2世代の改良版をリリースしたが、彼ら自身のレビューでは、チャートを真っ向から否定している。

現在、行列はなく、ただプレーすることができる。

入力ボックスに直接「プロンプト」と記入し、再生を開始する。

彼らのプロンプトのデザインだけでなく、非常に興味深い、あなたはプロンプトの奇妙な、奇妙な大規模なシリーズの様々を入力することができ、彼は自動的にあなたを与えるだろう曖昧性解消句昔、ラオ・ルオがやっていたカプセル爆発みたいなものだ。ドロップダウンボックス他のいくつかのオプションも自動的に関連付けられる。

以下は公式に発表されたレンダリング画像である。