グーグルは先ごろ、同社の動画生成モデル「Veo 2」が正式に統合されたことを発表した。 ジェミニ アドバンスト・サービスと実験的プラットフォームWhiskに導入された。これにより、Google One AI Premiumの契約者は、テキストプロンプトや既存の画像から短い動画コンテンツを直接生成できるようになった。
Veo 2は、テキスト説明を最大8秒、解像度720p、アスペクト比16:9のMP4形式の動画に変換するように設計された先進的な動画生成技術としてGoogleによって位置づけられている。このモデルは、現実的な物理学と人間の動きの法則を理解する点で強化されており、スムーズな動き、リアルなシーン、豊かなディテールを持つビデオクリップを生成することができ、多様なトピックやスタイルをカバーするという。
Geminiにおけるテキストからビデオへの生成
Gemini Advancedでは、ドロップダウンメニューからVeo 2モデルを選択してビデオを作成することができる。プロセスは比較的簡単で、ユーザーがシーンの詳細な説明を入力すると、ジェミニがビデオの生成を試みる。公式デモでは、たとえば、さまざまな生成スタイルが紹介されている:
- シーン1: 白い外骨格スーツを着た2人の人物が氷河の洞窟を歩き、ヘルメットライトが氷壁の中の凍ったキャンディのような物体を照らす。
- サンプルビデオへのリンク:https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__37_aDEwjss.mp4
- シーン2: 居心地の良い森の隠れ家で、特大のメガネをかけたネズミが光るキノコの光を頼りに本を読む。
- サンプルビデオへのリンク:https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Mouse_Reads_Video_Generated.mp4
- シーン3 草に覆われた崖が砂浜につながり、波が打ち寄せ、海中に突き出た海柱が日の出や日没の黄金色の輝きを浴びている。
- サンプルビデオへのリンク:https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__13.mp4
- シーン4 澄み切った青空の下、ピンク、グレー、白のアイスクリームが溶けていく様子を撮影したソマトロピック・スタイルのタイムラプス。
- サンプルビデオへのリンク:https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/KR_Veo2_4.mp4
グーグルは、説明が詳細であればあるほど、ユーザーが最終的な動画をよりコントロールできることを強調している。この機能は、コンセプトを素早く視覚化したり、短いビジュアルストーリーをナレーションしたり、クリエイティブな組み合わせを作ったりするための新たな可能性を開く。生成された動画は、共有ボタンを使ってTikTokやYouTube Shortsなどのプラットフォームに簡単にアップロードできる。
注目すべきは、Veo 2が現在生成する動画の長さは8秒、解像度は720pに制限されていることだ。これは、短編動画プラットフォームや迅速な概念実証のためのニーズの一部を満たすには十分だが、業界が行っていること(例えばOpenAI)とは同じではない。 ソラ 現在のGeminiにおけるVeo 2の使用は、(モデルによって実証されているように)長尺化、高解像度化、物語力の向上といった傾向よりも、軽量で瞬時のオーサリング体験に重点を置いているように見える。さらに、この機能には月間の生成制限があるため、ヘビーユーザーにとっては創作プロセスに影響を与える可能性がある。
このビデオ生成機能は、Gemini Advancedのウェブおよびモバイルユーザーに、Geminiがサポートするすべての言語でグローバルに展開される。
ウィスク・アニメイト:静止画を動かす
Googleは、テキスト生成ビデオに加えて、昨年12月にGoogle Labsによって開始された実験的プロジェクトであるWhisk Animateでも、Veo 2のパワーをWhiskプラットフォームに導入している。
Google One AI Premium加入者は、Whisk Animateを使うことで、作成またはアップロードした静止画を8秒間の動画にすることができる。既存の画像に動きをつけたい人には便利なツールだ。この機能は現在60カ国以上で利用できる。
- Whisk Animate関連紹介ビデオへのリンク:https://www.youtube.com/watch?v=2yYDI-p5aGs(元のリンクはサムネイルで、YouTubeの視聴リンクはこちらと思われます。)
動画生成機能をGeminiとWhiskに統合することは、AIオーサリングツールを既存のエコシステムとサブスクリプションサービスに統合しようとするグーグルの戦略を示している。これにより、ユーザーが高度なAI機能にアクセスして使用するための障壁は低くなるが、特定の有料サブスクリプションに結びつけることもできる。
安全への配慮と業界の責任
動画生成機能の開始とともに、グーグルはセキュリティ対策についても言及した。これには、ポリシーに違反するコンテンツの生成を防ぐための広範な「レッドチーム」と評価が含まれる。
重要なイニシアチブは、Veo 2によって生成されたすべてのビデオにSynthIDデジタル透かしが埋め込まれることである。この電子透かしは、動画のすべてのフレームに埋め込まれるように設計されており、動画がAIによって生成されたことを識別するために使用される。真偽の判別が困難なAI生成コンテンツの普及が進む中、信頼性の高い電子透かし技術の採用は、透明性の向上と偽情報との闘いに不可欠であり、責任あるAI開発に不可欠な要素である。
グーグルはまた、他のジェネレーティブAIツールと同様に、ジェミニの出力はユーザーのプロンプトによって大きく左右されること、場合によっては好ましくないコンテンツを生成する可能性があることを認め、継続的な改善のためにフィードバックボタンから意見を提供するようユーザーに促している。