昨年12月、Gemini 2.0 Flashは、そのネイティブ画像出力機能を一部のベータテスターに初めて披露した。現在、開発者はGemini 2.0 Flashの新バージョンを グーグルAIスタジオ この新機能をすべてのサポート地域で体験してください。デベロッパーは、Google AIスタジオ (gemini-2.0-flash-expの実験版)と ジェミニ この新機能をテストするためのAPI。
Gemini 2.0 Flashは、マルチモーダル入力、強化された推論機能、および自然言語理解を利用して画像を生成する。このテクノロジーは、Gemini 2.0 Flashを画像生成にユニークに適したものにする、多くの高度な機能を兼ね備えている。
経験: https://aistudio.google.com/prompts/new_chat (セレクト:Gemini 2.0 Flash Experimental)
以下は、Gemini 2.0 Flashマルチモーダル出力のハイライトの例である:
1.テキストとグラフィックの組み合わせ:ストーリーテリングとビジュアル・プレゼンテーションの統一性
Gemini 2.0 Flashは、テキストストーリーに基づいて画像を生成し、ストーリーテリングのプロセスを通じてキャラクターとシーンの一貫性を維持します。さらに、ユーザーはフィードバックを提供することができ、モデルはそのフィードバックに基づいてストーリーの内容や画像のスタイルを調整することができるため、ストーリーとイラストを連動させて進化させることができる。
キュー・ワード:母親を探すオタマジャクシの物語を生成する。物語は3つのイメージに分かれており、まず3つのイメージの絵を個別に生成し、次にすべてのイメージに対応する物語のテキストを生成する。
スクリーンスタイルを指定しなくても、統一されたままです。
2.会話による画像編集:自然言語による反復最適化
Gemini 2.0 Flashは、複数の自然言語対話による画像編集をサポートしています。これにより、ユーザーは画像を繰り返し最適化したり、さまざまなクリエイティブな方向性を一緒に模索したりすることができます。対話の間、モデルは文脈の理解を維持し、希望する結果が得られるまで、ユーザーの指示に従って画像を徐々に調整します。
画像編集のためのテキストのみのプロンプトは、色以外の詳細な変更はなく、今回は本当に書いてあるとおりになった!
3.世界の知識の統合:より正確なイメージの創造
他の画像生成モデルとは異なり、Gemini 2.0 Flashは、その強力な世界知識と推論機能を利用して、より正確な画像を生成する。そのため、例えばレシピを説明するための画像など、高度なリアルさが要求される画像を作成するのに適している。Gemini 2.0 Flashは正確さを追求していますが、他の言語モデルと同様、その知識は幅広く一般的なものであり、絶対的に完全なものではありません。つまり、ドメイン固有の専門知識という点で、モデルには限界があるかもしれない。
プロンプトワード: メキシコ料理レストランのレシピをテキスト+画像形式で作成したいのですが。
4.テキストレンダリング機能:長文の正確なレンダリング
ほとんどの画像生成モデルは、長いテキストシーケンスを正確にレンダリングするのに苦労しており、しばしば、フォーマットミス、判読できない文字、スペルミスなどの問題が発生します。社内レビューによると、Gemini 2.0 Flashは、テキストレンダリングにおいて他の主要モデルを凌駕しています。そのため、広告、ソーシャルメディアへの投稿、さらには多くのテキストを含む必要がある招待状などの画像コンテンツの作成に理想的です。
ヒント:「今日のホットニュース」という見出しが上に書かれ、その下にニュースの詳細が書かれた古い新聞。
中国語はやや悪く、英語の長文の方が良い。
フル・イングリッシュ効果?
画像編集の驚くべき例をもっと見る
ポートレート写真顔交換
冗談だよ。
表情レイアウトの微調整
複数の写真要素の合成
登場人物の写真を2枚アップロードし、1枚目はムスクの胸像、2枚目のチャプターは合成する美女の全身像を選んだ。この芝居には想像の余地がたくさんある。
古い写真の修復
一度でうまく修正できない場合は、写真の細部を拡大しながら何度か試してみるといい。
絵の彩色
もちろん、古い写真の彩色もサポートする。
今すぐジェミニ・イメージ・ジェネレーションを体験
開発者は ジェミニAPI Gemini 2.0 Flash入門 イメージ生成の詳細については、以下を参照してください。(さんぷ.
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp"、
contents=(
"コンテンツを生成する ストーリー 3Dデジタルアート風のかわいいカメの赤ちゃんについて。
「各シーンごとに画像を生成する。
),
config=types.GenerateContentConfig(
response_modalities=["テキスト", "画像"]), config=types.GenerateContentConfig(
),
)
AIエージェントの構築、インタラクティブなストーリーテリングのような美しいビジュアルを持つアプリケーションの開発、対話におけるビジュアルアイデアの発想など、Gemini 2.0 Flashは、開発者が単一のモデルからテキストと画像の両方を生成することを可能にする。 Googleは、開発者がより多くのアプリをネイティブな画像出力で作成することを期待しており、Geminiチームができるだけ早く製品化可能なバージョンを完成できるよう、開発者からのフィードバックを求めている。