Gemini 2.0 Flash의 기본 이미지 생성 및 편집 기능을 경험해 보세요.

57.4K 00

작년 12월, Gemini 2.0 Flash는 일부 베타 테스터 그룹을 대상으로 네이티브 이미지 출력 기능을 처음으로 선보였습니다. 현재 개발자는 Gemini 2.0 Flash의 새 버전을 다음과 같이 추가할 수 있습니다. Google AI 스튜디오 지원되는 모든 지역에서 이 새로운 기능을 경험해 보세요. 개발자는 Google을 통해 이 새로운 기능에 액세스할 수 있습니다. AI 스튜디오 (실험용 버전인 gemini-2.0-flash-exp) 및 쌍둥이자리 API를 사용하여 이 새로운 기능을 테스트할 수 있습니다.

Gemini 2.0 Flash는 멀티모달 입력, 향상된 추론 기능 및 자연어 이해 기능을 활용하여 이미지를 생성합니다. 이 기술은 여러 가지 고급 기능을 결합하여 Gemini 2.0 Flash를 이미지 생성에 독보적으로 적합하게 만듭니다.

체험: https://aistudio.google.com/prompts/new_chat (선택: Gemini 2.0 플래시 체험판)

다음은 Gemini 2.0 플래시 멀티모달 출력의 주요 기능에 대한 몇 가지 예시입니다:

1. 텍스트와 그래픽의 결합: 스토리텔링과 시각적 표현의 통일성

Gemini 2.0 Flash는 텍스트 스토리를 기반으로 이미지를 생성하고 스토리텔링 프로세스 전반에 걸쳐 캐릭터와 장면의 일관성을 유지합니다. 또한 사용자는 피드백을 제공할 수 있으며, 모델은 피드백을 바탕으로 스토리 콘텐츠나 이미지 스타일을 조정하여 스토리와 일러스트레이션이 함께 발전할 수 있습니다.

큐 워드: 올챙이들이 엄마를 찾는 이야기를 생성하고, 이야기를 세 개의 이미지로 나누어 먼저 세 이미지의 그림을 개별적으로 생성한 다음 모든 이미지에 해당하는 이야기의 텍스트를 생성합니다.

화면 스타일을 지정하지 않아도 균일하게 유지됩니다.

2. 대화형 이미지 편집: 자연어 기반 반복적 최적화

Gemini 2.0 Flash는 여러 차례의 자연어 대화를 통해 이미지 편집을 지원합니다. 이를 통해 사용자는 이미지를 반복적으로 최적화하거나 다양한 창의적인 방향을 함께 모색할 수 있습니다. 대화가 진행되는 동안 모델은 맥락을 이해하여 원하는 결과를 얻을 때까지 사용자의 지시에 따라 이미지를 점진적으로 조정합니다.

색상을 제외한 세부 사항은 변경하지 않고 텍스트만 편집하라는 메시지가 이번에는 정말 통에 적힌 대로 작동했습니다!

3. 세계 지식의 통합: 보다 정확한 이미지 만들기

다른 이미지 생성 모델과 달리 Gemini 2.0 Flash는 강력한 세계 지식과 추론 기능을 활용하여 보다 정확한 이미지를 생성합니다. 따라서 레시피를 설명하는 데 사용되는 이미지와 같이 고도의 사실성이 요구되는 이미지를 생성하는 데 탁월합니다. Gemini 2.0 Flash는 모든 언어 모델과 마찬가지로 정확성을 위해 노력하지만, 그 지식은 광범위하고 일반적이기 때문에 절대적으로 완벽하지는 않습니다. 즉, 도메인별 전문성 측면에서 모델에 한계가 있을 수 있습니다.

프롬프트 단어: 텍스트 + 이미지 형식의 멕시코 레스토랑 레시피를 생성하는 데 도움을 주세요.

4. 텍스트 렌더링 기능: 긴 텍스트의 정확한 렌더링

대부분의 이미지 생성 모델은 긴 텍스트 시퀀스를 정확하게 렌더링하는 데 어려움을 겪으며, 종종 서식을 잘못 지정하거나 문자를 읽을 수 없거나 철자가 틀린 등의 문제가 발생합니다. 내부 리뷰에 따르면 Gemini 2.0 Flash는 텍스트 렌더링에서 다른 주요 모델보다 성능이 뛰어납니다. 따라서 광고, 소셜 미디어 게시물, 심지어 많은 텍스트를 포함해야 하는 초대장과 같은 이미지 콘텐츠를 제작하는 데 이상적입니다.

힌트: 상단에 '오늘의 핫 뉴스'라는 제목이 적혀 있고 아래에 뉴스의 세부 내용이 적혀 있는 오래된 신문입니다.

중국어는 약간 더 나쁘고 긴 영어 텍스트가 더 좋습니다.

완전한 영어 효과?

이미지 편집의 더 놀라운 예

인물 사진 얼굴 스왑

농담입니다...

표정 레이아웃 미세 조정

여러 사진 요소의 합성

캐릭터의 사진 두 장을 업로드하고, 첫 번째 장은 머스크의 흉상으로, 두 번째 장은 아름다운 여성의 전신 초상화로 선택하여 합성합니다. 이 연극에는 상상의 여지가 많이 있습니다.

오래된 사진 복원

한 번 잘 수정되지 않으면 사진 세부 정보를 확대한 상태에서 여러 번 시도해 볼 수 있습니다.

사진 색칠하기

물론 오래된 사진의 컬러링도 지원합니다.

로고 스타일 변환부터 완성된 인쇄물 프레젠테이션까지

지금 Gemini 이미지 생성 체험하기

개발자는 다음을 사용할 수 있습니다. Gemini API Gemini 2.0 플래시 시작하기 이미지 생성에 대한 자세한 내용은 다음을 참조하세요.(컴퓨터) 파일.

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

AI 에이전트를 구축하거나 대화형 스토리텔링과 같은 아름다운 비주얼을 갖춘 애플리케이션을 개발하거나 대화에서 시각적 아이디어를 구상할 때 Gemini 2.0 Flash를 사용하면 개발자가 단일 모델에서 텍스트와 이미지를 모두 생성할 수 있습니다. Google은 개발자들이 네이티브 이미지 출력 기능을 갖춘 앱을 더 많이 개발하기를 기대하며, Gemini 팀이 가능한 한 빨리 프로덕션 지원 버전을 완성할 수 있도록 개발자들의 피드백을 기다리고 있습니다.