Gemini 2.0 출시: 인텔리전스 시대를 위해 구축된 새로운 AI 모델

54.4K 00

구글과 알파벳의 CEO 순다르 피차이가 보낸 편지:

정보는 인류 발전의 핵심입니다. 이것이 바로 26년 동안 전 세계의 정보를 정리하고 접근성과 유용성을 높이기 위해 노력해 온 이유입니다. 또한 다양한 입력을 통해 정보를 정리하고 실제로 도움이 될 수 있는 결과물을 통해 정보를 더욱 유용하게 만들기 위해 끊임없이 AI의 한계를 뛰어넘는 노력을 기울이고 있는 이유이기도 합니다.

이것이 바로 작년 12월에 출시한 기능입니다. 쌍둥이자리 Gemini 1.0의 비전은 텍스트, 비디오, 이미지, 오디오, 코드에 걸쳐 멀티모달과 긴 컨텍스트를 완벽하게 이해하고 더 많은 정보를 처리할 수 있는 최초의 네이티브 멀티모달 모델입니다.

오늘날 수백만 명의 개발자가 Gemini를 사용하여 제품을 개발하고 있습니다. 20억 명의 사용자를 보유한 7개의 핵심 제품을 포함한 모든 제품을 재구상하고 새로운 제품을 개발하는 데 도움이 되었습니다. notebookLM은 멀티모달 및 긴 컨텍스트 기능의 좋은 예이며, 그 인기의 이유입니다. NotebookLM은 멀티모달 및 긴 컨텍스트 기능을 보여주는 좋은 예이며, 그 인기가 높은 이유입니다.

지난 1년 동안 저희는 보다 에이전트적인 모델, 즉 사용자 주변 세계를 더 깊이 이해하고 여러 단계 앞서 생각하며 사용자의 감독 하에 행동할 수 있는 모델을 개발하기 위해 노력해 왔습니다.

오늘, 새로운 에이전트 시대를 위해 구축된 차세대 모델인 지금까지 가장 강력한 모델인 Gemini 2.0을 공개하게 되어 매우 기쁩니다. 멀티모달 영역(예: 기본 이미지 및 오디오 출력)과 기본 도구 사용 기능의 새로운 발전을 통해 범용 어시스턴트라는 비전을 실현하는 데 한 걸음 더 다가갈 수 있는 새로운 AI 에이전트를 구축할 수 있게 될 것입니다.

오늘부터 개발자와 신뢰할 수 있는 테스터에게 2.0을 공개합니다. Gemini와 Search를 시작으로 제품 통합을 가속화하고 있습니다. 오늘부터 모든 Gemini 사용자는 Gemini 2.0 플래시 실험 모델을 사용할 수 있습니다. 이와 동시에 새로운 서비스인 심층 연구 고급 추론과 긴 문맥 기능을 연구 도우미로 사용하여 복잡한 주제를 탐색하고 사용자를 대신하여 보고서를 집계하는 새로운 기능입니다. 이 기능은 이제 Gemini Advanced에서 사용할 수 있습니다.

검색만큼 AI의 영향을 많이 받은 제품은 없습니다. 현재 10억 명의 사용자에게 도달한 AI 개요는 완전히 새로운 유형의 질문에 답할 수 있으며, 가장 인기 있는 검색 기능 중 하나로 빠르게 자리 잡았습니다. 다음으로, 고급 수학 방정식, 멀티모달 쿼리, 코딩 등 더 복잡한 주제와 다단계 질문을 처리할 수 있도록 Gemini 2.0의 고급 추론 기능을 AI 개요에 도입할 예정입니다. 이번 주에 제한적인 테스트를 시작했으며, 내년 초에 더 광범위하게 출시할 예정입니다. 또한 내년에는 더 많은 국가와 언어로 AI 개요를 지속적으로 도입할 예정입니다.

2.0의 발전은 10년이 넘는 기간 동안 AI에 대한 혁신적인 풀스택 접근 방식에 대한 투자를 통해 가능했습니다. 6세대 TPU인 트릴리움과 같은 맞춤형 하드웨어를 기반으로 합니다. TPU는 100%에서 Gemini 2.0 학습 및 추론을 지원하며, 현재 트릴리움은 고객이 제품을 구축하는 데 완벽하게 사용할 수 있습니다.

제미니 1.0이 정보를 정리하고 이해하는 것이었다면, 제미니 2.0은 정보를 더 유용하게 만드는 것입니다. 이 새로운 시대가 어떤 변화를 가져올지 기대가 됩니다.

Gemini 2.0 발표: 상담원 시대를 위해 구축된 새로운 AI 모델

글: 데미스 카사비스, 구글 딥마인드 CEO, 코레이 카부쿠오글루, 구글 딥마인드 CTO(Gemini 팀을 대표하여)

지난 한 해 동안 저희는 인공 지능 분야에서 놀라운 발전을 거듭해 왔습니다. 오늘 저희는 Gemini 2.0 제품군의 첫 번째 모델인 Gemini 2.0 Flash의 실험적 버전을 출시했습니다. 이 모델은 지연 시간이 짧고 성능이 향상된 최신 기술의 최전선에 있는 효율적인 모델입니다.

또한 Gemini 2.0의 기본 멀티모달 기능으로 지원되는 에이전트 연구의 최전선에 대한 프로토타입을 소개합니다.

Gemini 2.0 플래시

Gemini 2.0 Flash는 개발자들 사이에서 가장 인기 있는 모델인 1.5 Flash의 성공을 기반으로 구축되어 동일한 빠른 응답 속도와 향상된 성능을 제공합니다. 놀랍게도 2.0 플래시는 주요 벤치마크에서 1.5 프로보다 두 배 더 빠른 성능을 발휘하며 새로운 기능도 제공합니다. 2.0 Flash는 이미지, 비디오, 오디오와 같은 멀티모달 입력을 지원할 뿐만 아니라 기본적으로 생성된 이미지와 텍스트 믹싱, 제어된 텍스트 음성 변환(TTS) 다국어 오디오와 같은 멀티모달 출력을 지원합니다. 또한 Google 검색, 코드 실행 및 타사 사용자 정의 기능과 같은 도구를 기본적으로 호출할 수 있습니다.

저희의 목표는 사용자가 안전하고 빠르게 모델을 사용할 수 있도록 하는 것입니다. 지난 한 달 동안 Gemini 2.0의 초기 실험 버전을 공유하며 개발자들로부터 소중한 피드백을 받았습니다.

Gemini 2.0 플래시는 현재 실험용 모델로서 Google AI 스튜디오 노래로 응답 버텍스 AI (명목식 형태로 사용됨) Gemini API 개발자가 사용할 수 있습니다. 멀티모달 입력 및 텍스트 출력은 모든 개발자가 사용할 수 있으며, 텍스트 음성 변환 및 기본 이미지 생성 기능은 얼리 액세스 파트너에게 제공됩니다. 일반 버전은 1월에 더 많은 모델과 함께 출시될 예정입니다.

개발자가 동적인 인터랙티브 애플리케이션을 구축할 수 있도록 실시간 오디오 및 비디오 스트리밍 입력과 다양한 조합 도구 사용을 지원하는 새로운 실시간 멀티모달 API도 출시했습니다. 2.0 플래시 및 실시간 멀티모달 API에 대한 자세한 내용은 다음을 참조하세요. 개발자 블로그.

Gemini 2.0은 AI 비서인 Gemini 앱에서 사용할 수 있습니다.

오늘부터 전 세계 Gemini 사용자는 데스크톱과 모바일 웹의 모델 드롭다운 메뉴를 통해 채팅에 최적화된 2.0 플래시 실험 버전에 액세스할 수 있으며, 곧 Gemini 모바일 앱에도 출시될 예정입니다. 이 새로운 모델을 통해 사용자들은 더욱 유용한 방식으로 Gemini 어시스턴트를 경험할 수 있게 될 것입니다.

내년 초에는 Gemini 2.0을 더 많은 Google 제품으로 확장할 예정입니다.

Gemini 2.0으로 상담원 경험 향상하기

Gemini 2.0 Flash의 기본 사용자 인터페이스 액션 기능과 멀티모달 추론, 긴 컨텍스트 이해, 복잡한 명령 추종 및 계획, 조합 함수 호출, 기본 도구 사용, 지연 시간 개선 등의 기타 개선 사항이 결합되어 완전히 새로운 차원의 에이전트 경험을 제공합니다.

AI 에이전트의 실제 적용은 흥미로운 가능성으로 가득한 연구 분야입니다. 저희는 사람들이 작업을 완료하고 문제를 해결하는 데 도움을 주는 일련의 프로토타입을 통해 이 새로운 영역을 탐구하고 있습니다. 이러한 프로토타입에는 범용 AI 비서의 미래 기능을 탐구하는 연구용 프로토타입인 프로젝트 아스트라의 업데이트 버전, 브라우저를 시작으로 인간과 에이전트의 상호작용의 미래를 탐구하는 새로 출시된 프로젝트 마리너, 개발자를 돕는 AI 기반 코드 에이전트인 줄스 등이 있습니다.

아직 개발 초기 단계에 있지만, 신뢰할 수 있는 테스터들이 이 새로운 기능을 어떻게 사용하는지, 그리고 이를 통해 무엇을 배울 수 있는지 살펴보고 향후 더 많은 제품에 적용할 수 있기를 기대합니다.

프로젝트 아스트라: 현실 세계의 멀티모달 이해 에이전트

I/O 컨퍼런스 이후 프로젝트 아스트라 출시 그 이후로 저희는 안드로이드 휴대폰을 사용하는 신뢰할 수 있는 테스터들로부터 학습해 왔습니다. 이들의 귀중한 피드백은 보안 및 윤리적 의미를 포함하여 범용 AI 비서가 실제로 어떻게 작동하는지 더 잘 이해하는 데 도움이 되었으며, 최신 버전의 Gemini 2.0 지원에는 다음과 같은 개선 사항이 포함되어 있습니다:

대화 능력 향상프로젝트 아스트라는 이제 여러 언어와 혼합 언어로 대화할 수 있으며, 악센트와 희귀 어휘를 더 잘 이해할 수 있습니다.
새로운 도구 사용 용량Gemini 2.0을 통해 프로젝트 아스트라는 Google 검색, 렌즈 및 지도에 액세스할 수 있어 일상 생활에서 더욱 유용하게 사용할 수 있습니다.
기억력 향상프로젝트 아스트라의 메모리 기능을 개선하는 동시에 사용자의 통제권을 강화했습니다. 이제 최대 10분의 세션 내 메모리를 지원하며, 과거 대화를 더 많이 기억하여 더욱 개인화된 기능을 제공합니다.
지연 시간 개선새로운 스트리밍 기능과 네이티브 오디오 이해 기능을 통해 상담원은 사람이 대화하는 것과 비슷한 지연 시간으로 언어를 이해할 수 있습니다.

다음과 같은 Google 제품에 이러한 기능을 제공하기 위해 노력하고 있습니다. 쌍둥이자리 앱(AI 비서), 그리고 안경과 같은 다른 형태로 제공됩니다. 이와 동시에, 곧 프로토타입 안경으로 프로젝트 아스트라를 테스트할 그룹을 포함하여 더 많은 사람들을 대상으로 신뢰할 수 있는 테스터 프로그램을 확대하고 있습니다.

프로젝트 마리너: 복잡한 작업을 지원하는 지능형 에이전트

프로젝트 마리너는 브라우저를 시작으로 인간과 컴퓨터의 상호작용의 미래를 탐구하기 위해 Gemini 2.0을 기반으로 구축된 초기 연구용 프로토타입입니다. 연구용 프로토타입으로서 브라우저 화면의 픽셀과 텍스트, 코드, 이미지, 양식 등의 웹 페이지 요소를 포함한 정보를 이해하고 추론하며, 이 정보를 사용해 실험적인 Chrome 플러그인을 통해 작업을 완료합니다.

존재 웹보야저 벤치마킹엔드투엔드 실제 웹 작업에서 지능형 에이전트의 성능을 평가하는 이 테스트에서 프로젝트 마리너는 다음과 같은 단일 에이전트 구성을 구현했습니다. 83.51 TP3T 업데이트.

아직 초기 단계이지만, 프로젝트 마리너는 브라우저에서 내비게이션의 기술적 가능성을 보여주지만 현재 작업 완료의 정확도와 속도는 낮으며 앞으로 빠르게 개선될 것입니다.

이 프로젝트를 안전하고 책임감 있게 구축하기 위해 새로운 유형의 위험과 그 완화 방법을 적극적으로 연구하는 동시에 사람의 개입을 유지하고 있습니다. 예를 들어, 프로젝트 마리너는 브라우저의 활성 탭에서 입력, 스크롤 또는 클릭만 가능하며 구매와 같은 특정 민감한 작업을 수행하기 전에 사용자에게 최종 확인을 요청할 수 있습니다.

웹 생태계와 논의하는 동안 신뢰할 수 있는 테스터들이 실험적인 Chrome 플러그인으로 프로젝트 마리너를 테스트하기 시작했습니다.

Jules: 개발자를 위한 지능형 에이전트

다음으로, 개발자의 지도와 감독 하에 문제를 해결하고 계획을 수립하고 실행하는 GitHub 워크플로에 직접 통합되는 실험적인 AI 기반 코드 인텔리전스 에이전트인 Jules로 개발자를 도울 수 있는 방법을 모색하고 있습니다. 이 작업은 코딩을 포함한 모든 영역에서 도움을 줄 수 있는 AI 에이전트를 구축하려는 장기적인 목표의 일환입니다.

현재 진행 중인 이 실험에 대한 자세한 내용은 다음을 참조하세요. 개발자 블로그 게시물.

게임 및 기타 도메인을 위한 지능형 에이전트

구글 딥마인드는 오랫동안 게임을 사용하여 AI 모델이 규칙, 계획 및 논리를 따르는 능력을 향상시키는 데 도움을 주었습니다. 예를 들어, 지난 주에는 Genie 2Gemini 2.0은 단 하나의 이미지로 무한히 다양한 플레이 가능한 3D 월드를 생성할 수 있는 AI 모델입니다. 유니티는 이러한 레거시를 기반으로 Gemini 2.0을 사용하여 비디오 게임의 가상 세계를 탐색하는 데 도움이 되는 지능형 에이전트를 구축했습니다. 이 에이전트는 화면상의 동작만으로 추론하고 실시간 대화를 통해 다음 단계를 제안할 수 있습니다.

유니티는 슈퍼셀과 같은 선도적인 게임 개발사와 협력하여 클래시 오브 클랜과 같은 전략 게임부터 헤이 데이와 같은 농장 시뮬레이션에 이르기까지 다양한 게임에서 규칙과 과제를 해석하는 에이전트의 능력을 테스트하고 있습니다.

이 에이전트는 가상 게임 동반자 역할을 할 뿐만 아니라 Google 검색을 통해 웹에 있는 풍부한 게임 지식에 연결할 수 있습니다.

가상 세계에서 지능형 에이전트의 기능을 탐구하는 것 외에도 Gemini 2.0의 공간 추론 기능을 로봇 공학 분야에 적용하는 방법도 실험하고 있습니다. 아직 초기 단계이지만, 실제 환경에서의 지능형 에이전트의 잠재력에 대해 기대가 큽니다.

이러한 연구 프로토타입과 실험에 대한 자세한 내용은 labs.google에서 확인할 수 있습니다.

인텔리전트 에이전트 시대에 책임감 있게 구축하기

Gemini 2.0 플래시와 연구용 프로토타입을 통해 최첨단 AI 연구의 새로운 기능을 테스트하고 반복하여 궁극적으로 Google 제품을 더욱 유용하게 만들 수 있습니다.

이러한 새로운 기술을 개발하는 과정에서 저희는 AI 에이전트의 책임을 인식하고 안전과 보안 측면에서 제기되는 많은 문제에 대해 우려하고 있습니다. 따라서 여러 프로토타입을 제작하고, 보안 교육을 반복적으로 실시하고, 신뢰할 수 있는 테스터 및 외부 전문가와 협력하고, 광범위한 위험 평가와 안전 및 보안 평가를 실시하는 등 탐색적이고 점진적인 개발 접근 방식을 취하고 있습니다.

예시:

안전 프로세스의 일환으로 상설 내부 검토 그룹인 책임 및 안전 위원회(RSC)와 협력하여 잠재적 위험을 파악하고 이해합니다.
Gemini 2.0의 추론 기능은 단순히 위험을 감지하는 데 그치지 않고 위험을 완화하기 위한 평가 및 학습 데이터를 자동으로 생성할 수 있도록 진화하는 등 AI 지원 레드팀 테스트 방법론의 상당한 발전을 가능하게 합니다. 즉, 대규모로 모델의 안전성을 보다 효율적으로 최적화할 수 있게 되었습니다.
Gemini 2.0의 멀티모달 특성으로 인해 잠재적인 출력의 복잡성이 증가함에 따라 보안을 개선하기 위해 이미지 및 오디오 입출력을 처리하는 모델을 지속적으로 평가하고 훈련할 예정입니다.
프로젝트 아스트라에서는 사용자가 실수로 상담원과 민감한 정보를 공유하지 않도록 잠재적인 완화 방안을 모색하고 있으며, 사용자가 세션을 쉽게 삭제할 수 있도록 개인정보 보호 제어 기능을 내장하고 있습니다. 또한 AI 에이전트가 신뢰할 수 있는 정보원 역할을 하고 사용자를 대신하여 의도하지 않은 조치를 취하지 않도록 하는 방법도 계속 연구하고 있습니다.
프로젝트 마리너에서는 모델이 제3자의 힌트 주입 시도보다 사용자 지침을 따르는 것을 우선시하도록 하여 외부 출처의 잠재적인 악성 지침을 식별하고 악용을 방지할 수 있도록 노력하고 있습니다. 이를 통해 이메일, 문서 또는 웹사이트에 숨겨진 악성 지침으로 인해 사용자가 사기 및 피싱 공격에 노출되는 것을 방지할 수 있습니다.

유니티는 처음부터 책임을 다하는 것이 AI를 구축하는 유일한 방법이라고 굳게 믿고 있으며, 앞으로도 모델과 지능형 에이전트를 개발하는 과정에서 보안과 책임을 모델 개발 프로세스의 핵심 요소로 우선순위를 정할 것입니다.

제미니 2.0, 지능형 에이전트와 미래

오늘 출시는 Gemini 모델링의 새로운 장을 열었습니다. Gemini 2.0 Flash의 출시와 에이전트의 가능성을 탐색하는 일련의 연구 프로토타입의 출시로 Gemini 시대의 흥미로운 이정표에 도달했습니다. 앞으로도 범용 인공 지능(AGI)을 구축하면서 모든 새로운 가능성을 안전하게 탐색할 수 있기를 기대합니다.