Google, Gemini 2.5 출시: '사고' 기능 대폭 개선

54.4K 00

구글 딥마인드는 2025년 3월 25일(3월 26일 최종 업데이트)에 가장 똑똑한 AI 모델 제품군이라고 주장한 Gemini 2.5. 의 첫 데뷔작인 Gemini 2.5 Pro Experimental 버전은 여러 벤치마크에서 우수한 성적을 거두었으며, 특히 추론 및 코딩 기능에서 상당한 개선이 있었음을 보여주었습니다. LMArena 차트에서 큰 차이로 1위를 차지했습니다.

"사고 모델": 예측 그 이상, 추론 그 이상

Gemini 2.5 이 시리즈는 Google에서 "사고 모델"로 정의합니다. 이 개념의 핵심은 복잡한 문제를 처리할 때 성능과 정확성을 향상시키기 위해 응답을 생성하기 전에 내부 '사고' 또는 추론 프로세스에 참여하는 모델의 능력입니다. AI에서 '추론'하는 능력은 단순한 분류와 예측을 넘어 정보를 분석하고, 논리적으로 추론하고, 맥락과 뉘앙스를 이해하고, 그에 따라 정보에 입각한 결정을 내리는 능력까지 포함합니다.

연구원들은 오랫동안 강화 학습과 연쇄적 사고 힌트 등 AI 추론을 개선하는 방법을 모색해 왔습니다. 이러한 탐색을 바탕으로 Google은 이전에 최초의 '사고 모델'을 출시했습니다. Gemini 2.0 Flash Thinking. 의 출시는 Gemini 2.5 구글은 향후 모든 모델에 이러한 '사고' 기능을 탑재하여 더 복잡한 문제를 해결하고 더 강력하고 더 나은 상황 인식 에이전트를 지원할 것이라고 밝혔습니다. 이 '사고' 기능은 더 복잡한 문제를 해결하고 더 강력하고 맥락을 인식하는 에이전트를 지원하기 위해 모든 모델에 내장되어 있습니다. 이러한 '사고'와 '답변'의 메커니즘은 AI 모델에서 흔히 발생하는 '착각' 현상을 줄이고 답변의 신뢰성을 향상시키는 데 도움이 될 것으로 생각됩니다.

Gemini 2.5 Pro Experimental 성능

Google에서 발표한 정보에 따르면Gemini 2.5 Pro Experimental 복잡한 작업을 처리하는 데 있어 현재 최고 수준입니다. 다음 분야에서 인간의 선호도를 측정하는 데 매우 능숙합니다. LMArena 차트에서 상당한 선두를 차지한다는 것은 일반적으로 모델이 강력할 뿐만 아니라 출력물의 스타일, 일관성 및 유용성 또한 사용자가 선호한다는 것을 의미합니다.

구체적인 벤치마크는 다음과 같습니다:

추론 능력이 모델은 고급 추론 기술이 필요한 수학 및 과학 벤치마크 테스트에 유용합니다(예 GPQA 노래로 응답 AIME 2025) 테스트 시간을 늘리는 트릭(다수결 투표 등)을 사용하지 않고도 최고의 성능을 보였습니다. 수백 명의 도메인 전문가가 인간의 지식과 추론의 경계를 평가하기 위해 고안된 이 테스트에서 Humanity’s Last Exam 를 데이터 집합에 추가합니다.Gemini 2.5 Pro 외부 툴을 사용하지 않고도 18.8%의 점수를 달성하여 다시 한 번 선두를 차지했습니다.
참고: 위 그림은 추론, 과학, 수학 측면에서 OpenAI GPT-4.5와 다음을 포함하는 모델을 비교한 것입니다. Claude 3.7 소네트 등의 모델명 및 데이터는 Google에서 제공하는 차트에서 가져온 것입니다.
코딩 기술::Gemini 2.5 코딩 측면에서 다음과 비교했을 때 Gemini 2.0 는 시각적으로 매력적인 웹 애플리케이션, 스마트바디 코드 애플리케이션 제작, 코드 변환 및 편집을 전문으로 하며 큰 도약을 이루었습니다. 스마트바디 코드 기능 측정을 위한 업계 표준 SWE-Bench Verified 켜짐, 사용자 지정 스마트 바디 설정을 사용하여 Gemini 2.5 Pro 63.8%의 점수를 달성했습니다. 구글은 또한Gemini 2.5 Pro 한 줄의 프롬프트에 따라 실행 코드를 생성하는 추론 기능을 사용하여 간단한 공룡 비디오 게임을 만들었습니다.

상속 및 개발: 멀티모달리티와 긴 컨텍스트

Gemini 2.5 상속된 Gemini 이 시리즈의 핵심 강점은 기본 멀티모달 기능과 긴 컨텍스트 창입니다.Gemini 2.5 Pro 출시와 동시에 100만 명 지원 토큰 컨텍스트 창(곧 2백만 토큰으로 확장할 계획)을 지원하며, 이 긴 창에서 이전 모델보다 뛰어난 성능을 발휘합니다. 즉, 텍스트, 오디오, 이미지, 비디오, 심지어 전체 코드 베이스가 포함된 방대한 데이터 세트를 이해하고 처리하여 다양한 정보 소스의 복잡한 문제를 처리할 수 있습니다. 따라서 긴 문서를 심층적으로 이해해야 하거나 복잡한 코드 프로젝트를 분석하거나 긴 동영상 콘텐츠를 처리해야 하는 시나리오에 상당한 적용 가능성이 있습니다.

이 표는 3월 26일에 새로운 MRCR(멀티 라운드 코어퍼런스 해상도) 평가를 포함하도록 업데이트되었습니다.

가용성 및 향후 전망

현재.Gemini 2.5 Pro Experimental 이 버전은 다음 버전으로 출시되었습니다. Google AI Studio 개발자에게는 다음과 같은 평가판이 제공되었습니다.Gemini Advanced 사용자는 데스크톱 및 모바일 디바이스의 드롭다운 메뉴에서 이 모델을 사용할 수도 있습니다. 이 모델은 몇 주 내에 다음 플랫폼에 출시될 예정입니다. Vertex AI Google은 또한 향후 몇 주 내에 사용자가 더 높은 요금 한도로 확장된 프로덕션 환경에서 사용할 수 있도록 하는 가격 정보를 발표할 계획입니다.

'실험 중' 태그는 현재 버전이 아직 빠르게 반복되는 중이며 사용자가 사용하는 동안 약간의 불안정성을 경험할 수 있음을 의미하며, Google은 지속적인 개선을 위해 광범위한 피드백을 수집하고자 합니다.Gemini 2.5 이 새로운 언어 모델의 출시, 특히 '사고'에 대한 강조와 벤치마크에서의 강력한 성능은 의심할 여지 없이 대규모 언어 모델링 분야의 또 다른 진전이며, 후속 개발과 실제 적용에 주목할 필요가 있습니다.