Google выпускает Gemini 2.5: значительные улучшения в возможностях "мышления"

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

56.5K 00

Компания Google DeepMind 25 марта 2025 года (последнее обновление - 26 марта) выпустила, как она утверждает, самое умное семейство моделей искусственного интеллекта - Gemini 2.5. Первый дебют Gemini 2.5 Pro Experimental Версия превосходит все остальные бенчмарки, демонстрируя значительное улучшение возможностей рассуждений и кодирования, в частности, а также LMArena Возглавляет чарты со значительным отрывом.

"Модели мышления": больше, чем предсказания, больше, чем рассуждения

Gemini 2.5 Серия определяется Google как "мыслящие модели". В основе этой концепции лежит способность моделей вступать во внутренний процесс "мышления" или рассуждения, прежде чем генерировать ответ, с целью повышения производительности и точности при решении сложных задач. В ИИ способность "рассуждать" выходит за рамки простой классификации и прогнозирования и включает в себя умение анализировать информацию, делать логические выводы, понимать контекст и нюансы, а также принимать обоснованные решения.

Исследователи уже давно изучают способы улучшения рассуждений ИИ, такие как обучение с подкреплением и подсказки в виде цепочки мыслей. Основываясь на этих исследованиях, Google ранее запустила первую "модель мышления". Gemini 2.0 Flash Thinking. Выпуск Gemini 2.5 Google утверждает, что в будущем она встроит эту способность "думать" во все свои модели, чтобы решать более сложные проблемы и поддерживать более мощные агенты, лучше ориентирующиеся в контексте. Способность сначала "думать" будет встроена во все модели для решения более сложных проблем и поддержки более мощных агентов, лучше понимающих контекст. Считается, что этот механизм "думать", а затем "отвечать" поможет уменьшить феномен "иллюзии", распространенный в моделях ИИ, и повысить надежность ответов.

Gemini 2.5 Pro Experimental производительность

Согласно информации, опубликованной компанией GoogleGemini 2.5 Pro Experimental В настоящее время он находится на самом высоком уровне в решении сложных задач. Он очень хорош в измерении человеческих предпочтений в LMArena Значительное преимущество на графиках обычно означает, что модель не только мощная, но и стиль, согласованность и полезность ее результатов также предпочтительны для пользователей.

Что касается конкретных ориентиров:

способность к рассуждению: Модель полезна при проведении контрольных тестов по математике и естественным наукам, требующих развитых навыков рассуждения (например, в случае, если вы не знаете, что делать). GPQA ответить пением AIME 2025) с высочайшей производительностью и без использования ухищрений, увеличивающих время тестирования (например, голосования по большинству голосов). В тесте, предназначенном для оценки границ человеческих знаний и рассуждений, проведенном сотнями экспертов в данной области. Humanity’s Last Exam на наборе данных.Gemini 2.5 Pro Оценка 18,8% была достигнута без использования внешних инструментов, и это снова лидерство.
Примечание: На рисунке выше показано сравнение моделей с точки зрения рассуждений, науки и математики с участием OpenAI GPT-4.5 и Клод 3.7 Названия моделей и данные, такие как Sonnet, взяты из графиков, предоставленных компанией Google.
навыки кодирования::Gemini 2.5 С точки зрения кодирования по сравнению с Gemini 2.0 совершила гигантский скачок вперед, специализируясь на создании визуально привлекательных веб-приложений, приложений для работы с кодами смарт-тела, а также на преобразовании и редактировании кодов. Отраслевой стандарт для измерения возможностей кода смарт-тела SWE-Bench Verified Включите, используя пользовательскую настройку смарт-тела Gemini 2.5 Pro достигла результата 63,8%. google также показал примерGemini 2.5 Pro Простая видеоигра про динозавров была создана с использованием его способности генерировать исполняемый код на основе одной строки подсказок.

Наследственность и развитие: мультимодальность и длительные контексты

Gemini 2.5 унаследовано Gemini Основные достоинства серии: встроенные мультимодальные возможности и длинные контекстные окна.Gemini 2.5 Pro Один миллион пользователей на момент запуска жетон контекстного окна (и планирует расширить его до 2 миллионов токенов в ближайшее время) и превосходит свою модель-предшественницу в этом длинном окне. Это означает, что он может понимать и обрабатывать огромные массивы данных, содержащие текст, аудио, изображения, видео и даже целые базы кода, решая сложные задачи из различных источников информации. Это имеет значительный потенциал для применения в сценариях, требующих глубокого понимания длинных документов, анализа сложных кодовых проектов или обработки длинного видеоконтента.

Таблица была обновлена 26 марта, чтобы включить новую оценку MRCR (Multi Round Coreference Resolution).

Наличие и перспективы на будущее

В настоящее время.Gemini 2.5 Pro Experimental Версия была выпущена в Google AI Studio Разработчикам была предоставлена пробная версия вGemini Advanced Пользователи также могут выбрать модель из выпадающего меню на настольных и мобильных устройствах. Ожидается, что в ближайшие недели модель появится на Vertex AI В ближайшие недели google также планирует объявить цены, которые позволят пользователям использовать его для масштабирования производственных сред с более высокими ограничениями по скорости.

Пометка "Экспериментальная" говорит о том, что текущая версия все еще находится в стадии быстрой доработки и что пользователи могут испытывать некоторую нестабильность при ее использовании, в то время как Google надеется собрать обширные отзывы для постоянного улучшения.Gemini 2.5 Выпуск этой новой языковой модели, особенно ее акцент на "мышлении" и высокие результаты в бенчмарках, несомненно, является еще одним шагом вперед в области крупномасштабного языкового моделирования, а ее последующее развитие и практическое применение заслуживают пристального внимания.