Gemini 2.0: новая модель ИИ, созданная для эпохи интеллигенции

Новости ИИОбновлено 1 год назад Круг обмена ИИ

52.7K 00

Письмо от генерального директора Google и Alphabet Сундара Пичаи:

Информация лежит в основе человеческого прогресса. Именно поэтому мы уже 26 лет работаем над тем, чтобы упорядочить информацию в мире и сделать ее доступной и полезной. Именно поэтому мы постоянно расширяем границы искусственного интеллекта, чтобы упорядочить информацию с помощью различных входных данных и сделать ее более полезной благодаря любым выходным данным, которые действительно помогут вам.

Это то, что мы запустили в декабре прошлого года. Близнецы Видение в версии 1.0. Gemini 1.0 - это первая отечественная мультимодальная модель, которая обеспечивает полное понимание текста, видео, изображений, аудио и кода с мультимодальностью и длинными контекстами, а также обрабатывает больше информации.

Сегодня миллионы разработчиков создают продукты с помощью Gemini. Это помогло нам переосмыслить все наши продукты, включая семь основных продуктов с 2 миллиардами пользователей, и создать новые. NotebookLM - отличный пример мультимодальных и длинноконтекстных возможностей, и именно поэтому он так популярен. NotebookLM - отличный пример мультимодальных и длинноконтекстных возможностей, и именно поэтому он так популярен.

В последний год мы работаем над созданием моделей, которые будут более агентурными - моделей, способных глубже понимать окружающий мир, думать на несколько шагов вперед и предпринимать действия под вашим руководством.

Сегодня мы с радостью представляем следующее поколение моделей, созданных для новой эры агентов: Gemini 2.0, нашу самую мощную модель на сегодняшний день. Благодаря новым достижениям в мультимодальных областях (например, нативный вывод изображений и аудио) и возможностям использования нативных инструментов, она позволит нам создать новых агентов ИИ, которые еще на один шаг приблизят нас к реализации нашего видения универсального помощника.

Сегодня мы открываем доступ к версии 2.0 для разработчиков и доверенных тестеров. Мы ускоряем его интеграцию в наши продукты, начиная с Gemini и Search. Начиная с сегодняшнего дня экспериментальная модель Gemini 2.0 Flash будет доступна всем пользователям Gemini. Одновременно с этим мы запускаем новый сервис под названием Глубокое исследование новая функция, которая использует расширенные возможности рассуждений и длительного контекста в качестве помощника исследователя, помогающего изучать сложные темы и составлять отчеты от вашего имени. Теперь она доступна в Gemini Advanced.

Ни на один продукт ИИ не оказал такого влияния, как на поиск. Сейчас наш AI Overview охватывает 1 миллиард пользователей и способен отвечать на совершенно новые типы вопросов, быстро становясь одной из самых популярных функций поиска. Далее мы добавляем в AI Overview расширенные возможности рассуждений Gemini 2.0 для обработки более сложных тем и многоэтапных вопросов, включая сложные математические уравнения, мультимодальные запросы и кодирование. На этой неделе мы начали ограниченное тестирование, а в начале следующего года начнется более широкое внедрение. В течение следующего года мы продолжим внедрять AI Overview во все новые страны и языки.

Достижения Gemini 2.0 стали возможны благодаря нашим инвестициям в инновационные полностековые подходы к ИИ на протяжении более десяти лет. Он основан на специализированном оборудовании, таком как Trillium, наш TPU шестого поколения. TPU поддерживает обучение и выводы Gemini 2.0 на 100%, и сегодня Trillium полностью доступен для заказчиков, которые могут создавать на его основе свои продукты.

Если в Gemini 1.0 речь шла об упорядочивании и осмыслении информации, то в Gemini 2.0 речь идет о том, чтобы сделать информацию более полезной. Мне не терпится увидеть, что принесет эта новая эра".

Анонс Gemini 2.0: новая модель ИИ, созданная для эпохи агентов

Демис Хассабис, генеральный директор Google DeepMind, и Корай Кавуккуоглу, технический директор Google DeepMind, от имени команды Gemini

В течение последнего года мы продолжали добиваться потрясающих успехов в области искусственного интеллекта. Сегодня мы запустили первую модель семейства Gemini 2.0: экспериментальную версию Gemini 2.0 Flash. Это эффективная модель на переднем крае нашей технологии, с низкой задержкой и повышенной производительностью.

Мы также представляем прототип, демонстрирующий границы исследования агентов с помощью мультимодальных возможностей Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash опирается на успех 1.5 Flash, самой популярной модели среди разработчиков, обеспечивая такое же быстрое время отклика и повышенную производительность. Примечательно, что 2.0 Flash даже превосходит 1.5 Pro в ключевых бенчмарках, будучи в два раза быстрее. 2.0 Flash также предлагает новые возможности. Помимо поддержки мультимодальных входов, таких как изображения, видео и аудио, 2.0 Flash теперь поддерживает мультимодальные выходы, такие как встроенное смешивание изображений и текста, а также управляемое преобразование текста в речь (TTS) на разных языках. Кроме того, он может вызывать такие инструменты, как поиск Google, выполнение кода и пользовательские функции сторонних разработчиков.

Наша цель - дать пользователям возможность безопасно и быстро работать с нашими моделями. За последний месяц мы выложили в открытый доступ раннюю экспериментальную версию Gemini 2.0 и получили ценные отзывы от разработчиков.

Gemini 2.0 Flash теперь доступна в качестве экспериментальной модели через Студия искусственного интеллекта Google ответить пением Вертексный искусственный интеллект (используется в форме номинального выражения) Gemini API Доступность для разработчиков. Мультимодальный ввод и вывод текста доступны для всех разработчиков, а функции преобразования текста в речь и генерации изображений доступны для партнеров раннего доступа. Общая доступность появится в январе и будет включать больше размеров моделей.

Чтобы помочь разработчикам создавать динамичные и интерактивные приложения, мы также выпустили новый мультимодальный API реального времени, который поддерживает потоковое аудио и видео в реальном времени, а также использование различных комбинированных инструментов. Более подробную информацию о 2.0 Flash и мультимодальном API реального времени можно найти на нашем сайте Блог разработчика.

Gemini 2.0 доступен в приложении Gemini, нашем помощнике с искусственным интеллектом.

Начиная с сегодняшнего дня, пользователи Gemini по всему миру могут получить доступ к оптимизированной для чата версии 2.0 Flash Experiment через выпадающее меню модели на настольных компьютерах и в мобильном интернете, которая вскоре появится в мобильном приложении Gemini. С этой новой моделью пользователи смогут использовать Gemini Assistant еще более полезным способом.

В начале следующего года мы распространим Gemini 2.0 на другие продукты Google.

Разблокировка опыта агентов с помощью Gemini 2.0

Возможности Gemini 2.0 Flash по работе с родным пользовательским интерфейсом, а также другие улучшения, такие как мультимодальные рассуждения, понимание длительного контекста, выполнение и планирование сложных инструкций, комбинаторные вызовы функций, использование родных инструментов и улучшенная задержка, позволяют создать совершенно новый класс агентов.

Практическое применение агентов искусственного интеллекта - это область исследований, полная захватывающих возможностей. Мы исследуем эту новую область с помощью ряда прототипов, которые помогают людям выполнять задачи и решать проблемы. Среди этих прототипов - обновленная версия Project Astra, исследовательского прототипа, изучающего будущие возможности ИИ-помощников общего назначения; недавно запущенный Project Mariner, который исследует будущее взаимодействия человека и агента, начиная с браузера; и Jules, кодовый агент на базе ИИ, помогающий разработчикам.

Мы все еще находимся на ранних стадиях разработки, но нам не терпится увидеть, как доверенные тестеры используют эти новые функции и чему мы можем научиться, чтобы сделать их доступными для большего количества продуктов в будущем.

Проект "Астра": мультимодальные понимающие агенты в реальном мире

После нашей конференции по вводу/выводу Выпуск проекта "Астра С тех пор мы получали информацию от доверенных тестеров, использующих телефоны на базе Android. Их бесценные отзывы помогли нам лучше понять, как работают ИИ-помощники общего назначения на практике, включая безопасность и этические последствия.Улучшения в последней версии поддержки Gemini 2.0 включают:

Повышение способности к диалогу: Project Astra теперь может вести беседы на нескольких и смешанных языках, лучше понимать акценты и редкую лексику.
Новые возможности использования инструментов: С Gemini 2.0 Project Astra получает доступ к Google Search, Lens и Maps, что делает его еще более полезным в повседневной жизни.
Улучшение памяти: Мы улучшили возможности памяти Project Astra, сохранив при этом ваш контроль. Теперь он поддерживает до 10 минут внутрисеансовой памяти и запоминает больше ваших прошлых разговоров, делая их более личными.
Улучшенная латентность: Благодаря новым возможностям потоковой передачи и собственному пониманию аудио, агенты могут понимать язык с задержкой, близкой к задержке человеческого диалога.

Мы работаем над тем, чтобы привнести эти функции в продукты Google, такие как Близнецы приложениях (наших ассистентах с искусственным интеллектом) и в других формах, например в очках. В то же время мы расширяем нашу программу Trusted Tester, в которую входит все больше людей, в том числе группа, которая вскоре начнет тестировать Project Astra на прототипе очков.

Проект Mariner: интеллектуальные агенты для помощи в решении сложных задач

Project Mariner - это ранний исследовательский прототип, созданный на базе Gemini 2.0 для изучения будущего взаимодействия человека и компьютера, начиная с вашего браузера. Как исследовательский прототип, он понимает информацию на экране вашего браузера, включая пиксели и элементы веб-страницы, такие как текст, код, изображения и формы, и использует эту информацию для выполнения задач с помощью экспериментального плагина Chrome.

существовать Бенчмаркинг WebVoyagerВ этом тесте, оценивающем производительность интеллектуальных агентов в сквозных реальных веб-задачах, Project Mariner реализовал конфигурацию с одним агентом и 83,51 Обновление TP3T.

Хотя Project Mariner еще находится на ранней стадии, он демонстрирует техническую возможность навигации в браузере, но точность и скорость выполнения заданий в настоящее время невелики и будут быстро улучшаться в будущем.

Чтобы создать этот проект безопасно и ответственно, мы активно изучаем новые виды рисков и методы их снижения, сохраняя при этом участие человека. Например, Project Mariner может вводить, прокручивать или нажимать только в активной вкладке браузера и запрашивать у пользователя окончательное подтверждение перед выполнением некоторых важных действий, таких как совершение покупки.

Доверенные тестеры начали тестировать Project Mariner с помощью экспериментального плагина для Chrome, пока мы обсуждаем его с веб-экосистемой.

Jules: интеллектуальные агенты для разработчиков

Далее мы изучаем, как мы можем помочь разработчикам с помощью Jules - экспериментального ИИ-агента для анализа кода, интегрированного непосредственно в рабочие процессы GitHub, который решает проблемы, создает планы и выполняет их, причем под руководством и контролем разработчика. Эта работа - часть нашей долгосрочной цели по созданию агентов ИИ, способных помочь во всех областях, включая кодинг.

Более подробную информацию об этом продолжающемся эксперименте можно найти на нашем сайте Записи в блоге разработчика.

Интеллектуальные агенты для игр и других областей

Google DeepMind уже давно использует игры, чтобы помочь моделям ИИ улучшить следование правилам, планирование и логику. Например, на прошлой неделе мы запустили Джинн 2Gemini 2.0 - это модель искусственного интеллекта, способная генерировать бесконечное множество игровых 3D-миров на основе всего лишь одного изображения. Опираясь на это наследие, мы использовали Gemini 2.0 для создания интеллектуального агента, который помогает вам ориентироваться в виртуальном мире видеоигры. Он может рассуждать, основываясь исключительно на действиях на экране, и предлагать дальнейшие шаги через диалог в реальном времени.

Мы сотрудничаем с ведущими разработчиками игр, такими как Supercell, чтобы проверить способность этих агентов интерпретировать правила и задачи в самых разных играх, от стратегий, таких как Clash of Clans, до симуляторов фермы, таких как Hay Day.

Помимо того, что эти агенты служат виртуальными игровыми компаньонами, они могут подключаться к огромному количеству игровых знаний в Интернете с помощью поиска Google.

Помимо изучения возможностей интеллектуальных агентов в виртуальных мирах, мы также экспериментируем с применением возможностей пространственного мышления Gemini 2.0 в области робототехники. Пока мы находимся на ранних стадиях, мы с воодушевлением смотрим на потенциал интеллектуальных агентов в физических средах.

Узнать больше об этих исследовательских прототипах и экспериментах можно на сайте labs.google.

Ответственное строительство в эпоху интеллектуальных агентов

Gemini 2.0 Flash и наши исследовательские прототипы позволяют нам тестировать и повторять новые функции в передовых исследованиях в области ИИ, которые в конечном итоге сделают продукты Google более полезными.

Разрабатывая эти новые технологии, мы осознаем их ответственность и обеспокоены многочисленными проблемами, которые возникают в связи с агентами ИИ в плане безопасности. В результате мы применяем исследовательский и поэтапный подход к разработке, работая над несколькими прототипами, итеративно внедряя обучение безопасности, сотрудничая с доверенными испытателями и внешними экспертами, а также проводя обширную оценку рисков и экспертизу безопасности и защиты.

Пример:

В рамках процесса обеспечения безопасности мы работаем с Комитетом по ответственности и безопасности (RSC), постоянно действующей внутренней аналитической группой, для выявления и понимания потенциальных рисков.
Возможности Gemini 2.0 в области выводов позволяют значительно усовершенствовать нашу методологию тестирования "красных команд" с помощью ИИ, в том числе перейти от простого обнаружения риска к автоматической генерации оценочных и обучающих данных для снижения риска. Это означает, что мы можем более эффективно оптимизировать безопасность наших моделей в масштабе.
Поскольку мультимодальный характер Gemini 2.0 увеличивает сложность потенциальных результатов, мы продолжим оценивать и обучать модели обработке изображений и аудио, чтобы повысить безопасность.
В рамках проекта "Астра" мы изучаем возможные способы защиты от случайного обмена конфиденциальной информацией между пользователями и агентами, а также встроили средства контроля конфиденциальности, чтобы пользователи могли легко удалять сеансы. Мы также продолжаем изучать способы обеспечения того, чтобы агенты ИИ выступали в качестве надежных источников информации и не предпринимали непреднамеренных действий от имени пользователей.
В рамках Project Mariner мы работаем над тем, чтобы модель отдавала предпочтение выполнению инструкций пользователя, а не попыткам внедрения сторонних подсказок, что позволит ей выявлять потенциально вредоносные инструкции из внешних источников и предотвращать злоупотребления. Благодаря этому пользователи не будут подвергаться мошенничеству и фишинговым атакам из-за вредоносных инструкций, скрытых в электронных письмах, документах или на веб-сайтах.

Мы твердо убеждены, что единственный способ создать искусственный интеллект - это с самого начала проявить ответственность, и по мере продвижения моделей и интеллектуальных агентов мы будем продолжать уделять приоритетное внимание безопасности и ответственности как ключевым элементам процесса разработки моделей.

Gemini 2.0, интеллектуальные агенты и будущее

Сегодняшний релиз знаменует новую главу в нашем моделировании Gemini. С выходом Gemini 2.0 Flash и запуском серии исследовательских прототипов, изучающих возможности агентов, мы достигли захватывающей вехи в эре Gemini. Мы с нетерпением ждем продолжения безопасного исследования всех новых возможностей при создании искусственного интеллекта общего назначения (ИИО).