AI个人学习
和实操指南

Gemini 2.0发布:为智能体时代打造的新AI模型

本文于 2024-12-12 10:49 更新,部分内容具有时效性,如有失效,请留言

来自 Google 和 Alphabet CEO Sundar Pichai 的一封信:

信息是人类进步的核心。这正是为什么我们 26 年来一直致力于组织世界信息,并使其易于访问且有用。这也是为什么我们不断推动 AI 的前沿,以便通过各种输入组织信息,并通过任何输出使其更有用,从而真正对你有帮助。


这就是 我们去年 12 月推出 Gemini 1.0 时的愿景。Gemini 1.0 是首个原生多模态模型,通过多模态和长上下文实现了跨文本、视频、图像、音频和代码的全面理解,并处理了更多信息。

如今,数百万开发者正在使用 Gemini 构建产品。它帮助我们重新构想了所有产品——包括拥有 20 亿用户的 7 个核心产品——并创造了新的产品。NotebookLM 是多模态和长上下文能力的一个很好的例子,也是为什么它深受欢迎的原因。

过去一年里,我们一直致力于开发更具代理能力的模型,也就是可以更深入地理解你周围的世界,提前多步思考,并在你的监督下采取行动的模型。

今天,我们很高兴推出为这个新的代理时代打造的下一代模型:Gemini 2.0,这是我们迄今为止最强大的模型。凭借多模态领域的新进展(如原生图像和音频输出)和原生工具使用能力,它将使我们能够构建新的 AI 代理,离实现通用助手的愿景更进一步。

今天我们将 2.0 提供给开发者和受信任的测试者使用。我们正在加速将其集成到我们的产品中,首先是 Gemini 和搜索。从今天开始,我们的 Gemini 2.0 Flash 实验模型将对所有 Gemini 用户开放。同时,我们推出了名为 Deep Research 的新功能,该功能利用高级推理和长上下文能力作为研究助手,帮助探索复杂主题并代你汇总报告。它现已在 Gemini Advanced 中上线。

没有任何产品比搜索更受 AI 的影响。我们的 AI 总览现已覆盖 10 亿用户,能够回答全新的问题类型——迅速成为最受欢迎的搜索功能之一。下一步,我们将把 Gemini 2.0 的高级推理能力引入 AI 总览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。本周我们开始了有限测试,明年初将更广泛推出。接下来的一年,我们还将继续在更多国家和语言中引入 AI 总览。

2.0 的进步得益于我们十多年来对 AI 创新全栈方法的投资。它基于像 Trillium 这样的定制硬件,我们的第六代 TPU。TPU 支持了 100% 的 Gemini 2.0 训练和推理,而今天 Trillium 已 全面上市,客户也可以用它构建产品。

如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 是关于让信息更有用。我迫不及待地想看到这一新时代将带来什么。

 

发布 Gemini 2.0:为代理时代打造的新 AI 模型

由 Google DeepMind CEO Demis Hassabis 和 Google DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写

过去一年里,我们在人工智能领域持续取得了令人惊叹的进展。今天,我们推出了 Gemini 2.0 系列的首个模型:Gemini 2.0 Flash 的实验版本。这是我们技术前沿的高效模型,具有低延迟和增强的性能。

我们还展示了 Gemini 2.0 原生多模态能力支持的代理研究前沿原型。

Gemini 2.0 Flash

Gemini 2.0 Flash 建立在 1.5 Flash 成功的基础上,这是迄今为止开发者中最受欢迎的模型,提供了同样快速的响应时间和增强的性能。值得注意的是,2.0 Flash 在关键基准上甚至超越了 1.5 Pro,其速度快了两倍。2.0 Flash 还带来了新功能。除了支持图像、视频和音频等多模态输入外,2.0 Flash 现在支持多模态输出,例如原生生成的图像与文本混合,以及可控的文本到语音 (TTS) 多语言音频。它还可以原生调用工具,如 Google 搜索、代码执行以及第三方用户定义的功能。

发布 Gemini 2.0:为智能体时代打造的新 AI 模型-1

我们的目标是让用户能够安全快速地使用我们的模型。过去一个月,我们分享了 Gemini 2.0 的早期实验版本,并从开发者那里获得了宝贵反馈。

Gemini 2.0 Flash 现作为实验模型通过 Google AI Studio 和 Vertex AI 的 Gemini API 向开发者提供。多模态输入和文本输出对所有开发者开放,而文本到语音和原生图像生成功能对早期接入伙伴开放。通用可用性将于 1 月随更多模型尺寸发布。

为了帮助开发者构建动态和交互式应用程序,我们还发布了一个新的实时多模态 API,支持实时音频、视频流输入以及多种组合工具的使用。有关 2.0 Flash 和实时多模态 API 的更多信息,请参阅我们的 开发者博客

Gemini 2.0 在 Gemini 应用中提供,我们的 AI 助手

从今天开始,全球 Gemini 用户可以通过桌面和移动网页上的模型下拉菜单访问 2.0 Flash 实验的聊天优化版本,它将在 Gemini 移动应用中很快上线。借助这一新模型,用户可以体验更加有用的 Gemini 助手。

明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品中。

用 Gemini 2.0 解锁代理体验

Gemini 2.0 Flash 的原生用户界面动作能力以及其他改进(如多模态推理、长上下文理解、复杂指令遵循与规划、组合函数调用、原生工具使用和改进的延迟)共同促成了一类全新的代理体验。

AI 代理的实际应用是一个充满令人兴奋可能性的研究领域。我们正通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并解决问题。这些原型包括 Project Astra 的更新版(探索通用 AI 助手未来能力的研究原型);新推出的 Project Mariner(探索人与代理交互的未来,从浏览器开始);以及 Jules,一个 AI 驱动的代码代理,可以帮助开发者。

我们还处于发展的早期阶段,但我们很高兴看到受信任的测试者如何使用这些新功能以及我们可以从中学到什么,以便将来让更多产品能够使用这些功能。

Project Astra: 多模态理解代理在现实世界中的应用

自从我们在 I/O 大会上 发布 Project Astra 以来,我们一直在从使用 Android 手机的受信任测试者那里学习。他们的宝贵反馈帮助我们更好地理解通用 AI 助手在实践中的工作方式,包括安全性和伦理方面的影响。Gemini 2.0 支持的最新版本改进包括:

  • 更好的对话能力:Project Astra 现在可以用多种语言及混合语言进行对话,并且更好地理解口音和罕见词汇。
  • 新的工具使用能力:借助 Gemini 2.0,Project Astra 可使用 Google 搜索、Lens 和 Maps,使其在日常生活中更实用。
  • 更好的记忆能力:我们改进了 Project Astra 的记忆能力,同时保持你对其的控制权。它现在支持最多 10 分钟的会话内记忆,并能记住你过去更多的对话,从而更个性化。
  • 改进的延迟:通过新的流式功能和原生音频理解,代理能以接近人类对话的延迟理解语言。

我们正在努力将这些功能引入 Google 产品,例如 Gemini 应用(我们的 AI 助手),以及其他形式如眼镜。同时,我们也在将受信任测试者计划扩展到更多人,包括即将开始在原型眼镜上测试 Project Astra 的小组。

Project Mariner:帮助完成复杂任务的智能代理

Project Mariner 是基于 Gemini 2.0 构建的早期研究原型,旨在探索人机交互的未来,起点是您的浏览器。作为一个研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码、图像和表单),并通过实验性的 Chrome 插件使用这些信息为您完成任务。

在 WebVoyager 基准测试中,该测试评估了智能代理在端到端真实世界网页任务中的表现,Project Mariner 以单代理配置实现了 83.5%的最新成果

尽管仍处于早期阶段,Project Mariner 显示出在浏览器中导航的技术可行性,但目前完成任务的准确性和速度较低,未来将迅速改善。

为了安全和负责任地构建这一项目,我们正在积极研究新类型的风险及其缓解方法,同时保持人工参与。例如,Project Mariner 只能在浏览器的活动标签页中键入、滚动或点击,并在执行某些敏感操作(如购买)之前请求用户的最终确认。

受信任的测试人员已开始通过实验性的 Chrome 插件测试 Project Mariner,同时我们也与网络生态系统展开讨论。

Jules:为开发者打造的智能代理

接下来,我们正在探索如何通过 Jules —— 一个实验性的 AI 驱动代码智能代理,直接集成到 GitHub 工作流中,来为开发者提供帮助。Jules 能够解决问题、制定计划并执行计划,所有操作都在开发者的指导和监督下进行。这项工作是我们构建能够在所有领域(包括编码领域)提供帮助的 AI 代理长期目标的一部分。

关于这一持续实验的更多信息,请参阅我们的 开发者博客文章

游戏和其他领域的智能代理

Google DeepMind 在利用游戏帮助 AI 模型提升遵循规则、规划和逻辑方面拥有悠久历史。例如,上周我们推出了 Genie 2,这是一种能够仅从单一图像生成无限多样可玩的 3D 世界的 AI 模型。基于这一传统,我们使用 Gemini 2.0 构建了可以帮助您在视频游戏虚拟世界中导航的智能代理。它能够仅基于屏幕上的动作进行推理,并通过实时对话提供下一步建议。

我们正在与像 Supercell 这样的领先游戏开发商合作,测试这些代理解释规则和挑战的能力,涵盖从策略游戏如《Clash of Clans(部落冲突)》到农场模拟游戏如《Hay Day(卡通农场)》的多样化游戏。

除了作为虚拟游戏伴侣,这些代理还能利用 Google 搜索,连接到网络上的丰富游戏知识。

除了探索虚拟世界中的智能代理能力,我们还在实验如何将 Gemini 2.0 的空间推理能力应用于机器人领域。尽管仍处于早期阶段,但我们对智能代理在物理环境中的潜力感到兴奋。

您可以在 labs.google 上了解更多关于这些研究原型和实验的信息。

在智能代理时代负责任地构建

Gemini 2.0 Flash 和我们的研究原型使我们能够测试并迭代前沿 AI 研究中的新功能,这些功能最终将使 Google 产品更加有用。

在开发这些新技术的过程中,我们认识到其责任,并关注 AI 代理在安全和安保方面引发的诸多问题。因此,我们采取探索性和渐进式的方法进行开发,研究多个原型,迭代实施安全训练,与可信测试者和外部专家合作,并进行广泛的风险评估和安全保障评估。

例如:

  • 作为安全流程的一部分,我们与我们的责任和安全委员会(RSC)这一长期内部审查小组合作,以识别和理解潜在风险。
  • Gemini 2.0 的推理能力在我们的 AI 辅助红队测试方法中实现了重大进步,包括从仅仅检测风险发展到现在能够自动生成评估和训练数据以缓解风险。这意味着我们可以更高效地大规模优化模型的安全性。
  • 随着 Gemini 2.0 的多模态性增加了潜在输出的复杂性,我们将继续评估和训练模型,处理图像和音频输入输出,以帮助提高安全性。
  • 在 Project Astra 中,我们正在探索针对用户无意间与代理共享敏感信息的潜在缓解措施,并且我们已经内置了隐私控制,用户可以轻松删除会话。我们还在继续研究如何确保 AI 代理作为可靠的信息来源,并且不会代表用户采取意外行动。
  • 在 Project Mariner 中,我们正在努力确保模型优先遵循用户指令,而不是第三方的提示注入尝试,使其能够识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户因电子邮件、文档或网站中隐藏的恶意指令而遭受欺诈和网络钓鱼攻击。

我们坚信,构建 AI 的唯一方法是从一开始就负责任,并且我们将继续优先将安全性和责任作为模型开发过程的关键要素,随着我们推进模型和智能代理的开发。

Gemini 2.0、智能代理及未来

今天的发布标志着我们 Gemini 模型的新篇章。随着 Gemini 2.0 Flash 的发布,以及探索代理可能性的系列研究原型的推出,我们已经达到了 Gemini 时代的一个令人兴奋的里程碑。我们期待着在构建通用人工智能(AGI)的过程中,继续安全地探索所有新可能性。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » Gemini 2.0发布:为智能体时代打造的新AI模型

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文