3 月 16 日,百度正式发布了两款全新大模型:文心大模型 4.5 和文心大模型 X1。这两款模型已经在文心一言官网上线,用户可以免费体验。同时,文心大模型 4.5 已经登陆百度智能云千帆大模型平台,企业用户和开发者可以通过 API 进行调用。文心大模型 X1 也将在不久后登陆千帆平台。此外,百度搜索、文心一言 APP 等产品也将陆续接入这两款新模型,为用户带来更加多元化的体验。
文心大模型 4.5:原生多模态,能力更全面
文心大模型 4.5 是百度自主研发的新一代原生多模态基础大模型。它通过多模态联合建模实现协同优化,在多模态理解能力上表现出色。相比之前的版本,文心大模型 4.5 在语言能力、理解、生成、逻辑、记忆等方面都有了显著提升,同时在减少错误信息、逻辑推理和代码能力方面也有了显著进步。
多模态能力
文本能力
文心大模型 4.5 能够综合理解文字、图片、音频、视频等多种形式的内容。例如,在处理包含图表的复杂问题时,它能够准确提取图表中的关键信息,并给出详细的解题步骤和分析,最终得出正确答案。
除了“高智商”,文心大模型 4.5 在理解网络梗图、讽刺漫画等方面也展现出了“高情商”。它能够准确捕捉到这些内容中的隐含信息和幽默元素,并对其进行详细的解释。比如有些“梗图”中蕴含着“连续不一定可导、可导一定连续”的数学概念,它可以清晰的解释其中蕴含的数学概念和画面逻辑。
文心大模型 4.5 的能力提升,得益于以下几项关键技术:
- FlashMask 动态注意力掩码: 这项技术能够加速大模型的注意力掩码计算,提高长序列建模能力和训练效率,从而优化模型处理长文本和多轮对话的表现。
- 多模态异构专家扩展技术: 通过构建针对不同模态特点的异构专家,并结合自适应模态感知损失函数,解决不同模态梯度不均衡的问题,提升多模态融合能力。
- 时空维度表征压缩技术: 这项技术能够高效压缩图片和视频在时空维度上的语义表征,大幅提升多模态数据训练效率,增强模型从长视频中学习知识的能力。
- 基于知识点的大规模数据构建技术: 通过知识分级采样、数据压缩与融合、稀缺知识点定向合成等技术,构建高知识密度的预训练数据,提升模型学习效率,降低模型产生错误信息的概率。
- 基于自反馈的后训练技术: 融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习的稳定性和鲁棒性,让预训练模型更好地对齐人类意图。
文心大模型 X1:深度思考,能力更全面
文心大模型 X1 具备更强的理解、规划、反思和进化能力,并且支持多模态。它是首个能够自主运用工具的深度思考模型。文心大模型 X1 在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算和工具调用等方面表现尤为出色。
文心大模型 X1 已经支持多种工具,包括高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网页链接读取、TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询等。
例如,在生成《寒窑赋》的改写版本时,文心大模型 X1 展现出了清晰的思维链:首先找到与原文相似的历史人物典故,然后注意文风和句式,接着检查典故的适配度,最后保持行文结构的流畅,生成与原文立意、文风句式基本一致的文本。
文心大模型 X1 的能力提升,得益于以下几项关键技术:
- 递进式强化学习训练方法: 这种创新性的方法在创作、搜索、工具调用、推理等场景中,全面提升模型的综合应用能力。
- 基于思维链和行动链的端到端训练: 针对深度搜索、工具调用等场景,根据结果反馈进行端到端模型训练,显著提升训练效果。
- 多元统一的奖励系统: 建立统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加鲁棒的反馈。
价格与展望
目前,用户可以在文心一言官网免费体验文心大模型 4.5 和文心大模型 X1。在百度智能云千帆大模型平台上,文心大模型 4.5 API 的输入价格低至 0.004 元/千词元,输出价格低至 0.016 元/千词元。文心大模型 X1 也即将在千帆平台上线,输入价格低至 0.002 元/千词元,输出价格低至 0.008 元/千词元。
百度表示,2024 年是大模型技术全面迭代的一年,百度将在人工智能、数据中心、云基础设施上进行更大胆的投入,打造更好、更智能的下一代模型。