百度发布文心大模型 4.5 与 X1：多模态能力与深度思考双重进化

47.9K 00

3 月 16 日，百度正式发布了两款全新大模型：文心大模型 4.5 和文心大模型 X1。这两款模型已经在文心一言官网上线，用户可以免费体验。同时，文心大模型 4.5 已经登陆百度智能云千帆大模型平台，企业用户和开发者可以通过 API 进行调用。文心大模型 X1 也将在不久后登陆千帆平台。此外，百度搜索、文心一言 APP 等产品也将陆续接入这两款新模型，为用户带来更加多元化的体验。

文心大模型 4.5：原生多模态，能力更全面

文心大模型 4.5 是百度自主研发的新一代原生多模态基础大模型。它通过多模态联合建模实现协同优化，在多模态理解能力上表现出色。相比之前的版本，文心大模型 4.5 在语言能力、理解、生成、逻辑、记忆等方面都有了显著提升，同时在减少错误信息、逻辑推理和代码能力方面也有了显著进步。

多模态能力

文本能力

文心大模型 4.5 能够综合理解文字、图片、音频、视频等多种形式的内容。例如，在处理包含图表的复杂问题时，它能够准确提取图表中的关键信息，并给出详细的解题步骤和分析，最终得出正确答案。

除了“高智商”，文心大模型 4.5 在理解网络梗图、讽刺漫画等方面也展现出了“高情商”。它能够准确捕捉到这些内容中的隐含信息和幽默元素，并对其进行详细的解释。比如有些“梗图”中蕴含着“连续不一定可导、可导一定连续”的数学概念，它可以清晰的解释其中蕴含的数学概念和画面逻辑。

文心大模型 4.5 的能力提升，得益于以下几项关键技术：

FlashMask 动态注意力掩码： 这项技术能够加速大模型的注意力掩码计算，提高长序列建模能力和训练效率，从而优化模型处理长文本和多轮对话的表现。
多模态异构专家扩展技术： 通过构建针对不同模态特点的异构专家，并结合自适应模态感知损失函数，解决不同模态梯度不均衡的问题，提升多模态融合能力。
时空维度表征压缩技术： 这项技术能够高效压缩图片和视频在时空维度上的语义表征，大幅提升多模态数据训练效率，增强模型从长视频中学习知识的能力。
基于知识点的大规模数据构建技术： 通过知识分级采样、数据压缩与融合、稀缺知识点定向合成等技术，构建高知识密度的预训练数据，提升模型学习效率，降低模型产生错误信息的概率。
基于自反馈的后训练技术： 融合多种评价方式的自反馈迭代式后训练技术，全面提升强化学习的稳定性和鲁棒性，让预训练模型更好地对齐人类意图。

文心大模型 X1：深度思考，能力更全面

文心大模型 X1 具备更强的理解、规划、反思和进化能力，并且支持多模态。它是首个能够自主运用工具的深度思考模型。文心大模型 X1 在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算和工具调用等方面表现尤为出色。

文心大模型 X1 已经支持多种工具，包括高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网页链接读取、TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询等。

例如，在生成《寒窑赋》的改写版本时，文心大模型 X1 展现出了清晰的思维链：首先找到与原文相似的历史人物典故，然后注意文风和句式，接着检查典故的适配度，最后保持行文结构的流畅，生成与原文立意、文风句式基本一致的文本。

文心大模型 X1 的能力提升，得益于以下几项关键技术：

递进式强化学习训练方法： 这种创新性的方法在创作、搜索、工具调用、推理等场景中，全面提升模型的综合应用能力。
基于思维链和行动链的端到端训练： 针对深度搜索、工具调用等场景，根据结果反馈进行端到端模型训练，显著提升训练效果。
多元统一的奖励系统： 建立统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加鲁棒的反馈。

价格与展望

目前，用户可以在文心一言官网免费体验文心大模型 4.5 和文心大模型 X1。在百度智能云千帆大模型平台上，文心大模型 4.5 API 的输入价格低至 0.004 元/千词元，输出价格低至 0.016 元/千词元。文心大模型 X1 也即将在千帆平台上线，输入价格低至 0.002 元/千词元，输出价格低至 0.008 元/千词元。

百度表示，2024 年是大模型技术全面迭代的一年，百度将在人工智能、数据中心、云基础设施上进行更大胆的投入，打造更好、更智能的下一代模型。