智能体驱动的搜索推理引擎，SimpleQA达88.3%准确率

在人工智能领域，搜索引擎的智能化发展一直是备受瞩目的焦点。近期，由Salaheddin Alzubi、Creston Brooks、Purva Chiniya、Edoardo Contente、Chiara von Gerlach、Lucas Irwin、Yihan Jiang、Arda Kaz、Windsor Nguyen、Sewoong Oh、Himanshu Tyagi和Pramod Viswanath等研究人员组成的团队推出了一款名为Open Deep Search（ODS）的开源搜索引擎框架，旨在缩小闭源AI搜索引擎与开源解决方案之间的差距。

创新核心：Open Search Tool与Open Reasoning Agent

ODS的创新之处在于其结合了最新的开源大型语言模型（LLM）与推理智能体，使其能够利用网络搜索工具来回答用户查询。该框架主要由两个组件构成：Open Search Tool和Open Reasoning Agent。

Open Search Tool

Open Search Tool是一款先进的网络搜索工具，其性能超越了现有的闭源搜索引擎。该工具不仅能够对用户查询进行必要的改写，还能从搜索结果中提取相关上下文，并进行分块和重新排序，以确保所有相关搜索结果都被包含在内。此外，Open Search Tool还针对维基百科、ArXiv和PubMed等主要网站进行了定制化处理，进一步提升了搜索结果的准确性和全面性。

图1：用户可以选择插入任何他们选择的基础LLM，并利用Open Deep Search（ODS）的开源框架的优势。ODS由两个组件组成：Open Search Tool和Open Reasoning Agent。查询首先被输入到Open Reasoning Agent中，该智能体协调一组可用的工具来解释和回答查询。最重要的工具是Open Search Tool，它从网络上的多个检索源提供高质量的上下文。在我们的实验中，我们使用Llama3.1-70B和DeepSeek-R1作为基础模型。

Open Reasoning Agent

Open Reasoning Agent是ODS的另一个关键组件，负责解释用户任务并通过调用各种工具来完成查询。该智能体提供了两种版本：基于ReAct的版本（ODS-v1）和基于CodeAct的版本（ODS-v2）。

ODS-v1：采用ReAct框架，结合了Chain-of-Thought（CoT）推理和ReAct智能体。CoT通过鼓励模型在回答问题前进行思考来提升推理能力，而ReAct则通过将推理步骤与动作执行相结合，进一步增强了任务完成和决策能力。ODS-v1还集成了Wolfram Alpha API，用于处理复杂的数学计算。
图2：在ODS-v1中使用的ReAct提示结构示意图。
ReAct框架通过一个标准化的接口实现工具集成：
```
Thought: [推理跟踪] Action: Tool[参数] Observation: [结果]
```
在ODS-v1中，ReAct智能体使用由三个动作选项组成的提示：“继续思考”（=continue.think）用于复杂问题的分解，“搜索”（=search internet）利用OpenPerplex查找事实信息，“计算”（=calculate）连接Wolfram Alpha API处理基础模型通常难以处理的数值计算。
ODS-v2：采用CodeAct框架，利用代码生成和执行来增强推理能力。CodeAct通过生成可执行的Python代码来进行工具调用，显著提升了性能。ODS-v2能够处理更复杂的任务，并支持多工具和智能体的协同工作。
图3：CodeAct智能体在ODS-v2中回答多跳问题。

性能表现：超越闭源解决方案

在两个流行的评估基准测试——SimpleQA和FRAMES上，ODS展现出了卓越的性能。

SimpleQA：ODS-v1和ODS-v2分别达到了87.7%和88.3%的准确率，超过了Perplexity的默认搜索AI（82.4%）和Perplexity Sonar Reasoning Pro（85.8%）。与OpenAI的GPT-4o Search Preview相比，ODS-v2在FRAMES上的表现更胜一筹，而在SimpleQA上的表现也几乎与其持平。
图4：ODS-v1利用Open Search Tool检索到的高质量上下文，通过交叉检查多个来源来识别正确答案。Perplexity Sonar Reasoning Pro未能检索到相关搜索信息。
图5：ODS+DeepSeek-R1正确区分了7月21日和7月20日，2022年作为Kaitlin Armstrong对Moriah Wilson谋杀指控不认罪并被提审的日期。ODS智能体交叉检查了两个冲突的日期，并正确选择了7月21日。相反，Perplexity Pro感到困惑，并给出了错误的答案7月20日，2022年。
FRAMES：ODS-v1+DeepSeek-R1在单次网络搜索的情况下达到了56.7%的准确率，而ODS-v2+DeepSeek-R1通过多次搜索将准确率提升至75.3%，显著超越了现有的最佳基线。
图6：ODS-v1+Llama3.1-70B使用Wolfram计算器工具准确计算出年龄差异，从而得出正确的答案90。相反，Perplexity追求错误的推理路径，报告了79岁的年龄。