在人工智能领域,搜索引擎的智能化发展一直是备受瞩目的焦点。近期,由Salaheddin Alzubi、Creston Brooks、Purva Chiniya、Edoardo Contente、Chiara von Gerlach、Lucas Irwin、Yihan Jiang、Arda Kaz、Windsor Nguyen、Sewoong Oh、Himanshu Tyagi和Pramod Viswanath等研究人员组成的团队推出了一款名为Open Deep Search(ODS)的开源搜索引擎框架,旨在缩小闭源AI搜索引擎与开源解决方案之间的差距。
创新核心:Open Search Tool与Open Reasoning Agent
ODS的创新之处在于其结合了最新的开源大型语言模型(LLM)与推理智能体,使其能够利用网络搜索工具来回答用户查询。该框架主要由两个组件构成:Open Search Tool和Open Reasoning Agent。
Open Search Tool
Open Search Tool是一款先进的网络搜索工具,其性能超越了现有的闭源搜索引擎。该工具不仅能够对用户查询进行必要的改写,还能从搜索结果中提取相关上下文,并进行分块和重新排序,以确保所有相关搜索结果都被包含在内。此外,Open Search Tool还针对维基百科、ArXiv和PubMed等主要网站进行了定制化处理,进一步提升了搜索结果的准确性和全面性。
图1:用户可以选择插入任何他们选择的基础LLM,并利用Open Deep Search(ODS)的开源框架的优势。ODS由两个组件组成:Open Search Tool和Open Reasoning Agent。查询首先被输入到Open Reasoning Agent中,该智能体协调一组可用的工具来解释和回答查询。最重要的工具是Open Search Tool,它从网络上的多个检索源提供高质量的上下文。在我们的实验中,我们使用Llama3.1-70B和DeepSeek-R1作为基础模型。
Open Reasoning Agent
Open Reasoning Agent是ODS的另一个关键组件,负责解释用户任务并通过调用各种工具来完成查询。该智能体提供了两种版本:基于ReAct的版本(ODS-v1)和基于CodeAct的版本(ODS-v2)。
- ODS-v1:采用ReAct框架,结合了Chain-of-Thought(CoT)推理和ReAct智能体。CoT通过鼓励模型在回答问题前进行思考来提升推理能力,而ReAct则通过将推理步骤与动作执行相结合,进一步增强了任务完成和决策能力。ODS-v1还集成了Wolfram Alpha API,用于处理复杂的数学计算。
图2:在ODS-v1中使用的ReAct提示结构示意图。
ReAct框架通过一个标准化的接口实现工具集成:
Thought: [推理跟踪] Action: Tool[参数] Observation: [结果]
在ODS-v1中,ReAct智能体使用由三个动作选项组成的提示:“继续思考”(=continue.think)用于复杂问题的分解,“搜索”(=search internet)利用OpenPerplex查找事实信息,“计算”(=calculate)连接Wolfram Alpha API处理基础模型通常难以处理的数值计算。
- ODS-v2:采用CodeAct框架,利用代码生成和执行来增强推理能力。CodeAct通过生成可执行的Python代码来进行工具调用,显著提升了性能。ODS-v2能够处理更复杂的任务,并支持多工具和智能体的协同工作。
图3:CodeAct智能体在ODS-v2中回答多跳问题。
性能表现:超越闭源解决方案
在两个流行的评估基准测试——SimpleQA和FRAMES上,ODS展现出了卓越的性能。
- SimpleQA:ODS-v1和ODS-v2分别达到了87.7%和88.3%的准确率,超过了Perplexity的默认搜索AI(82.4%)和Perplexity Sonar Reasoning Pro(85.8%)。与OpenAI的GPT-4o Search Preview相比,ODS-v2在FRAMES上的表现更胜一筹,而在SimpleQA上的表现也几乎与其持平。
图4:ODS-v1利用Open Search Tool检索到的高质量上下文,通过交叉检查多个来源来识别正确答案。Perplexity Sonar Reasoning Pro未能检索到相关搜索信息。
图5:ODS+DeepSeek-R1正确区分了7月21日和7月20日,2022年作为Kaitlin Armstrong对Moriah Wilson谋杀指控不认罪并被提审的日期。ODS智能体交叉检查了两个冲突的日期,并正确选择了7月21日。相反,Perplexity Pro感到困惑,并给出了错误的答案7月20日,2022年。
- FRAMES:ODS-v1+DeepSeek-R1在单次网络搜索的情况下达到了56.7%的准确率,而ODS-v2+DeepSeek-R1通过多次搜索将准确率提升至75.3%,显著超越了现有的最佳基线。
图6:ODS-v1+Llama3.1-70B使用Wolfram计算器工具准确计算出年龄差异,从而得出正确的答案90。相反,Perplexity追求错误的推理路径,报告了79岁的年龄。
开放源码:推动社区创新
ODS的发布不仅展示了其在搜索AI领域的强大实力,还为开源社区提供了一个强大的工具。ODS的开源实现已经公开,研究人员和开发者可以访问https://github.com/sentient-agi/OpenDeepSearch来获取相关代码,并在此基础上进行创新和优化。
未来展望:开源引领搜索AI新方向
ODS的出现标志着开源搜索引擎的一个重要里程碑。通过结合先进的推理能力和高质量的网络搜索工具,ODS不仅在性能上超越了现有的闭源解决方案,还为未来的创新和发展奠定了基础。随着开源社区的不断壮大和技术的持续进步,ODS有望引领搜索AI领域进入一个全新的时代。
总结
Open Deep Search的推出是搜索引擎发展史上的一个重要突破。它不仅展示了开源解决方案在AI领域的巨大潜力,还为用户和研究人员提供了一个强大而灵活的工具。随着越来越多的开发者加入到这个开源项目中,ODS有望推动搜索AI技术的进一步发展,为用户提供更智能、更精准的搜索体验。