DeepSearchQA - 谷歌开源的AI研究Agent测试基准

32.1K 00

DeepSearchQA是什么

DeepSearchQA是谷歌开源的AI研究Agent测试基准，专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务，覆盖17个领域，要求AI像人类研究员一样通过多步骤推理生成完整答案。基准强调全面性而非单纯准确性，能衡量AI的记忆能力和思考效率。目前DeepSearchQA已应用于Gemini Deep Research Agent的性能评测，最新版本在该基准上得分46.4%，优于GPT-5 Pro。开发者可通过Kaggle平台获取开源代码参与竞赛。

DeepSearchQA的功能特色

任务设计复杂且跨领域 ：包含900个手工设计的“因果链”任务，涵盖17个领域，每一步均依赖前序分析，要求智能体生成详尽答案集，从而衡量其研究精度与检索全面性。
全面性评估 ：与传统基于事实的测试不同，DeepSearchQA更注重评估智能体在多步骤复杂检索任务中的全面性，能够测试智能体的检索记忆能力。
作为“思考时间”效益的诊断工具 ：谷歌内部测试显示，让智能体执行更多搜索与推理步骤时，其性能会显著提升，DeepSearchQA可作为衡量“思考时间”效益的工具。
开源性 ：数据集与工具已开源，开发者可访问数据集、排行榜与Colab示例，并阅读数据集技术报告。

DeepSearchQA的核心优势

任务复杂且跨领域 ：包含900个手工设计的“因果链”任务，涵盖17个领域，每一步均依赖前序分析，能全面评估智能体在复杂多步研究任务中的表现。
衡量全面性 ：与传统基于事实的测试不同，DeepSearchQA要求智能体生成详尽答案集，不仅评估研究的准确性，还衡量检索的记忆能力，更贴合真实世界的研究需求。
可诊断“思考时长”效益 ：谷歌内部评估发现，当允许智能体执行更多搜索与推理步骤时，其性能会显著提升，DeepSearchQA可作为衡量“思考时长”效率的工具。

DeepSearchQA官网是什么

项目官网：https://blog.google/technology/developers/deep-research-agent-gemini-api/
开源地址：https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
技术论文：https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf