市场主流 AI 深度搜索工具横向评测：DeepSeek R1 表现突出-首席AI分享圈

🚀邀请体验：中国首家 AI IDE 智能编程软件 Trae 中文版下载，不限量使用 DeepSeek-R1 和 Doubao-pro!

声明： 本次评测为非官方、主观性评测，结果仅供参考。

内容概要

总结： DeepSeek 官方推出的 DeepSeek R1+ 联网搜索工具，以其简洁易用性，在众多 AI 深度搜索工具中脱颖而出，成为首选。

若用户期望获得内容详实的解答，Google 等传统搜索引擎依然是经过长期市场检验的稳健之选，在搜索体验上更胜一筹。
Flowith 的 Oracle 模式表现出乎意料地优秀，其工作方式与 ChatGPT O1 有相似之处。但得益于搜索引擎的优化调整，Flowith 在信息来源方面，能够较好地兼顾国内外的信息资源。
ChatGPT 的 Deep Search 在本次评测中表现平平，与海外众多知名人士的高度评价不符。可能原因在于其对中文内容的处理能力尚待提升。考虑到其较高的搜索成本，本次评测仅进行了一次尝试。

主观评分结果

序号	工具名称	准度	广度	深度	长度	交互体	导出分	总分 (满分60)
1	Gemini 2.0 Flash Thinking	8	8	9	13	8	8	54
2	豆包	8	7	6	10	9	10	50
3	Flowith Oracle 模式	8	9	8	12	7	6	50
4	ChatGPT 01 Deep Search	8	8	9	9	8	7	49
5	DeepSeek 官方版	9	8	9	7	8	7	48
6	Genspark	6	7	6	11	7	8	45
7	perplexity	7	6	6	8	7	9	43
8	纳米搜索	7	7	7	6	6	6	39
9	心流 AI 助手	7	8	6	3	7	7	38
10	Kimi 1.5 Long	7	6	7	4	7	6	37
11	秘塔搜索	6	7	5	2	7	8	35
12	腾讯元宝 ima.copolit	4	6	3	5	5	8	33
13	Storm	2	3	2	1	2	2	12

本次评测带有一定的主观性。尽管如此，评测者依然设立了以下几个判断标准，力求从多维度评估各款 AI 深度搜索工具的性能。

评测标准

【准度】：在参评的 12 款工具中（评测初期设定为 10 款），考察工具是否能够准确识别并列举出 10 款 AI 工具。若工具未能识别出 “AI 深度搜索” 的关键词，则直接判定为最低分。若未提供信息来源，则默认扣除 5 分。
【广度】：评估工具是否能够全面覆盖评测者要求的内容，包括产品介绍、技术路径等关键信息。
【深度】：深度评估带有一定的主观性，评测者将根据个人理解进行打分，此项评分可能存在一定程度的个人认知偏差。
【长度】：主要衡量工具生成文本的字数。
【交互】：评估工具的交互体验，例如是否支持追问、价格信息、使用门槛等。
【导出】：评估工具的数据导出能力。仅支持导出链接或图片的工具将被认为导出能力不足，理想的工具应至少支持全文复制和导出 PDF 文档。

提示词演进

初始提示词

最近 AI 搜索很火，我想你围绕 Deep Search
以及他的开源版本还有各种 AI 搜索，整理出一篇详尽的报告，
至少包括产品名称、原理、技术路径

优化后提示词

为了获得更结构化和全面的报告，评测者借助 Flowith 提供的 Claude 提示词优化功能，将初始提示词优化为以下内容：

<研究主题>
AI搜索技术（重点分析Deep Search及其开源版本）
</研究主题>
<报告结构说明>
你将创建一份关于特定AI技术主题的深度分析报告。请按以下结构组织内容：
概述（2-3段）
技术/主题的整体介绍
核心发现与重要性
现状与未来影响
背景分析
技术发展背景与行业现状
该技术的战略价值
本报告的覆盖范围
技术解析
核心技术原理
关键技术组件
实现路径与方法论
架构细节（如可获得）
市场分析
主要产品与实现方案
核心厂商技术路线
解决方案对比
开源替代方案
未来展望
潜在发展方向
现存挑战与限制
未来研究重点
<格式要求>
使用Markdown标题（# 主标题，## 子标题）
保持专业书面语气
技术主张需附具体解释
不同方案需对比分析
公开信息缺失处需注明
不确定的技术细节需明确标注
聚焦事实性信息，避免推测
使用规范技术术语但保持可读性
<注意事项>
确保分析深度与完整性
保持客观中立立场
提供可验证的技术细节
明确区分事实与推测
包含实际案例与产品
注明当前认知局限
请将完整报告置于<report>标签内，特别注意：
对Deep Search技术架构进行重点剖析
列举不少于5个同类AI搜索产品
开源项目需标注许可证类型
技术路径需包含检索增强生成(RAG)等关键技术
需包含向量数据库等基础设施支持分析

在使用 ChatGPT 的 Deep Search 时，该工具要求评测者回答几个问题以明确搜索方向，评测者也对提示词进行了进一步的补充完善。但由于补充后的提示词内容较长且包含链接，在此不再赘述。

各平台评测结果

1. 豆包

总字数： 2918 字

豆包在工程化方面表现出色，除纳米搜索相关内容外，整体表现近乎完美。

其导出的文档带有目录，整体使用体验流畅舒适，产品完成度高，与其 App 产品线丰富的特点相符。

豆包的不足之处在于，其自身尚未拥有在智能层面具有显著优势的大型模型。因此，其内容呈现出深度不足的问题，内容呈现形式新颖，但内容深度有待提升。

2. 纳米搜索

总字数： 1606 字

360 旗下的纳米搜索，是一款功能整合型产品。初看之下，功能模块较为完善，并搭载了 DeepSeek R1 技术。其在文章开头对 OpenAI 进行了较好的阐述，但在 AI 深度搜索产品的介绍方面，内容不够全面，且篇幅较短。不过，纳米搜索对各产品特点的介绍较为突出，总结能力尚可。此外，纳米搜索还提供了一些评测者认知范围之外的搜索产品，或能带来一定的启发性，尽管这些产品可能并非严格意义上的 AI 产品。

然而，纳米搜索不支持追问功能，分享功能仅支持链接和图片（不包含全文），商业化倾向明显。

3. ima.copliot（腾讯元宝）

总字数： 1417 字

腾讯早前曾推出一款结合搜索与知识库功能的工具。彼时，该工具搭载的混元大模型在智能性方面表现一般，但其信息来源较为优质，主要来源于公众号平台。目前, 随着 DeepSeek R1 深度搜索功能的加入，其内容质量得到了显著提升。

ima.copliot 的主要优势在于，用户可以便捷地将搜索到的公众号内容添加到个人知识库，并基于知识库进行问答，这一功能实用性较强。公众号平台是 ima.copliot 的独特资源优势。当用户使用其他同类产品时，往往需要手动点击公众号链接跳转，再进行内容保存。

然而，相较于开放网络信息，公众号信息在时效性方面存在一定的滞后性。同时，由于公众号平台审核机制较为严格，部分新兴事物，特别是外部链接的流通受限，导致搜索结果有时会存在偏差。在搜索公众号平台以外的信息时，ima.copliot 的表现相对逊色。

因此，ima.copliot 在本次评测中表现略低于预期，其搜索结果与评测主题的关联性较差。尤其是在 “AI 深度搜索” 这一主题下，ima.copliot 提供的许多资料仍停留在传统搜索架构层面。

对于特定领域而言，ima.copliot 依然是一款有价值的工具。但在面向更广泛的公开领域时，其可能需要采取更积极、更具差异化的发展策略。

此外，ima.copliot 仅支持复制粘贴导出。

4. 心流 AI 助手

总字数： 1399 字

据称心流AI助手源自阿里巴巴。该产品功能较为丰富。

例如，心流AI助手在报告开头提供思维导图，并能生成类似 NotebookLLM 的男女对话播客，非常适合用于制作 AI 播客内容。

其搜索结果中列出的 AI 产品数量不多，但产品名称的准确性较高。表格中的对比数据虽不完全准确, 但相较于其他评测工具，已属良好水平。

虽然文本字数不多，但心流 AI 助手生成的内容样式较为多样，包含表格、图片等元素，使内容看起来较为丰富。然而，部分配图与主题关联性较弱，主题不够明确。

心流 AI 助手的思考过程展示较为充分，信息来源标注也较为完善。

其主要问题在于分享导出功能不够便捷，图文并茂的内容复制后格式错乱。

5. ChatGPT Deep Search

总字数： 2865 字

作为 OpenAI 官方推出的 Deep Search，ChatGPT Deep Search 在本次评测中表现略低于预期，输出内容相对较少，与其每月 200 美元的会员费用不相符。

与协助评测的朋友交流后，分析认为可能存在以下两点原因：

对推理大模型施加了过多的条件限制，反而可能制约了其性能发挥，提示词的优化程度可能不足。
GPT 模型在处理中文信息方面并非其初始优势, 或许应尝试使用英文进行搜索，再以中文进行回答。

尽管如此，ChatGPT Deep Search 仍有其可取之处：

在提问环节，ChatGPT Deep Search 会首先反问用户若干问题，引导用户 уточнить 搜索方向。这有助于避免资源浪费或方向偏差。例如，评测者最初的提示词较为简洁，经过 ChatGPT Deep Search 的反问引导后，评测者对提示词进行了细化。这两部分提示词被整合后，作为新的标准提示词提供给所有参评的 AI 深度搜索工具。其中，ChatGPT Deep Search 的反问环节给评测者留下了深刻印象，其反问质量较高，或可作为未来 AI 搜索工程的标准流程参考。

ChatGPT Deep Search 输出的内容更像是一篇完整的文章，前后逻辑更为连贯。长文本生成能力与强大的推理能力构成了其较高的技术壁垒。目前，许多搜索工具已接入 DeepSeek R1 以增强深度思考能力，但受限于 DeepSeek R1 有限的上下文窗口（32K），这些工具在内容生成方面，实际上更像是基于提纲进行内容填充。虽然这种方式无可厚非，但若能如 ChatGPT Deep Search 般生成逻辑连贯的长文，用户体验无疑会更佳。

6. DeepSeek 官方版

总字数： 1625 字

DeepSeek 深度思考 + 联网搜索的组合表现良好，尤其是在资源匹配度方面表现突出，能够搜索到较为小众和新兴的软件。但受限于上下文长度，DeepSeek 官方版未能完整呈现所有参评产品，尽管其对产品特点的展示较为到位，也基本符合评测者的预期。

在 DeepSeek 官方服务日趋稳定的背景下，评测者认为，DeepSeek-R1 + 联网搜索是目前普通用户在低门槛条件下，获得相对优质答案的理想选择。

然而，DeepSeek 官方版的 “幻觉” 问题依然存在。若官方能够加强信息来源标注，并扩展上下文窗口，用户体验有望进一步提升。当然，响应速度也需持续优化。

7. Flowith.ai 的 Oracle 模式

总字数： 5369 字

Flowith.ai 是一款白板式知识库服务。其早期宣传重点为 Oracle 模式，即通过 Agent 智能体，将用户提出的问题拆解为若干子问题和步骤，用户可对拆解结果进行修改和确认，之后 Agent 再进行搜索和整理。

评测结果显示，Flowith 在第二步进行了较为广泛的搜索。虽然不清楚 Flowith 在此环节使用了何种模型，但推测可能是 Gemini 模型，其上下文处理能力较强。Flowith 是本次评测中唯一一款能够完整列出评测者要求的 10 款 AI 工具并进行介绍的工具，值得肯定。此外，Flowith 在初始阶段的反问机制，与 OpenAI Deep Search 的交互方式有异曲同工之妙。

然而，在搜索过程中，Flowith 允许用户进行手动调整和控制的环节不多。事实上，所有参评工具在搜索过程中的可控性均不高, 但 Flowith 将搜索流程可视化，给用户营造了一种深度参与其中的 “错觉”。

此外，Flowith 在 OpenAI Deep Search 的搜索方面表现不够准确, 搜索结果更像是基于单一关键词进行检索，而缺乏与 OpenAI 的关联性思考。这略显遗憾，也反衬出 OpenAI 自研 O3 长文本 + 推理大模型的重要性。

期待未来 Flowith 能够接入 Claude 4.0、O3 或后续 DeepSeek R2 的 API，持续优化工程能力，为用户带来更大的想象空间。

8. Genspark

总字数： 3406 字

Genspark 曾以 AI Agent + 搜索模式，并以类似小红书图文并茂的笔记形式呈现搜索结果而受到关注。但在当时，受限于模型能力不足，其输出内容质量较差，时效性也欠佳。时隔近一年，Genspark 近期也推出了自研 Deep Search 功能。

重新审视 Genspark，可以发现其能力确有显著提升。Genspark 的产品一直以成熟易用为特点。例如，其思考时间较长，检索信息量较大，并支持邮件通知用户报告完成。Genspark 对 O3 版本的 Deep Search 介绍较为到位。但总体而言，Genspark 仍处于探索阶段，其呈现的内容冗余信息较多，所需的产品介绍信息有所缺失，这可能与中文信息资源的匮乏有关。

值得一提的是，Genspark 是本次评测中唯一一个提供视频链接和封面预览的工具。尽管其 YouTube 视频链接不支持直接点击播放, 用户仍需通过外部链接打开。

Genspark 不支持直接导出文件，也不支持复制，仅支持将结果分享为 Genspark 网站页面链接。

9. Kimi

总字数： 1400 字

Kimi 存在一个有趣的现象。由于评测者选择了不同的线路，Kimi 持续以英文显示结果，评测者之后不得不强调使用中文进行回答。

Kimi 提交的报告质量尚可，在 10 款 AI 工具中，Kimi 准确识别了 5 款，且产品罗列较为整齐。其对 Deep Search 的介绍也较为到位。但 Kimi 忽略了评测者提及的许多产品（即使评测者已提供相关链接）。

此外，Kimi 不支持直接导出为文档。

评测者早期对 Kimi 公司的长文本生成能力印象深刻。尽管当时 Kimi 的智能化水平不高, 但其超长文本生成能力依然具有一定的吸引力。目前，Kimi 的智能性已得到显著提升，并拓展了多模态功能。期待 Kimi 在智能化方面能有进一步突破。

10. Storm

总字数： 733 字

Storm 架构源自斯坦福大学，已推出一段时间。近期 Storm 似乎进行了一些优化，但其能力已明显落后于时代。首先，Storm 的输出字数过少，其次，各部分内容的描述相当概括，缺乏细节。

可能由于 Storm 采用免费公益接口和用量限制，其发展策略不够积极, 不如其他参评工具积极进取。

总体而言，Storm 的表现令人失望。

值得一提的是，用户需首先输入 20 个单词以内的主题，再描述用途。

11. 秘塔搜索

总字数： 1259 字

若包含链接，秘塔搜索的报告字数接近 10000 字，但这不公平。

秘塔搜索的表现尚可，尤其是在网页浏览量方面，秘塔AI搜索首家支持浏览大量网页，本次评测中，秘塔搜索浏览了 374 个网页。

秘塔搜索识别出部分小众产品，但产品数量仍然偏少。

略显可笑的是，一个微信群二维码赫然出现在文章的前部。

但总体而言，秘塔搜索的文章深度仍显不足，大量网页阅读未能达到预期效果, 略显尴尬。

12. Gemini

总字数： 8690 字

在搜索领域，Google 的地位举足轻重（当然，此处不提及百度）。

整体而言，Google Gemini 的回答质量较高，但在 10 款 AI 工具的识别方面，Gemini 仅找到 6 款，虽高于平均水平，但 Gemini 本可以做得更好。

Google 的新模型功能强劲，例如：

支持百万级上下文的多模态模型，输出内容量远超其他模型（ChatGPT O1、O3 除外）。
支持 YouTube 等 Google 生态的联网搜索。
响应速度快。

但 Gemini 在本次评测中也犯了两个明显的错误：

有时不够好输出格式化的内容，例如，截图所示的以代码形式输出文字，导致格式混乱。
不显示外部链接和 YouTube 推荐链接。

一个有趣的细节是，用户可以点击 “三个点” 按钮，让 AI 重新检查回答问题。但实际体验中，该功能效果不明显.

13. Perplexity

总字数： 1931 字

Perplexity 的导出内容格式最为舒适，其将链接嵌入到文本中，不显示外部显示链接。这可能得益于 Perplexity 优秀的 Markdown 优化。

对于广为人知的产品，Perplexity 的表现尚可，但对于小众产品，Perplexity 鲜有涉及，且基本不采信国内信息来源。

总结

DeepSeek R1 的出现，使得各家厂商能够快速搭建起表面上效果良好的 AI 深度搜索服务。各平台提供搜索功能，DeepSeek 提供深度思考能力。然而，要将二者有效结合，仍需大量的工程化工作。若不想在开发中投入过多精力, 则需要依赖强大的模型能力来驱动搜索服务。

DeepSeek 不保证内容的绝对准确性，但能使内容 “看起来” 更为可信。

截至 2024 年 2 月 16 日，甚至在未来几个月内，若想快速获取和整理网络信息，仍然不容易, 需要持续投入大量资源和技术积累。

展望未来，如果 DeepSeek R2 能够实现百万级上下文窗口、支持多模态输入，并进一步提升响应速度，其市场竞争力将不可估量。

市场主流 AI 深度搜索工具横向评测：DeepSeek R1 表现突出