AI个人学习
和实操指南
资源推荐1

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出

声明: 本次评测为非官方、主观性评测,结果仅供参考。

内容概要

总结: DeepSeek 官方推出的 DeepSeek R1+ 联网搜索工具,以其简洁易用性,在众多 AI 深度搜索工具中脱颖而出,成为首选。

  1. 若用户期望获得内容详实的解答,Google 等传统搜索引擎依然是经过长期市场检验的稳健之选,在搜索体验上更胜一筹。
  2. Flowith 的 Oracle 模式表现出乎意料地优秀,其工作方式与 ChatGPT O1 有相似之处。但得益于搜索引擎的优化调整,Flowith 在信息来源方面,能够较好地兼顾国内外的信息资源。
  3. ChatGPT 的 Deep Search 在本次评测中表现平平,与海外众多知名人士的高度评价不符。可能原因在于其对中文内容的处理能力尚待提升。考虑到其较高的搜索成本,本次评测仅进行了一次尝试。

 

主观评分结果

序号 工具名称 准度 广度 深度 长度 交互体 导出分 总分 (满分60)
1 Gemini 2.0 Flash Thinking 8 8 9 13 8 8 54
2 豆包 8 7 6 10 9 10 50
3 Flowith Oracle 模式 8 9 8 12 7 6 50
4 ChatGPT 01 Deep Search 8 8 9 9 8 7 49
5 DeepSeek 官方版 9 8 9 7 8 7 48
6 Genspark 6 7 6 11 7 8 45
7 perplexity 7 6 6 8 7 9 43
8 纳米搜索 7 7 7 6 6 6 39
9 心流 AI 助手 7 8 6 3 7 7 38
10 Kimi 1.5 Long 7 6 7 4 7 6 37
11 秘塔搜索 6 7 5 2 7 8 35
12 腾讯元宝 ima.copolit 4 6 3 5 5 8 33
13 Storm 2 3 2 1 2 2 12

本次评测带有一定的主观性。尽管如此,评测者依然设立了以下几个判断标准,力求从多维度评估各款 AI 深度搜索工具的性能。

 

评测标准

  1. 【准度】:在参评的 12 款工具中(评测初期设定为 10 款),考察工具是否能够准确识别并列举出 10 款 AI 工具。若工具未能识别出 “AI 深度搜索” 的关键词,则直接判定为最低分。若未提供信息来源,则默认扣除 5 分。
  2. 【广度】:评估工具是否能够全面覆盖评测者要求的内容,包括产品介绍、技术路径等关键信息。
  3. 【深度】:深度评估带有一定的主观性,评测者将根据个人理解进行打分,此项评分可能存在一定程度的个人认知偏差。
  4. 【长度】:主要衡量工具生成文本的字数。
  5. 【交互】:评估工具的交互体验,例如是否支持追问、价格信息、使用门槛等。
  6. 【导出】:评估工具的数据导出能力。仅支持导出链接或图片的工具将被认为导出能力不足,理想的工具应至少支持全文复制和导出 PDF 文档。

 

提示词演进

初始提示词

最近 AI 搜索很火,我想你围绕 Deep Search
以及他的开源版本还有各种 AI 搜索,整理出一篇详尽的报告,
至少包括产品名称、原理、技术路径

优化后提示词

为了获得更结构化和全面的报告,评测者借助 Flowith 提供的 Claude 提示词优化功能,将初始提示词优化为以下内容:

<研究主题>
AI搜索技术(重点分析Deep Search及其开源版本)
</研究主题>
<报告结构说明>
你将创建一份关于特定AI技术主题的深度分析报告。请按以下结构组织内容:
概述(2-3段)
技术/主题的整体介绍
核心发现与重要性
现状与未来影响
背景分析
技术发展背景与行业现状
该技术的战略价值
本报告的覆盖范围
技术解析
核心技术原理
关键技术组件
实现路径与方法论
架构细节(如可获得)
市场分析
主要产品与实现方案
核心厂商技术路线
解决方案对比
开源替代方案
未来展望
潜在发展方向
现存挑战与限制
未来研究重点
<格式要求>
使用Markdown标题(# 主标题,## 子标题)
保持专业书面语气
技术主张需附具体解释
不同方案需对比分析
公开信息缺失处需注明
不确定的技术细节需明确标注
聚焦事实性信息,避免推测
使用规范技术术语但保持可读性
<注意事项>
确保分析深度与完整性
保持客观中立立场
提供可验证的技术细节
明确区分事实与推测
包含实际案例与产品
注明当前认知局限
请将完整报告置于<report>标签内,特别注意:
对Deep Search技术架构进行重点剖析
列举不少于5个同类AI搜索产品
开源项目需标注许可证类型
技术路径需包含检索增强生成(RAG)等关键技术
需包含向量数据库等基础设施支持分析

在使用 ChatGPT 的 Deep Search 时,该工具要求评测者回答几个问题以明确搜索方向,评测者也对提示词进行了进一步的补充完善。但由于补充后的提示词内容较长且包含链接,在此不再赘述。


 

各平台评测结果

1. 豆包

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 2918 字

豆包在工程化方面表现出色,除纳米搜索相关内容外,整体表现近乎完美。

其导出的文档带有目录,整体使用体验流畅舒适,产品完成度高,与其 App 产品线丰富的特点相符。

豆包的不足之处在于,其自身尚未拥有在智能层面具有显著优势的大型模型。因此,其内容呈现出深度不足的问题,内容呈现形式新颖,但内容深度有待提升。

2. 纳米搜索

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1606 字

360 旗下的纳米搜索,是一款功能整合型产品。初看之下,功能模块较为完善,并搭载了 DeepSeek R1 技术。其在文章开头对 OpenAI 进行了较好的阐述,但在 AI 深度搜索产品的介绍方面,内容不够全面,且篇幅较短。不过,纳米搜索对各产品特点的介绍较为突出,总结能力尚可。此外,纳米搜索还提供了一些评测者认知范围之外的搜索产品,或能带来一定的启发性,尽管这些产品可能并非严格意义上的 AI 产品。

然而,纳米搜索不支持追问功能,分享功能仅支持链接和图片(不包含全文),商业化倾向明显。

3. ima.copliot(腾讯元宝)

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1417 字

腾讯早前曾推出一款结合搜索与知识库功能的工具。彼时,该工具搭载的混元大模型在智能性方面表现一般,但其信息来源较为优质,主要来源于公众号平台。目前, 随着 DeepSeek R1 深度搜索功能的加入,其内容质量得到了显著提升。

ima.copliot 的主要优势在于,用户可以便捷地将搜索到的公众号内容添加到个人知识库,并基于知识库进行问答,这一功能实用性较强。公众号平台是 ima.copliot 的独特资源优势。当用户使用其他同类产品时,往往需要手动点击公众号链接跳转,再进行内容保存。

然而,相较于开放网络信息,公众号信息在时效性方面存在一定的滞后性。同时,由于公众号平台审核机制较为严格,部分新兴事物,特别是外部链接的流通受限,导致搜索结果有时会存在偏差。在搜索公众号平台以外的信息时,ima.copliot 的表现相对逊色。

因此,ima.copliot 在本次评测中表现略低于预期,其搜索结果与评测主题的关联性较差。尤其是在 “AI 深度搜索” 这一主题下,ima.copliot 提供的许多资料仍停留在传统搜索架构层面。

对于特定领域而言,ima.copliot 依然是一款有价值的工具。但在面向更广泛的公开领域时,其可能需要采取更积极、更具差异化的发展策略。

此外,ima.copliot 仅支持复制粘贴导出。

4. 心流 AI 助手

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1399 字

据称 心流AI助手 源自阿里巴巴。该产品功能较为丰富。

例如,心流AI助手 在报告开头提供思维导图,并能生成类似 NotebookLLM 的男女对话播客,非常适合用于制作 AI 播客内容。

其搜索结果中列出的 AI 产品数量不多,但产品名称的准确性较高。表格中的对比数据虽 不完全准确, 但相较于其他评测工具,已属良好水平。

虽然文本字数不多,但心流 AI 助手生成的内容样式较为多样,包含表格、图片等元素,使内容看起来较为丰富。然而,部分配图与主题关联性较弱,主题不够明确。

心流 AI 助手的思考过程展示较为充分,信息来源标注也较为完善。

其主要问题在于分享导出功能不够便捷,图文并茂的内容复制后格式错乱。

5. ChatGPT Deep Search

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 2865 字

作为 OpenAI 官方推出的 Deep Search,ChatGPT Deep Search 在本次评测中表现略低于预期,输出内容相对较少,与其每月 200 美元的会员费用 不相符。

与协助评测的朋友交流后,分析认为可能存在以下两点原因:

  • 对推理大模型施加了过多的条件限制,反而可能制约了其性能发挥,提示词的优化程度可能不足。
  • GPT 模型在处理中文信息方面 并非其初始优势, 或许应尝试使用英文进行搜索,再以中文进行回答。

尽管如此,ChatGPT Deep Search 仍有其可取之处:

在提问环节,ChatGPT Deep Search 会首先反问用户若干问题,引导用户 уточнить 搜索方向。这有助于避免资源浪费或方向偏差。例如,评测者最初的提示词较为简洁,经过 ChatGPT Deep Search 的反问引导后,评测者对提示词进行了细化。这两部分提示词被整合后,作为新的标准提示词提供给所有参评的 AI 深度搜索工具。其中,ChatGPT Deep Search 的反问环节给评测者留下了深刻印象,其反问质量较高,或可作为未来 AI 搜索工程的标准流程参考。

ChatGPT Deep Search 输出的内容更像是一篇完整的文章,前后逻辑更为连贯。长文本生成能力与强大的推理能力构成了其较高的技术壁垒。目前,许多搜索工具已接入 DeepSeek R1 以增强深度思考能力,但受限于 DeepSeek R1 有限的上下文窗口(32K),这些工具在内容生成方面,实际上更像是基于提纲进行内容填充。虽然这种方式无可厚非,但若能如 ChatGPT Deep Search 般生成逻辑连贯的长文,用户体验无疑会更佳。

6. DeepSeek 官方版

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1625 字

DeepSeek 深度思考 + 联网搜索的组合表现良好,尤其是在资源匹配度方面表现突出,能够搜索到较为小众和新兴的软件。但受限于上下文长度,DeepSeek 官方版未能完整呈现所有参评产品,尽管其对产品特点的展示较为到位,也基本符合评测者的预期。

在 DeepSeek 官方服务日趋稳定的背景下,评测者认为,DeepSeek-R1 + 联网搜索是目前普通用户在低门槛条件下,获得相对优质答案的理想选择。

然而,DeepSeek 官方版的 “幻觉” 问题依然存在。若官方能够加强信息来源标注,并扩展上下文窗口,用户体验有望进一步提升。当然,响应速度也需持续优化。

7. Flowith.ai 的 Oracle 模式

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 5369 字

Flowith.ai 是一款白板式知识库服务。其早期宣传重点为 Oracle 模式,即通过 Agent 智能体,将用户提出的问题拆解为若干子问题和步骤,用户可对拆解结果进行修改和确认,之后 Agent 再进行搜索和整理。

评测结果显示,Flowith 在第二步进行了较为广泛的搜索。虽然 不清楚 Flowith 在此环节使用了何种模型,但推测可能是 Gemini 模型,其上下文处理能力较强。Flowith 是本次评测中唯一一款能够完整列出评测者要求的 10 款 AI 工具并进行介绍的工具,值得肯定。此外,Flowith 在初始阶段的反问机制,与 OpenAI Deep Search 的交互方式有异曲同工之妙。

然而,在搜索过程中,Flowith 允许用户进行手动调整和控制的环节不多。事实上,所有参评工具在搜索过程中的可控性均 不高, 但 Flowith 将搜索流程可视化,给用户营造了一种深度参与其中的 “错觉”。

此外,Flowith 在 OpenAI Deep Search 的搜索方面表现 不够准确, 搜索结果更像是基于单一关键词进行检索,而缺乏与 OpenAI 的关联性思考。这略显遗憾,也反衬出 OpenAI 自研 O3 长文本 + 推理大模型的重要性。

期待未来 Flowith 能够接入 Claude 4.0、O3 或后续 DeepSeek R2 的 API,持续优化工程能力,为用户带来更大的想象空间。

8. Genspark

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 3406 字

Genspark 曾以 AI Agent + 搜索模式,并以类似小红书图文并茂的笔记形式呈现搜索结果而受到关注。但在当时,受限于模型能力不足,其输出内容质量较差,时效性也欠佳。时隔近一年,Genspark 近期也推出了自研 Deep Search 功能。

重新审视 Genspark,可以发现其能力确有显著提升。Genspark 的产品一直以成熟易用为特点。例如,其思考时间较长,检索信息量较大,并支持邮件通知用户报告完成。Genspark 对 O3 版本的 Deep Search 介绍较为到位。但总体而言,Genspark 仍处于探索阶段,其呈现的内容冗余信息较多,所需的产品介绍信息有所缺失,这可能与中文信息资源的匮乏有关。

值得一提的是,Genspark 是本次评测中唯一一个提供视频链接和封面预览的工具。尽管其 YouTube 视频链接 不支持直接点击播放, 用户仍需通过外部链接打开。

Genspark 不支持直接导出文件,也不支持复制,仅支持将结果分享为 Genspark 网站页面链接。

9. Kimi

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1400 字

Kimi 存在一个有趣的现象。由于评测者选择了不同的线路,Kimi 持续以英文显示结果,评测者之后不得不强调使用中文进行回答。

Kimi 提交的报告质量尚可,在 10 款 AI 工具中,Kimi 准确识别了 5 款,且产品罗列较为整齐。其对 Deep Search 的介绍也较为到位。但 Kimi 忽略了评测者提及的许多产品(即使评测者已提供相关链接)。

此外,Kimi 不支持直接导出为文档。

评测者早期对 Kimi 公司的长文本生成能力印象深刻。尽管当时 Kimi 的智能化水平 不高, 但其超长文本生成能力依然具有一定的吸引力。目前,Kimi 的智能性已得到显著提升,并拓展了多模态功能。期待 Kimi 在智能化方面能有进一步突破。

10. Storm

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 733 字

Storm 架构源自斯坦福大学,已推出一段时间。近期 Storm 似乎进行了一些优化,但其能力已明显落后于时代。首先,Storm 的输出字数过少,其次,各部分内容的描述相当概括,缺乏细节。

可能由于 Storm 采用免费公益接口和用量限制,其发展策略 不够积极, 不如其他参评工具积极进取。

总体而言,Storm 的表现令人失望。

值得一提的是,用户需首先输入 20 个单词以内的主题,再描述用途。

11. 秘塔搜索

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1259 字

若包含链接,秘塔搜索的报告字数接近 10000 字,但这 不公平。

秘塔搜索的表现尚可,尤其是在网页浏览量方面, 秘塔AI搜索 首家支持浏览大量网页,本次评测中,秘塔搜索浏览了 374 个网页。

秘塔搜索识别出部分小众产品,但产品数量仍然偏少。

略显 可笑 的是,一个微信群二维码赫然出现在文章的前部。

但总体而言,秘塔搜索的文章深度仍显不足,大量网页阅读 未能达到预期效果, 略显尴尬。

12. Gemini

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 8690 字

在搜索领域,Google 的地位举足轻重(当然,此处 不提及 百度)。

整体而言,Google Gemini 的回答质量较高,但在 10 款 AI 工具的识别方面,Gemini 仅找到 6 款,虽高于平均水平,但 Gemini 本可以做得更好。

Google 的新模型功能强劲,例如:

  • 支持百万级上下文的多模态模型,输出内容量远超其他模型(ChatGPT O1、O3 除外)。
  • 支持 YouTube 等 Google 生态的联网搜索。
  • 响应速度快。

但 Gemini 在本次评测中也犯了两个明显的错误:

  • 有时 不够好 输出格式化的内容,例如,截图所示的以代码形式输出文字,导致格式混乱。
  • 不显示 外部链接和 YouTube 推荐链接。

一个有趣的细节是,用户可以点击 “三个点” 按钮,让 AI 重新检查回答问题。但实际体验中,该功能效果 不明显.

13. Perplexity

市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出-1

总字数: 1931 字

Perplexity 的导出内容格式最为舒适,其将链接嵌入到文本中, 不显示 外部显示链接。这可能得益于 Perplexity 优秀的 Markdown 优化。

对于广为人知的产品,Perplexity 的表现尚可,但对于小众产品,Perplexity 鲜有涉及,且基本 不采信 国内信息来源。

 

总结

DeepSeek R1 的出现,使得各家厂商能够快速搭建起表面上效果良好的 AI 深度搜索服务。各平台提供搜索功能,DeepSeek 提供深度思考能力。然而,要将二者有效结合,仍需大量的工程化工作。若 不想在开发中投入过多精力, 则需要依赖强大的模型能力来驱动搜索服务。

DeepSeek 不保证 内容的绝对准确性,但能使内容 “看起来” 更为可信。

截至 2024 年 2 月 16 日,甚至在未来几个月内,若想快速获取和整理网络信息, 仍然不容易, 需要持续投入大量资源和技术积累。

展望未来,如果 DeepSeek R2 能够实现百万级上下文窗口、支持多模态输入,并进一步提升响应速度,其市场竞争力将不可估量。

内容3
未经允许不得转载:首席AI分享圈 » 市场主流 AI 深度搜索工具横向评测:DeepSeek R1 表现突出

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文