主なAIディープサーチツールを横から検証：DeepSeek R1が勝る

1.1K 00

声明このレビューは非公式かつ主観的なものであり、結果はあくまで参考である。

もしユーザーが詳細な回答を期待するのであれば、Googleのような従来の検索エンジンは、優れた検索エクスペリエンスを持つ、市場でテストされた堅実な選択肢である。
フローイスオラクルのスキーマは驚くほどうまく機能する。チャットGPT O1には類似点がある。しかし、検索エンジンの最適化のおかげで、Flowithは国内と海外の両方の情報源を考慮に入れることができる。
今回のレビューにおけるChatGPTのDeep Searchの性能は平凡で、多くの海外セレブからの高評価とは一致しない。これは、中国語コンテンツへの対応力がまだ改善の余地があるためと思われます。検索コストの高さを考慮すると、このレビューは一度だけの試みに過ぎない。

主観的採点結果

シリアル番号	ツール名	精度	深さ	蘊蓄	長さ	インタラクトーム	デリバティブ	合計スコア（60点満点）
1	ジェミニ 2.0 フラッシュ思考	8	8	9	13	8	8	54
2	お手玉	8	7	6	10	9	10	50
3	Flowithオラクルモード	8	9	8	12	7	6	50
4	ChatGPT 01 ディープ・サーチ	8	8	9	9	8	7	49
5	ディープシーク正式版	9	8	9	7	8	7	48
6	ジェンスパーク	6	7	6	11	7	8	45
7	当惑	7	6	6	8	7	9	43
8	ナノ・サーチ	7	7	7	6	6	6	39
9	ハートストリームAIアシスタント	7	8	6	3	7	7	38
10	キミ 1.5ロング	7	6	7	4	7	6	37
11	シークレット・タワー捜索	6	7	5	2	7	8	35
12	騰訊遠寶（QQインスタントメッセージングプラットフォームの開発者）イマ.copolit	4	6	3	5	5	8	33
13	嵐	2	3	2	1	2	2	12

このレビューは、やや主観的なものである。とはいえ、各AIディープサーチツールの性能を多面的に評価するため、レビュアーは以下のような判断基準を設けている。

評価基準

精度評価は、12個のツール（評価開始時は10個）によって行われ、ツールが10個のAIツールを正確に認識し、リストアップできるかどうかが問われた。ツールがキーワード「AI Deep Search」を認識できなかった場合、最低点が与えられる。情報源が提供されていない場合、デフォルトで5点が減点される。
広さ製品説明、技術パスなどの重要な情報を含め、審査員が要求した内容を完全にカバーするツールの能力を評価する。
[奥行き］この採点には、ある程度の個人的な認識のバイアスがあるかもしれません。
長さ主な指標は、ツールによって生成されたテキストの単語数です。
交流例えば、フォローアップの質問、価格情報、利用のしきい値などに対応しているかどうかなど。
輸出ツールのデータエクスポート機能を評価する。リンクや画像のエクスポートしかサポートしていないツールは、エクスポート機能が不十分であると考えられ、少なくとも全文コピーとPDF文書のエクスポートをサポートしていることが理想的です。

進化というキュー・ワード

最初の手がかり

最近 AI 搜索很火，我想你围绕 Deep Search
以及他的开源版本还有各种 AI 搜索，整理出一篇详尽的报告，
至少包括产品名称、原理、技术路径

最適化されたキュー・ワード

より体系的で包括的な報告書を得るため、レビュアーはFlowithが提供したクロードキューワードの最適化機能は、最初のキューワードを以下のように最適化する：

<研究主题>
AI搜索技术（重点分析Deep Search及其开源版本）
</研究主题>
<报告结构说明>
你将创建一份关于特定AI技术主题的深度分析报告。请按以下结构组织内容：
概述（2-3段）
技术/主题的整体介绍
核心发现与重要性
现状与未来影响
背景分析
技术发展背景与行业现状
该技术的战略价值
本报告的覆盖范围
技术解析
核心技术原理
关键技术组件
实现路径与方法论
架构细节（如可获得）
市场分析
主要产品与实现方案
核心厂商技术路线
解决方案对比
开源替代方案
未来展望
潜在发展方向
现存挑战与限制
未来研究重点
<格式要求>
使用Markdown标题（# 主标题，## 子标题）
保持专业书面语气
技术主张需附具体解释
不同方案需对比分析
公开信息缺失处需注明
不确定的技术细节需明确标注
聚焦事实性信息，避免推测
使用规范技术术语但保持可读性
<注意事项>
确保分析深度与完整性
保持客观中立立场
提供可验证的技术细节
明确区分事实与推测
包含实际案例与产品
注明当前认知局限
请将完整报告置于<report>标签内，特别注意：
对Deep Search技术架构进行重点剖析
列举不少于5个同类AI搜索产品
开源项目需标注许可证类型
技术路径需包含检索增强生成(RAG)等关键技术
需包含向量数据库等基础设施支持分析

ChatGPTのディープ・サーチを使用する際、ツールは検索の方向性を明確にするため、レビュアーにいくつかの質問に答えるよう求め、レビュアーはさらにプロンプトに補足を加えた。しかし、補足されたプロンプトは長く、リンクを含んでいたため、ここでは繰り返さない。

プラットフォーム別評価結果

1.豆パン

総語数 2918文字

ビーンバッグはエンジニアリングに秀でており、ナノサーチ関連のコンテンツを除けば、全体的なパフォーマンスは完璧に近い。

エクスポートされたドキュメントにはカタログがあり、全体的な体験はスムーズで快適で、アプリ製品ラインの豊富さに見合った、製品の完成度の高さがある。

Beanbagの欠点は、インテリジェンスレベルで大きな利点を持つ独自の大規模モデルをまだ保有していないことである。その結果、そのコンテンツは、斬新なコンテンツ提示形式を持ちながら、コンテンツの深みがないという問題を提示しているが、コンテンツの深みは改善される必要がある。

2.ナノサーチ

総語数 1606文字

360のナノ・サーチは機能統合型の製品である。一見したところ、機能モジュールはより完全で、以下のものが付属しています。ディープシークR1 テクノロジー。冒頭のOpenAIの説明は良いが、AIディープサーチ製品の紹介という点では、内容の網羅性が低く、長さも短い。しかし、NanoSearchの各製品の特徴紹介はより際立っており、要約力もまずまずである。また、NanoSearchでは、レビュアーの知識範囲外の検索製品も紹介されており、厳密にはAI製品ではないにせよ、勉強になるかもしれない。

しかし、ナノサーチはフォローアップ機能をサポートしておらず、共有機能はリンクと画像にしか対応していない（全文なし）。

3. ima.copliot（テンセント元宝）

総語数 1417文字

テンセントは以前、検索機能とナレッジベース機能を組み合わせたツールを発表していた。当時、このツールは平均的なインテリジェンスを持つハイブリッドモデルを搭載していたが、その情報ソースは主にパブリックプラットフォームからのもので、高品質であった。現在、DeepSeek R1のディープサーチ機能が追加され、そのコンテンツの質は大幅に向上している。

ima.copliotの主な利点は、ユーザーが検索した公開番号の内容を個人の知識ベースに便利に追加し、知識ベースに基づいてQ&Aを行うことができることであり、これは非常に実用的な機能である。公開番号プラットフォームは、ima.copliotのユニークなリソースの優位性である。ユーザーが他の類似製品を使用する場合、多くの場合、手動で公開番号のリンクをクリックしてジャンプし、コンテンツを保存する必要がある。

しかし、オープンネットワーク情報と比較すると、公開番号情報の適時性には一定の遅れがある。同時に、公開番号プラットフォームの厳格な監査メカニズムのため、一部の新興のもの、特に外部リンクの流通が制限され、その結果、検索結果が偏ることがある。公開番号プラットフォームの外で情報を検索する場合、ima.copliotの性能は比較的低い。

その結果、ima.copliotは、今回のレビューで期待をやや下回る結果となり、その検索結果はレビューのテーマとの相関性が低かった。特に、「AIディープ・サーチ」というテーマでは、ima.copliotが提供する情報の多くは、まだ伝統的な検索アーキテクチャのレベルにとどまっている。

ima.copliotは、特定のドメインにとっては依然として価値あるツールである。しかし、より広範なパブリックドメインをターゲットとする場合は、より積極的で差別化された開発戦略を採用する必要があるかもしれない。

また、ima.copliotはコピーペーストによる書き出ししかサポートしていない。

4.ハートストリームAIアシスタント

総語数 1399文字

曰くハートストリームAIアシスタントアリババ発。製品はより機能豊富です。

例えば、マインドストリームAIアシスタントは、レポートの冒頭でマインドマップを提供し、AIポッドキャストコンテンツの制作に理想的な、男女間の会話をNotebookLLMのようなポッドキャストに生成することができる。

検索結果に表示されるAI製品の数は少ないが、製品名の精度は高い。表の比較は完全な正確さとは言えないが、他のレビューツールとの比較では有利である。

本文の文字数は少ないが、HeartStream AI Assistantが生成するコンテンツは、表や写真などバリエーションが多く、リッチな印象を受ける。ただ、テーマとの関連性が弱く、テーマが明確でない写真もある。

ハートストリームAIアシスタントの思考プロセスはよく表現されており、情報源はきちんと表示されている。

その主な問題は、共有とエクスポート機能が十分に便利ではなく、コピー後にグラフィックコンテンツが誤ったフォーマットになってしまうことである。

5.ChatGPTディープサーチ

総語数 2865文字

OpenAIの公式ディープサーチであるChatGPTディープサーチは、今回のレビューでは期待をやや下回るパフォーマンスで、出力は比較的少なく、月会費200ドルに見合わない。

審査に協力した友人に話を聞いたところ、その理由は2つあるのではないかと分析している：

推論マクロモデルにあまりに多くの条件制約を課すと、かえってそのパフォーマンスが制約され、手がかりとなる単語が最適化されない可能性がある。
GPTモデルは中国語の情報を処理する上で最初の優位性がないため、英語で検索して中国語で回答するという試みが必要なのかもしれない。

とはいえ、ChatGPTディープサーチにもメリットはあります：

質問セッション中、ChatGPTディープサーチはまずユーザーにいくつかの質問を返し、検索の方向性を導きます。これにより、無駄なリソースや方向性の偏りを避けることができます。例えば、レビュアーの最初のプロンプトはより簡潔で、ChatGPT Deep Searchの修辞的ガイダンスの後、レビュアーはプロンプトを洗練させました。プロンプトのこれら2つの部分は結合され、参加したすべてのAIディープサーチツールの新しい標準プロンプトとして提供された。その中で、評価者はChatGPT Deep Searchの修辞的質問が高品質であることに感銘を受け、今後のAI検索プロジェクトの標準的なプロセスリファレンスとして使用される可能性がある。

ChatGPTディープ・サーチの出力は、より首尾一貫した論理を持つ完全な記事のようなものです。長いテキストを生成する能力と強い推論能力は、その高い技術的障壁を構成する。現在、多くの検索ツールがディープシンキングの能力を高めるためにDeepSeek R1にアクセスしているが、DeepSeek R1のコンテキストウィンドウが限られている（32K）ため、コンテンツ生成という点では、これらのツールは、実際には、アウトラインに基づいてコンテンツを埋めるようなものである。このアプローチに問題はないが、ChatGPTディープ・サーチのように長くてまとまりのある記事を生成できれば、ユーザー・エクスペリエンスは確実に向上するだろう。

6.DeepSeek正式版

総語数 1625文字

DeepSeekのディープシンキング＋インターネット検索の組み合わせは、特にリソースマッチングの点で優れたパフォーマンスを発揮し、よりニッチで新興のソフトウェアを検索することができた。しかし、DeepSeekの公式バージョンは、文脈の長さのため、レビューですべての製品を紹介することはできなかったが、製品の特徴のプレゼンテーションは的確であり、基本的にレビュアーの期待に応えていた。

DeepSeekの公式サービスが安定しつつあることを背景に、DeepSeek-R1＋ネットワーク検索は、敷居が低く比較的質の高い回答を得られる、一般ユーザーにとって理想的なものになったと評者は考えている。

しかし、DeepSeekの正式版にはまだ「錯覚」の問題が残っている。公式が情報源のアノテーションを強化し、コンテキストウィンドウを拡張することができれば、ユーザーエクスペリエンスはさらに向上することが期待される。もちろん、レスポンス速度も継続的に最適化する必要がある。

7.Flowith.aiのオラクル・モデル

総語数 5369文字

Flowith.aiはホワイトボードスタイルのナレッジベースサービスである。初期の宣伝ではオラクルモデルに焦点を当てており、ユーザーの問題はエージェント・インテリジェンスによってサブ問題とステップに分解され、ユーザーはその結果を修正・確認することができる。

レビューの結果は、Flowithが第2ステップでより広範な検索を実行することを示している。Flowithがこのステップでどのようなモデルを使用しているかは明らかではないが、おそらく文脈解析がより可能なGeminiモデルであると推測され、Flowithはレビューの中で唯一、レビュー担当者が要求した10のAIツールの完全なリストを提供できるツールであり、評価に値する。さらに、初期段階におけるFlowithの修辞的質問メカニズムは、OpenAI Deep Searchの対話方法に似ている。

しかし、Flowithは、検索プロセス中に手動で調整したり制御したりすることをあまり許さない。実際、参加したどのツールも検索プロセスをあまりコントロールできなかったが、Flowithの検索プロセスの視覚化は、深く関与しているかのような「錯覚」を生み出す。

加えて、OpenAIのディープサーチにおけるFlowithのパフォーマンスは、OpenAIの関連性よりも単一のキーワードに基づく可能性が高いため、十分な精度とは言えない。これは残念なことであり、OpenAI独自のO3長文＋推論モデルの重要性を反映している。

Flowithが将来、クロード4.0、O3、またはそれに続くDeepSeek R2のAPIにアクセスし、エンジニアリング能力を継続的に最適化し、ユーザーにさらなる想像力をもたらすことを期待しています。

8.ジェンスパーク

総語数 3406文字

Gensparkは、AIエージェント＋検索モデルや、リトル・レッド・ブックのような図解ノート形式で検索結果を表示することで注目を集めていた。しかし、当時はモデルの能力不足から、出力されるコンテンツの質が低く、タイムリー性も低かった。それから約1年後、Gensparkは独自のディープ・サーチ機能を発表した。

Gensparkを見直すと、その機能が大幅に向上していることは明らかだ。Gensparkの製品は、常にその洗練さと使いやすさが特徴だった。Gensparkの製品は、常にその成熟度と使いやすさが特徴である。例えば、考えるのに時間がかかる、より多くの情報を取得する、レポート完了の電子メール通知をサポートするなどである。一方、GensparkがO3バージョンのDeep Searchを導入したことは、より的を得ている。しかし、全体的に見ると、Gensparkはまだ手探りの段階であり、提示されるコンテンツも冗長な情報が多く、必要な商品紹介情報が欠落しているなど、中国の情報資源不足が関係していると思われる。

注目すべきは、Gensparkがこのレビューの中で唯一、ビデオリンクとカバープレビューを提供するツールであることだ。YouTubeの動画リンクは直接クリック再生に対応していないため、ユーザーは外部リンクから開く必要がある。

Gensparkは、直接のファイルエクスポートやコピーはサポートしていませんが、Gensparkのウェブサイトページへのリンクとして結果を共有することだけはサポートしています。

9.キミ

総語数 1400語

キミには興味深い現象がある。審査員が別のルートを選んだため、キミは結果を英語で表示し続け、審査員はその後の回答で中国語の使用を強調しなければならなかった。

キミのレポートの質はまずまずで、キミは10個のAIツールのうち5個を正確に特定し、製品もきちんとリストアップされていた。ディープ・サーチの紹介も良かった。しかし、キミはレビュアーが言及した製品の多くを（レビュアーがリンクを提供していたにもかかわらず）省略していた。

さらに、Kimiはドキュメントへの直接エクスポートをサポートしていません。

当初、レビュアーたちはKimiの長文生成能力に感心していた。当時、Kimiの知能レベルは低かったものの、非常に長いテキストを生成する能力は魅力的でした。今日、Kimiのインテリジェンスは大幅に改善され、マルチモーダル機能も拡張されました。私たちは、Kimiのインテリジェンスのさらなる飛躍を期待しています。

10.嵐

総語数 733文字

Stormアーキテクチャはスタンフォード大学で生まれたもので、以前から利用可能だった。最近、Stormはいくつかの最適化を施されたようだが、その能力は時代から大きく遅れている。第一に、Stormの出力の単語数が少なすぎること、第二に、コンポーネントの説明がかなり一般化されており、詳細が欠けていることである。

おそらく、無料の公開インターフェースと使用制限のため、ストームの開発戦略は他の参加ツールほど積極的ではない。

全体的に、嵐のパフォーマンスは期待外れだった。

特筆すべきは、ユーザーは最初に20語以内の主題を入力し、次に目的を説明する必要があることだ。

11.シークレットタワー捜索

総語数 1259文字

リンクを含めると、シークレット・タワー・サーチのレポートの文字数は1万字近くになるが、それはフェアではない。

セクレタ・サーチは、特にページビューの点で、まずまずの成果を上げている。シークレット・タワー AI検索多数のウェブページの閲覧を初めてサポートしたSecreta Searchは、今回のレビューで374のウェブページを閲覧した。

シークレットタワー・サーチは、ニッチな商品をいくつか特定するが、商品数はまだ少ない。

ちょっと面白いことに、記事の冒頭にはWeChatグループのQRコードが掲載されている。

しかし、一般的に、Secreta Searchの記事の深さはまだ不十分であり、多くのウェブページが期待された結果を得るために読まれておらず、少々恥ずかしい。

12.双子座

総語数 8690文字

グーグルは検索における主要プレーヤーである（もちろんバイドゥのことは抜きにして）。

全体的に、グーグルジェミニの回答は質が高かったが、10個のAIツールを特定するという点では、ジェミニは6個しか見つけられなかった。

例えば、グーグルの新モデルは強力だ：

何百万ものコンテクストをサポートし、他のどのモデル（ChatGPT O1、O3を除く）よりもはるかに多くのコンテンツを出力するマルチモーダルモデル。
YouTubeやその他のGoogleエコシステムとの連携検索をサポート。
レスポンスが速い。

しかし、ジェミニはこのレビューで2つの重大な間違いを犯している：

例えば、スクリーンショットのようにコードでテキストを出力すると、書式が混乱してしまう。
外部リンクやYouTubeの紹介リンクは表示されません。

興味深いのは、ユーザーが「3つの点」ボタンをクリックすることで、AIに答えを再確認させることができる点だ。しかし、実際にはこの機能はあまり有効ではない。

13.当惑

総語数 1931年の言葉

Perplexityのエクスポートされたコンテンツフォーマットは、テキストにリンクが埋め込まれ、外部表示リンクが表示されないため、最も快適です。これはおそらくPerplexityの優れたMarkdown最適化によるものでしょう。

Perplexityは、広く知られている製品についてはそれなりに良い結果を出しているが、ニッチな製品については、Perplexityはほとんどカバーしておらず、国内の情報源をほとんど無視している。

概要

DeepSeek R1の登場により、ベンダーは表面上はうまく機能するAIディープサーチサービスを迅速に構築できるようになった。プラットフォームが検索機能を提供し、DeepSeekがディープシンキング機能を提供する。しかし、この2つを効果的に組み合わせるには、まだ多くのエンジニアリング作業が必要だ。開発にあまり労力をかけたくないのであれば、検索サービスを動かす強力なモデリング能力に頼る必要がある。

DeepSeekは、コンテンツの絶対的な正確性を保証するものではありませんが、より信頼できるように「見せる」ことはできます。

2024年2月16日現在、そして今後数ヶ月の間であっても、ウェブ上の情報に素早くアクセスし、整理することはまだ容易ではない。

今後、DeepSeek R2が何百万ものコンテクストウィンドウを実現し、マルチモーダル入力をサポートし、応答性をさらに向上させることができれば、市場における競争力は計り知れないものになるだろう。