Uma análise lado a lado das principais ferramentas de busca profunda de IA do mercado: DeepSeek R1 supera o desempenho

Notícias sobre IAPublicado há 6 meses Círculo de compartilhamento de IA

1.2K 00

Declaração: Esta análise não é oficial e é subjetiva, e os resultados são apenas para referência.

Resumo do conteúdo

Resumo: DeepSeek A ferramenta oficial de pesquisa em rede DeepSeek R1+ se destaca como a melhor opção entre muitas ferramentas de pesquisa profunda de IA por sua simplicidade e facilidade de uso.

Se os usuários esperam respostas detalhadas, os mecanismos de pesquisa tradicionais, como o Google, ainda são uma opção sólida e testada pelo mercado, com uma experiência de pesquisa superior.
Fluxo O esquema Oracle tem um desempenho surpreendentemente bom, funcionando da mesma forma que o esquema ChatGPT O1 tem semelhanças. No entanto, graças à otimização do mecanismo de busca, a Flowith pode levar em conta fontes de informações nacionais e estrangeiras.
O desempenho do Deep Search do ChatGPT nesta análise é medíocre, o que não está de acordo com os elogios de muitas celebridades estrangeiras. Isso pode ser devido ao fato de que sua capacidade de lidar com conteúdo chinês ainda precisa ser aprimorada. Considerando seu alto custo de pesquisa, esta análise é apenas uma tentativa única.

Resultados subjetivos de pontuação

número de série	Nome da ferramenta	precisão	profundidade	(de um discurso etc.) profundidade	comprimentos	interactoma	derivados	Pontuação total (de 60)
1	Gêmeos Pensamento em Flash 2.0	8	8	9	13	8	8	54
2	saco de feijão	8	7	6	10	9	10	50
3	Modo Flowith Oracle	8	9	8	12	7	6	50
4	ChatGPT 01 Pesquisa profunda	8	8	9	9	8	7	49
5	Versão oficial do DeepSeek	9	8	9	7	8	7	48
6	Genspark	6	7	6	11	7	8	45
7	perplexidade	7	6	6	8	7	9	43
8	Nano Pesquisa	7	7	7	6	6	6	39
9	Assistente de IA HeartStream	7	8	6	3	7	7	38
10	Kimi 1,5 Longo	7	6	7	4	7	6	37
11	Busca na Torre Secreta	6	7	5	2	7	8	35
12	Tencent Yuanbao (desenvolvedores da plataforma de mensagens instantâneas QQ)ima.copolit	4	6	3	5	5	8	33
13	Tempestade	2	3	2	1	2	2	12

Esta análise é um tanto subjetiva. No entanto, os revisores definiram os seguintes critérios de julgamento em um esforço para avaliar o desempenho de cada ferramenta de busca profunda de IA em várias dimensões.

Critérios de avaliação

[Precisão].Nota: Das 12 ferramentas da competição (10 no início da avaliação), as ferramentas foram examinadas para ver se conseguiam identificar e listar com precisão 10 ferramentas de IA. Se a ferramenta não reconhecer a palavra-chave "AI Deep Search", ela receberá a pontuação mais baixa. Se a fonte de informações não for fornecida, 5 pontos serão deduzidos por padrão.
[Amplitude]Avalie a capacidade da ferramenta de cobrir totalmente o conteúdo solicitado pelo revisor, incluindo informações importantes, como descrições de produtos, caminhos tecnológicos, etc.
[Profundidade]Avaliações aprofundadas são um tanto subjetivas e serão pontuadas pelo revisor com base em seu entendimento pessoal; pode haver algum grau de viés de percepção pessoal nessa pontuação.
[Comprimento]A principal medida é o número de palavras no texto gerado pela ferramenta.
[Interação]Avalie a experiência interativa da ferramenta, por exemplo, se ela oferece suporte a perguntas de acompanhamento, informações sobre preços, limites de uso, etc.
[Exportar]Avalie os recursos de exportação de dados da ferramenta. As ferramentas que suportam apenas a exportação de links ou imagens serão consideradas como tendo recursos de exportação insuficientes e, idealmente, a ferramenta deve, no mínimo, suportar a cópia de texto completo e a exportação de documentos PDF.

Palavra-chave evolução

Pistas iniciais

最近 AI 搜索很火，我想你围绕 Deep Search
以及他的开源版本还有各种 AI 搜索，整理出一篇详尽的报告，
至少包括产品名称、原理、技术路径

Palavras-chave otimizadas

Para obter um relatório mais estruturado e abrangente, o revisor se baseou no relatório fornecido pela Flowith Claude A função de otimização da palavra-chave otimiza a palavra-chave inicial para o seguinte:

<研究主题>
AI搜索技术（重点分析Deep Search及其开源版本）
</研究主题>
<报告结构说明>
你将创建一份关于特定AI技术主题的深度分析报告。请按以下结构组织内容：
概述（2-3段）
技术/主题的整体介绍
核心发现与重要性
现状与未来影响
背景分析
技术发展背景与行业现状
该技术的战略价值
本报告的覆盖范围
技术解析
核心技术原理
关键技术组件
实现路径与方法论
架构细节（如可获得）
市场分析
主要产品与实现方案
核心厂商技术路线
解决方案对比
开源替代方案
未来展望
潜在发展方向
现存挑战与限制
未来研究重点
<格式要求>
使用Markdown标题（# 主标题，## 子标题）
保持专业书面语气
技术主张需附具体解释
不同方案需对比分析
公开信息缺失处需注明
不确定的技术细节需明确标注
聚焦事实性信息，避免推测
使用规范技术术语但保持可读性
<注意事项>
确保分析深度与完整性
保持客观中立立场
提供可验证的技术细节
明确区分事实与推测
包含实际案例与产品
注明当前认知局限
请将完整报告置于<report>标签内，特别注意：
对Deep Search技术架构进行重点剖析
列举不少于5个同类AI搜索产品
开源项目需标注许可证类型
技术路径需包含检索增强生成(RAG)等关键技术
需包含向量数据库等基础设施支持分析

Ao usar a Deep Search do ChatGPT, a ferramenta solicitou que o revisor respondesse a algumas perguntas para esclarecer a direção da pesquisa, e o revisor adicionou outros refinamentos aos prompts. Entretanto, como os prompts complementados eram longos e continham links, eles não serão repetidos aqui.

Resultados da avaliação por plataforma

1. pãezinhos de feijão

Contagem total de palavras: 2918 palavras

O Beanbag é excelente em engenharia, e o desempenho geral é quase perfeito, exceto pelo conteúdo relacionado à nano busca.

O documento exportado tem um catálogo, e a experiência geral é tranquila e confortável, com um alto grau de conclusão do produto, de acordo com a riqueza de sua linha de produtos de aplicativos.

A deficiência do Beanbag é que ele ainda não possui seu próprio modelo em grande escala com vantagens significativas no nível de inteligência. Como resultado, seu conteúdo apresenta o problema da falta de profundidade, com uma nova forma de apresentação de conteúdo, mas a profundidade do conteúdo precisa ser aprimorada.

2. nanopesquisa

Contagem total de palavras: 1606 palavras

O Nano Search da 360 é um produto com recursos integrados. À primeira vista, os módulos funcionais são mais completos e vêm com um DeepSeek R1 Tecnologia. Ele apresenta uma boa descrição da OpenAI no início do artigo, mas, em termos de introdução dos produtos de busca profunda de IA, o conteúdo não é suficientemente abrangente e a extensão é curta. No entanto, a introdução dos recursos de cada produto pela NanoSearch é mais proeminente, e sua capacidade de resumi-los é justa. Além disso, a NanoSearch oferece alguns produtos de pesquisa que estão fora do escopo de conhecimento do revisor, o que pode ser esclarecedor, mesmo que não sejam estritamente produtos de IA.

No entanto, a nano busca não suporta a função de acompanhamento, a função de compartilhamento suporta apenas links e imagens (sem texto completo), e a tendência de comercialização é óbvia.

3. ima.copliot (Tencent Yuanbao)

Contagem total de palavras: 1417 palavras

A Tencent havia lançado anteriormente uma ferramenta que combinava funções de pesquisa e base de conhecimento. Naquela época, a ferramenta era equipada com um modelo híbrido com inteligência média, mas suas fontes de informação eram de alta qualidade, principalmente da plataforma pública. Agora, com a adição da função de pesquisa profunda do DeepSeek R1, a qualidade do conteúdo foi significativamente aprimorada.

A principal vantagem do ima.copliot é que os usuários podem adicionar convenientemente o conteúdo dos números públicos pesquisados à sua base de conhecimento pessoal e realizar perguntas e respostas com base na base de conhecimento, o que é um recurso altamente prático. A plataforma de números públicos é a vantagem exclusiva do recurso ima.copliot. Quando os usuários usam outros produtos semelhantes, eles geralmente precisam clicar manualmente no link do número público para acessar e salvar o conteúdo.

No entanto, em comparação com as informações de rede aberta, há uma certa defasagem na atualidade das informações de números públicos. Ao mesmo tempo, devido ao rigoroso mecanismo de auditoria da plataforma de números públicos, a circulação de algumas coisas emergentes, especialmente links externos, é restrita, resultando em resultados de pesquisa às vezes tendenciosos. Ao pesquisar informações fora da plataforma de números públicos, o desempenho do ima.copliot é relativamente ruim.

Como resultado, o ima.copliot teve um desempenho um pouco abaixo das expectativas nesta análise, e seus resultados de pesquisa foram pouco correlacionados com o tópico da análise. Em particular, sob o tema "AI Deep Search", muitas das informações fornecidas pelo ima.copliot ainda estão no nível da arquitetura de pesquisa tradicional.

O ima.copliot continua sendo uma ferramenta valiosa para domínios específicos. No entanto, talvez seja necessário adotar uma estratégia de desenvolvimento mais agressiva e diferenciada ao visar o domínio público mais amplo.

Além disso, o ima.copliot suporta apenas a exportação de copiar e colar.

4. assistente de IA da Heartstream

Contagem total de palavras: 1399 palavras

diz-se que Assistente de IA da Heartstream Originário do Alibaba. O produto é mais rico em recursos.

Por exemplo, o Mindstream AI Assistant fornece mapas mentais no início dos relatórios e pode gerar podcasts do tipo NotebookLLM de conversas entre homens e mulheres, ideais para a produção de conteúdo de podcast de IA.

O número de produtos de IA listados nos resultados da pesquisa é pequeno, mas a precisão dos nomes dos produtos é alta. As comparações na tabela não são totalmente precisas, mas se comparam favoravelmente com outras ferramentas de avaliação.

Embora o número de palavras no texto seja pequeno, o conteúdo gerado pelo HeartStream AI Assistant é mais variado, incluindo tabelas, imagens e outros elementos, o que faz com que o conteúdo pareça mais rico. No entanto, algumas das imagens estão pouco relacionadas ao tema, e o tema não é suficientemente claro.

O processo de raciocínio do HeartStream AI Assistant é bem apresentado e as fontes de informação são bem identificadas.

Seu principal problema é que a função de compartilhamento e exportação não é suficientemente conveniente, e o conteúdo gráfico é formatado incorretamente após a cópia.

5. pesquisa profunda do ChatGPT

Contagem total de palavras: 2865 palavras

Como a Deep Search oficial da OpenAI, a ChatGPT Deep Search teve um desempenho um pouco abaixo das expectativas nesta análise, com relativamente pouco resultado, o que não está de acordo com sua taxa de associação mensal de US$ 200.

Depois de conversar com um amigo que ajudou na revisão, a análise sugere que pode haver dois motivos para isso:

A imposição de muitas restrições condicionais ao macromodelo de inferência pode, em vez disso, limitar seu desempenho, e as palavras-chave podem ser subotimizadas.
O modelo GPT não tem uma vantagem inicial no processamento de informações em chinês, portanto, talvez seja necessário tentar pesquisar em inglês e responder em chinês.

No entanto, o ChatGPT Deep Search tem seus méritos:

Durante a sessão de perguntas, o ChatGPT Deep Search primeiro fará várias perguntas ao usuário para orientá-lo sobre a direção da pesquisa. Isso ajuda a evitar o desperdício de recursos ou o viés de direção. Por exemplo, os prompts iniciais do revisor eram mais sucintos e, após a orientação retórica do ChatGPT Deep Search, o revisor refinou os prompts. Essas duas partes dos prompts foram combinadas e fornecidas como os novos prompts padrão para todas as ferramentas de busca profunda de IA participantes. Entre eles, os avaliadores ficaram impressionados com as perguntas retóricas do ChatGPT Deep Search, que são de alta qualidade e podem ser usadas como referência de processo padrão para futuros projetos de pesquisa de IA.

O resultado do ChatGPT Deep Search é mais parecido com um artigo completo com uma lógica mais coerente. A capacidade de gerar textos longos e a forte capacidade de raciocínio constituem suas altas barreiras técnicas. No momento, muitas ferramentas de pesquisa acessaram o DeepSeek R1 para aprimorar a capacidade de raciocínio profundo, mas, devido à janela de contexto limitada do DeepSeek R1 (32K), essas ferramentas, em termos de geração de conteúdo, na verdade, são mais como preencher o conteúdo com base no esboço. Embora não haja nada de errado com essa abordagem, a experiência do usuário seria muito melhor se eles pudessem gerar artigos longos e coerentes como o ChatGPT Deep Search.

6. versão oficial do DeepSeek

Contagem total de palavras: 1625 palavras

A combinação de deep thinking + pesquisa na Internet do DeepSeek teve um bom desempenho, especialmente em termos de correspondência de recursos, e foi capaz de pesquisar mais softwares emergentes e de nicho. No entanto, devido à extensão do contexto, a versão oficial do DeepSeek não pôde apresentar todos os produtos na análise, embora sua apresentação dos recursos do produto tenha sido pontual e basicamente tenha atendido às expectativas do avaliador.

Tendo como pano de fundo a crescente estabilidade do serviço oficial do DeepSeek, o revisor acredita que o DeepSeek-R1 + pesquisa em rede agora é ideal para o usuário médio obter respostas de qualidade relativamente alta com um limite baixo.

No entanto, o problema da "ilusão" ainda existe na versão oficial do DeepSeek. Se a versão oficial puder fortalecer a anotação da fonte de informações e expandir a janela de contexto, espera-se que a experiência do usuário seja aprimorada ainda mais. Obviamente, a velocidade de resposta também precisa ser continuamente otimizada.

7. modelo Oracle da Flowith.ai

Contagem total de palavras: 5369 palavras

O Flowith.ai é um serviço de base de conhecimento no estilo quadro branco. Sua publicidade inicial se concentra no modelo Oracle, em que o problema do usuário é dividido em subproblemas e etapas pela inteligência do agente, e o usuário pode modificar e confirmar os resultados, após o que o agente os pesquisa e organiza.

Os resultados da análise mostram que o Flowith realiza uma pesquisa mais extensa na segunda etapa. Não está claro qual modelo o Flowith usa nessa etapa, mas supõe-se que provavelmente seja o modelo Gemini, que é mais capaz de contextualizar, e o Flowith é a única ferramenta na análise capaz de fornecer uma lista completa das 10 ferramentas de IA solicitadas pelo avaliador, o que é digno de reconhecimento. Além disso, o mecanismo de questionamento retórico do Flowith na fase inicial é semelhante à maneira como o OpenAI Deep Search interage.

Entretanto, o Flowith não permite muitos ajustes e controles manuais durante o processo de busca. Na verdade, nenhuma das ferramentas participantes tinha muito controle sobre o processo de busca, mas a visualização do processo de busca pelo Flowith cria a "ilusão" de um envolvimento profundo.

Além disso, o desempenho do Flowith na Deep Search da OpenAI não é suficientemente preciso, pois os resultados têm mais probabilidade de se basear em uma única palavra-chave do que na relevância da OpenAI. Isso é lamentável e reflete a importância do próprio modelo de inferência + texto longo O3 da OpenAI.

Esperamos que a Flowith tenha acesso às APIs do Claude 4.0, do O3 ou do DeepSeek R2 subsequente no futuro, para otimizar continuamente os recursos de engenharia e levar mais imaginação aos usuários.

8. Genspark

Contagem total de palavras: 3406 palavras

O Genspark recebeu atenção por seu modelo de pesquisa AI Agent + e por apresentar os resultados da pesquisa na forma de notas ilustradas semelhantes ao Little Red Book. No entanto, naquela época, devido à falta de capacidade do modelo, a qualidade do conteúdo de saída era ruim e a pontualidade também era ruim. Quase um ano depois, a Genspark lançou recentemente sua própria função Deep Search.

Ao revisitar o Genspark, fica claro que houve uma melhoria significativa em seus recursos; os produtos da Genspark sempre se caracterizaram por sua sofisticação e facilidade de uso. Os produtos da Genspark sempre se caracterizaram por sua maturidade e facilidade de uso; por exemplo, eles levam mais tempo para serem pensados, recuperam uma quantidade maior de informações e oferecem suporte à notificação por e-mail da conclusão do relatório, enquanto a introdução da versão O3 do Deep Search pela Genspark é mais pontual. No entanto, de modo geral, o Genspark ainda está em fase exploratória, e o conteúdo que ele apresenta tem mais informações redundantes e faltam as informações necessárias para a introdução do produto, o que pode estar relacionado à falta de recursos de informação chineses.

Vale a pena observar que o Genspark é a única ferramenta nesta análise que fornece links de vídeo e visualizações de capa. Embora os links de vídeo do YouTube não ofereçam suporte ao clique direto para reprodução, os usuários ainda precisam abri-los por meio de um link externo.

O Genspark não suporta a exportação ou cópia direta de arquivos, apenas o compartilhamento de resultados como links para as páginas do site do Genspark.

9. Kimi

Contagem total de palavras: 1400 palavras

Há um fenômeno interessante com o Kimi. Como o revisor escolheu uma rota diferente, o Kimi continuou a exibir os resultados em inglês, e o revisor teve que enfatizar o uso do chinês em suas respostas posteriormente.

A qualidade do relatório de Kimi foi razoável, com Kimi identificando com precisão 5 das 10 ferramentas de IA, e os produtos foram listados de forma organizada. A introdução à Deep Search também foi bem apresentada. No entanto, Kimi omitiu muitos dos produtos mencionados pelo revisor (embora o revisor tenha fornecido links para eles).

Além disso, o Kimi não oferece suporte à exportação direta para documentos.

Logo no início, os revisores ficaram impressionados com os recursos de geração de textos longos do Kimi. Embora o nível de inteligência do Kimi fosse baixo na época, sua capacidade de gerar textos muito longos ainda era atraente. Hoje, a inteligência do Kimi foi significativamente aprimorada e expandida para incluir a funcionalidade multimodal. Estamos ansiosos por mais avanços na inteligência do Kimi.

10. tempestade

Contagem total de palavras: 733 palavras

A arquitetura Storm foi criada na Universidade de Stanford e está disponível há algum tempo. Recentemente, o Storm parece ter passado por algumas otimizações, mas seus recursos estão muito defasados. Em primeiro lugar, a contagem de palavras do resultado do Storm é muito baixa e, em segundo lugar, as descrições dos componentes são bastante generalizadas e carecem de detalhes.

Talvez devido à sua interface pública gratuita e às limitações de uso, a estratégia de desenvolvimento do Storm não seja tão agressiva quanto a das outras ferramentas participantes.

No geral, o desempenho do Storm foi decepcionante.

É importante observar que o usuário deve primeiro inserir um assunto de até 20 palavras e, em seguida, descrever a finalidade.

11. buscas em torres secretas

Contagem total de palavras: 1259 palavras

Se você incluir os links, a contagem de palavras do relatório da Secret Tower Search se aproxima de 10.000 palavras, mas isso não é justo.

O Secreta Search teve um desempenho razoavelmente bom, especialmente em termos de visualizações de página. Pesquisa de IA da Torre Secreta O primeiro a suportar a navegação em um grande número de páginas da Web, o Secreta Search navegou em 374 páginas da Web nesta análise.

O Secret Tower Search identifica alguns produtos de nicho, mas o número de produtos ainda é baixo.

De forma um pouco divertida, um código QR para um grupo do WeChat aparece na frente do artigo.

No entanto, em geral, a profundidade dos artigos na Secreta Search ainda é insuficiente, e um grande número de páginas da Web não é lido para obter os resultados esperados, o que é um pouco embaraçoso.

12. Gêmeos

Contagem total de palavras: 8690 palavras

O Google é um dos principais participantes da pesquisa (sem mencionar o Baidu, é claro).

No geral, as respostas do Google Gemini foram de alta qualidade, mas em termos de identificação de 10 ferramentas de IA, o Gemini encontrou apenas 6. Embora acima da média, o Gemini poderia ter se saído melhor.

Os novos modelos do Google são poderosos, por exemplo:

Modelo multimodal que suporta milhões de contextos e produz muito mais conteúdo do que qualquer outro modelo (exceto o ChatGPT O1, O3).
Suporte para o YouTube e outras pesquisas conectadas ao ecossistema do Google.
Tempo de resposta rápido.

Mas a Gemini também comete dois erros gritantes nessa análise:

Às vezes, não é suficiente A saída de conteúdo formatado, por exemplo, a saída de texto em código, conforme mostrado na captura de tela, leva a uma formatação confusa.
Os links externos e os links de referência do YouTube não são exibidos.

Um detalhe interessante é que o usuário pode clicar no botão "três pontos" para que a IA verifique novamente a resposta. Na prática, porém, esse recurso não é muito eficaz.

13. perplexidade

Contagem total de palavras: 1931 palavras

O formato de conteúdo exportado pelo Perplexity é o mais confortável, pois incorpora links no texto e não mostra links de exibição externos. Isso provavelmente se deve à excelente otimização de Markdown do Perplexity.

O Perplexity tem um desempenho razoavelmente bom para produtos amplamente conhecidos, mas para produtos de nicho, o Perplexity tem pouca cobertura e ignora amplamente as fontes domésticas.

resumos

O advento do DeepSeek R1 permitiu que os fornecedores criassem rapidamente serviços de pesquisa profunda de IA que funcionam bem na superfície. As plataformas fornecem a funcionalidade de pesquisa e o DeepSeek fornece os recursos de pensamento profundo. No entanto, ainda é necessário muito trabalho de engenharia para combinar os dois de forma eficaz. Se você não quiser se esforçar muito no desenvolvimento, precisará contar com fortes recursos de modelagem para conduzir o serviço de busca.

O DeepSeek não garante a precisão absoluta do conteúdo, mas pode fazer com que ele "pareça" mais confiável.

A partir de 16 de fevereiro de 2024, e mesmo nos próximos meses, ainda não será fácil acessar e organizar rapidamente as informações na Web, e isso exigirá um investimento significativo e contínuo de recursos e conhecimento técnico.

Olhando para o futuro, se o DeepSeek R2 puder alcançar milhões de janelas contextuais, suportar entradas multimodais e melhorar ainda mais a capacidade de resposta, sua competitividade no mercado será imensurável.