Concours d'assistants de recherche en IA : examen approfondi et guide de sélection de cinq outils courants

Nouvelles de l'IAPosté il y a 5 mois Cercle de partage de l'IA

18.2K 00

L'essor des assistants de recherche IA : qui peut vraiment vous aider à faire vos devoirs ?

À l'ère de l'information, la recherche implique souvent de se frayer un chemin à travers d'énormes quantités de données. Dans le passé, les chercheurs devaient rechercher, trier et organiser manuellement les informations avant de transmettre le contenu clé à des personnes telles que les chercheurs de l'Union européenne. ChatGPT Ces grands modèles de langage sont analysés. Mais avec le lancement de la fonction Deep Research d'OpenAI, les choses commencent à changer. Ces nouveaux outils d'IA promettent d'automatiser l'ensemble du processus de recherche : l'utilisateur pose simplement une question, et l'IA recherche de manière autonome sur le web, analyse les données et génère un rapport avec des citations. Ce processus est souvent piloté par des modèles avancés de grand langage, tels que o3 d'OpenAI, qui non seulement utilisent des connaissances pré-entraînées, mais acquièrent également de manière proactive des informations actualisées et effectuent un raisonnement en plusieurs étapes.

Depuis le mois de mars, plusieurs entreprises ont lancé leurs propres outils de recherche automatisée ou agents d'IA (agents), souvent appelés "assistants de recherche d'IA" ou outils de "recherche approfondie". Le concept de base de ces outils est similaire : il s'agit de tirer parti de puissantes capacités de modélisation de l'IA, combinées à la recherche sur le web, pour effectuer de manière autonome des tâches de recherche et fournir des résultats.

Cet article examine quelques-uns de ces produits très réputés sur le marché, dans le but d'explorer leurs différences de performances, les limites de leurs capacités et les meilleurs scénarios pour chacun d'entre eux au moyen d'un test en conditions réelles. Les outils utilisés pour cette comparaison sont les suivants

Recherche approfondie dans Gemini: sur la base de la base de données de Google Gémeaux Série de modèles qui mettent l'accent sur la capacité à synthétiser et à analyser l'information.
Grok 3 Recherche approfondieL'utilisation de l'IAO Grok 3 Modèle conçu pour effectuer des tâches de manière autonome, éventuellement en mettant davantage l'accent sur l'information en temps réel.
Manusun système qui prend en charge un large éventail de modèles d'intelligence artificielle (par ex. Anthropique (utilisé comme expression nominale) Claude et Qwen d'Ali) qui sont connues pour effectuer des tâches en plusieurs étapes.
Mita AI Recherche en eaux peu profondesLe modèle R1 : Combiner son modèle R1 avec un désassemblage du cadre logique, et utiliser son propre modèle pour effectuer une recherche et une intégration sur le web.
Zhipu AutoGLMIl est basé sur le grand modèle linguistique de Zhipu AI et contrôle de manière autonome les appareils numériques pour la collecte et le traitement des informations en simulant les opérations de l'utilisateur par le biais d'une interface utilisateur graphique (GUI).

Afin de comprendre les performances réelles de ces outils, nous avons présenté la même tâche de recherche relativement complexe aux cinq produits.

Essais comparatifs : générer des études de modèles d'IA

Exigences de la mission :

Rédiger un document de recherche d'environ 5 000 mots sur la modélisation de l'IA en se basant sur le plan suivant :

Aperçu des grands modèles linguistiques contemporains (par exemple, la famille GPT, Claude, LLaMA, DeepSeek, etc.)
Comparaison des caractéristiques et des scénarios d'application de chaque modèle
Analyse des limites des capacités du modèle
Stratégies de sélection des modèles de sources ouvertes ou fermées
Tutoriel sur les bases de l'API du modèle
Une explication concise des principes de la technologie des grands modèles

Mise en œuvre :

Gemini Deep Search : Il faut 8 minutes pour effectuer une recherche sur plus de 300 pages web.
Grok 3 Deep Search : il a fallu 6 minutes pour effectuer une recherche sur plus de 160 pages web.
Manus : a duré 21 minutes et a fait état de 8 sous-tâches exécutées.
Mita AI Shallow Research : 7 minutes pour rechercher plus de 300 pages web.
Zhipu AutoGLM : 16 minutes pour rechercher 71 pages web.

Notes : Le temps d'attente et le volume de recherche ne sont que des données de référence pour ce test, et les performances réelles peuvent varier en fonction de la complexité de la tâche, des conditions du réseau et de la charge du serveur.

Résumé des réponses pour chaque outil :

AI 研究助理大比拼：五款主流工具深度测评与选择指南
(Les images montrent des captures d'écran ou des résumés des rapports générés par chaque outil)

Évaluation indépendante : examen approfondi par Claude 3.7

Afin d'obtenir un point de vue relativement objectif de la part d'un tiers, nous avons soumis les cinq rapports générés au modèle Claude 3.7 d'Anthropic pour évaluation. Nous présentons ci-dessous un résumé de l'évaluation de chaque rapport par Claude 3.7 :

Zhipu AutoGLM
Le rapport tente d'imiter le format d'un document académique en citant 71 références, mais c'est plutôt vide. Le langage est trop académique, comme si le rapport utilisait la rhétorique pour masquer le manque de substance. L'analyse des forces et des faiblesses du modèle revient à répéter une description de produit et manque de profondeur.

Manus
Le rapport va à l'autre extrême, simplifiant à l'extrême des questions techniques complexes au nom de l'"intérêt des décideurs politiques" et transformant des analyses approfondies en un texte de marketing superficiel. Comme un livre pour enfants sur la physique quantique, il n'est ni approfondi ni précis.

Recherche approfondie dans Gemini
Le rapport adopte un style d'écriture académique, mais les guillemets trop nombreux nuisent à la fluidité de la lecture. Il est long et prend trop de place pour expliquer des concepts simples sans apporter d'informations substantielles. Prétendant s'adresser à des personnes non techniques, le rapport est encore truffé de jargon inexpliqué et n'atteint pas ses objectifs.

Grok 3 Recherche approfondie
La disponibilité de versions concises et détaillées est une caractéristique, mais elle expose également des problèmes de cohérence dans le contenu. La version concise est trop simplifiée et certaines projections de la version détaillée (par exemple pour 2025) sont quelque peu spéculatives car elles ne reposent pas sur une base d'argumentation suffisante et les hypothèses nécessaires ne sont pas énoncées.

Mita AI Recherche en eaux peu profondes
L'utilisation intensive de tableaux pour structurer l'information améliore l'efficacité de l'acquisition d'informations, mais la dépendance excessive à l'égard des tableaux et des délimiteurs conduit à une présentation mécanisée du contenu qui manque de cohérence narrative et de profondeur. Les explications techniques ne sont pas suffisamment liées à des scénarios d'application pratique, et les analyses des coûts des entreprises ne tiennent pas compte des entreprises de différentes tailles.

Observations générales sur Claude 3.7 :
Ces cinq rapports tentent tous d'utiliser un "emballage" différent pour masquer les lacunes de leur contenu. Qu'ils soient académiques, commerciaux ou techniques, ils semblent ne pas avoir touché à l'essentiel, à savoir une compréhension approfondie de la nature de la technologie et une réflexion approfondie sur les applications pratiques. Par exemple, le rapport DeepSeek L'attention excessive peut refléter la quête générale du secteur pour les nouvelles technologies, tandis que la minimisation de questions clés telles que la confidentialité des données et le respect de l'éthique révèle les limites des perspectives analytiques. Un bon rapport de recherche technologique doit fournir des informations et des analyses pragmatiques, et non des jeux de mots. À cet égard, les cinq rapports peuvent être améliorés.

Performances globales et notation

Sur la base de l'évaluation de Claude 3.7 et d'un examen direct du contenu du rapport, il est possible de procéder à une évaluation complète des performances des outils dans le cadre de ce test :

AI 研究助理大比拼：五款主流工具深度测评与选择指南
(L'image montre un tableau d'évaluation complet basé sur les résultats du test)

Recherche approfondie dans GeminiLes points forts sont un contenu mieux organisé, une large couverture et un support multilingue.
Mita AI Recherche en eaux peu profondesLa performance est complète et équilibrée, avec une bonne combinaison entre la profondeur technique et la lisibilité.
Grok 3 Recherche approfondieLes langues : style linguistique flexible (version double) et forte orientation pragmatique.
Zhipu AutoGLMLe contenu technique est très précis, mais la lisibilité est limitée pour les non-spécialistes.
ManusLe rapport est concis et facile à comprendre, mais au détriment de la profondeur de l'analyse.

Comment choisir : suggestions d'utilisation dans différents scénarios

Sur la base de ce test et des caractéristiques de chaque outil, voici quelques suggestions de sélection :

Aperçu des fonctions de recherche :

Recherche approfondie dans GeminiLa recherche est large et permet d'intégrer des ressources multilingues globales, mais n'est peut-être pas aussi efficace que les produits localisés pour comprendre le contenu chinois en profondeur.
Grok 3 Recherche approfondie: Très en temps réel, en particulier pour les informations commerciales et les nouvelles, mais avec un contenu technique relativement peu approfondi.
Zhipu AutoGLMLes références citées sont de grande qualité, avec une compréhension approfondie des concepts techniques, mais la recherche est relativement ciblée.
Mita AI Recherche en eaux peu profondesLes résultats de ce projet sont les suivants : une forte intégration des informations en anglais et en chinois, une couverture plus complète des domaines d'expertise et une extraction précise des informations structurées.
Manus(Ce test a porté sur la génération de rapports et les fonctions de recherche n'ont pas été pleinement démontrées, mais la plateforme est conçue pour prendre en charge l'intégration d'informations provenant de sources multiples et de flux de travail complexes).

Classement préliminaire des compétences en matière de recherche (sur la base de ce test) :

Mita AI Recherche en eaux peu profondesLes performances exceptionnelles en matière de recherche approfondie dans des domaines spécialisés, le traitement bilingue en anglais et en chinois.
Recherche approfondie dans GeminiLa couverture la plus polyvalente et la plus complète des ressources mondiales.
Zhipu AutoGLMLes avantages de la manipulation de la littérature technique chinoise et la compréhension approfondie de celle-ci.
Grok 3 Recherche approfondie: Un accès privilégié à l'information et à l'actualité commerciales en temps réel.
ManusLes points forts peuvent résider dans la flexibilité de l'exécution des tâches et des invocations de modèles multiples plutôt que dans le classement de la recherche pure.

Recommandations basées sur des scénarios :

recherche universitaireLa priorité a été donnée à Zhipu AutoGLM (haute qualité des références), suivi de Mita AI (couverture d'un domaine spécialisé).
Analyse de l'activitéLa priorité est donnée à Grok 3 (informations commerciales en temps réel), suivi de Gemini (vision globale).
développement technologiqueLa priorité est donnée à Mita AI (compréhension des documents, extraction structurée), suivi de Zhipu AutoGLM (profondeur technique).
Accès quotidien à l'information/recherche généraleLa priorité est donnée à Gemini (large couverture), suivi de Grok 3 (rapidité).
Recherche approfondie sur le contenu chinoisLa priorité est donnée à Zhipu AutoGLM ou Mita AI, qui ont une meilleure compréhension de la langue maternelle et du contexte.

Conseil important :

validation croiséePour les informations critiques ou les décisions importantes, une validation comparative à l'aide d'au moins deux outils différents est fortement recommandée pour garantir l'exactitude et l'exhaustivité des informations.
Correspondance des tâchesLe choix du produit dépend fortement de la tâche de recherche spécifique, du type d'information requis (en temps réel ou en profondeur, technique ou commercial) et des exigences en matière de format et de profondeur du rapport. Le choix du produit dépend en grande partie de la tâche de recherche spécifique, du type d'information requis (en temps réel ou en profondeur, technique ou commercial) et des exigences relatives au format et à la profondeur du rapport.
Limites des testsCette comparaison est basée sur une seule tâche. Comme Manus Les avantages d'un tel outil, qui met l'accent sur le déroulement des tâches et les capacités de diffusion multiformat, peuvent ne pas être pleinement perçus tant que d'autres types de tâches n'ont pas été accomplies. En outre, l'interface utilisateur, le coût et les capacités d'intégration de l'API sont également des facteurs à prendre en compte lors de la sélection.

Ces outils d'assistant de recherche en IA représentent sans aucun doute les tendances futures dans la manière d'accéder à l'information et de l'analyser. Bien que chacun d'entre eux présente actuellement ses propres forces et faiblesses, ils évoluent à un rythme rapide et méritent une attention soutenue. Choisir les bons outils et apprendre à les utiliser efficacement permettra d'améliorer considérablement la recherche et la prise de décision.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Google 搜索“AI 模式”上线：剑指 Perplexity 与 ChatGPT

Le "mode IA" de Google Search est lancé : il s'attaque à Perplexity et ChatGPT

Nouvelles de l'IA

Il y a 7 mois

015.8K

Gemini met gratuitement à disposition un outil de recherche approfondie

Nouvelles de l'IA

Il y a 6 mois

013K

Run:ai est open source ! La décision de Nvidia fait bondir les acteurs du monde de l'IA

Nouvelles de l'IA

Il y a 9 mois

014.3K

L'IA domestique de niveau 1 est-elle vraiment meilleure que ChatGPT ? Trois fonctionnalités de DeepSeek testées en situation réelle

Nouvelles de l'IA

Il y a 8 mois

017.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Concours d'assistants de recherche en IA : examen approfondi et guide de sélection de cinq outils courants

L'essor des assistants de recherche IA : qui peut vraiment vous aider à faire vos devoirs ?

Essais comparatifs : générer des études de modèles d'IA

Évaluation indépendante : examen approfondi par Claude 3.7

Performances globales et notation

Comment choisir : suggestions d'utilisation dans différents scénarios

Examen des outils AI PPT : Comparaison approfondie et guide de sélection de cinq plates-formes courantes

BrowseComp : OpenAI lance un nouveau benchmark pour évaluer les capacités de recherche d'information des réseaux d'IA

Articles connexes

Le "mode IA" de Google Search est lancé : il s'attaque à Perplexity et ChatGPT

Gemini met gratuitement à disposition un outil de recherche approfondie

Run:ai est open source ! La décision de Nvidia fait bondir les acteurs du monde de l'IA

L'IA domestique de niveau 1 est-elle vraiment meilleure que ChatGPT ? Trois fonctionnalités de DeepSeek testées en situation réelle

Pas de commentaires

Dernières collections

Derniers articles

Concours d'assistants de recherche en IA : examen approfondi et guide de sélection de cinq outils courants

L'essor des assistants de recherche IA : qui peut vraiment vous aider à faire vos devoirs ?

Essais comparatifs : générer des études de modèles d'IA

Évaluation indépendante : examen approfondi par Claude 3.7

Performances globales et notation

Comment choisir : suggestions d'utilisation dans différents scénarios

Examen des outils AI PPT : Comparaison approfondie et guide de sélection de cinq plates-formes courantes

BrowseComp : OpenAI lance un nouveau benchmark pour évaluer les capacités de recherche d'information des réseaux d'IA

Articles connexes

Le "mode IA" de Google Search est lancé : il s'attaque à Perplexity et ChatGPT

Gemini met gratuitement à disposition un outil de recherche approfondie

Run:ai est open source ! La décision de Nvidia fait bondir les acteurs du monde de l'IA

L'IA domestique de niveau 1 est-elle vraiment meilleure que ChatGPT ? Trois fonctionnalités de DeepSeek testées en situation réelle

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles