Moteur d'inférence de recherche intelligent piloté par le corps avec SimpleQA jusqu'à une précision de 88,31 TP3T

Nouvelles de l'IAPosté il y a 5 mois Cercle de partage de l'IA

7.9K 00

Dans le domaine de l'intelligence artificielle, le développement intelligent des moteurs de recherche est sous les feux de la rampe. Récemment, une équipe composée de Salaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi et Pramod Viswanath, une équipe de chercheurs a lancé une nouvelle technologie appeléeOpen Deep Search (ODS), moteur de recherche open sourcequi vise à combler le fossé entre les moteurs de recherche IA à source fermée et les solutions à source ouverte.

Cœur de l'innovation : outil de recherche ouvert et agent de raisonnement ouvert

L'innovation de l'ODS réside dans le fait qu'il associe les derniers modèles linguistiques à grande échelle (LLM) à des intelligences de raisonnement qui lui permettent de répondre aux requêtes des utilisateurs à l'aide d'outils de recherche sur le web. Le cadre se compose de deux éléments principaux : l'outil de recherche ouvert et l'agent de raisonnement ouvert.

Outil de recherche ouverte

Open Search Tool est un outil de recherche web avancé qui surpasse les moteurs de recherche fermés existants. L'outil ne se contente pas de réécrire les requêtes de l'utilisateur si nécessaire, il extrait également le contexte pertinent des résultats de recherche et les regroupe et les réorganise afin de s'assurer que tous les résultats de recherche pertinents sont inclus. En outre, l'Open Search Tool a été adapté à des sites web importants tels que Wikipedia, ArXiv et PubMed, ce qui améliore encore la précision et l'exhaustivité des résultats de la recherche.

Figure 1 : Les utilisateurs ont la possibilité de brancher n'importe quel LLM de base de leur choix et de profiter du cadre open source de l'Open Deep Search (ODS).ODS se compose de deux éléments : l'Open Search Tool et l'Open Reasoning Agent.La requête est d'abord introduite dans l'Open Reasoning Agent et l'intelligence coordonne un ensemble d'outils disponibles pour interpréter et répondre à la requête. La requête est d'abord introduite dans l'agent de raisonnement ouvert et l'intelligence coordonne un ensemble d'outils disponibles pour interpréter la requête et y répondre. L'outil le plus important est l'Open Search Tool, qui fournit un contexte de haute qualité à partir de multiples sources de recherche sur le web. Dans nos expériences, nous utilisons Llama3.1-70B et DeepSeek-R1 comme modèles de base.

Agent de raisonnement ouvert

L'Open Reasoning Agent est un autre élément clé de l'ODS, chargé d'interpréter les tâches de l'utilisateur et de compléter les requêtes en invoquant divers outils. Deux versions de cette intelligence sont fournies : une version basée sur ReAct (ODS-v1) et une version basée sur CodeAct (ODS-v2).

ODS-v1L'ODS-v1 utilise le cadre ReAct, qui combine le raisonnement par chaîne de pensée (CoT) et les intelligences ReAct.CoT améliore le raisonnement en encourageant le modèle à réfléchir avant de répondre à une question, tandis que ReAct améliore encore l'achèvement des tâches et la prise de décision en combinant les étapes du raisonnement avec l'exécution de l'action.ODS-v1 intègre également l'API Wolfram Alpha pour traiter les calculs mathématiques complexes.
Figure 2 : Schéma de la structure de l'invite ReAct utilisée dans l'ODS-v1.
Le cadre ReAct permet l'intégration d'outils par le biais d'une interface standardisée :
```
Thought: [推理跟踪] Action: Tool[参数] Observation: [结果]
```
Dans l'ODS-v1, les intelligences ReAct utilisent des invites composées de trois options d'action : "continue.think" (=continue.think) pour la décomposition de problèmes complexes, "search" (=search internet) pour trouver des informations factuelles à l'aide d'OpenPerplex, et "calculer" (=calculate) pour se connecter à l'API de Wolfram Alpha afin de traiter les calculs numériques qui sont souvent difficiles à gérer pour les modèles de base.
ODS-v2ODS-v2 est capable de gérer des tâches plus complexes et prend en charge le travail collaboratif de plusieurs outils et intelligences.
Figure 3 : Intelligences CodeAct répondant à des questions multi-sauts dans l'ODS-v2.

Performance : au-delà des solutions à source fermée

L'ODS a démontré d'excellentes performances sur deux critères d'évaluation populaires, SimpleQA et FRAMES.

SimpleQAODS-v1 et ODS-v2 atteignent une précision de 87,71 TP3T et 88,31 TP3T, respectivement, surpassant l'IA de recherche par défaut de Perplexity (82,41 TP3T) et Perplexity Sonar Reasoning Pro (85,81 TP3T). Par rapport à l'aperçu de recherche GPT-4o d'OpenAI, ODS-v2 surpasse FRAMES, et ses performances sur SimpleQA sont presque égales.
Figure 4 : ODS-v1 identifie la bonne réponse en recoupant plusieurs sources à l'aide d'un contexte de haute qualité récupéré par Open Search Tool.Perplexité Sonar Reasoning Pro ne parvient pas à récupérer les informations de recherche pertinentes.
Figure 5 : ODS+DeepSeek-R1 fait correctement la distinction entre le 21 juillet et le 20 juillet 2022 comme date à laquelle Kaitlin Armstrong a plaidé non coupable de l'accusation de meurtre portée contre Moriah Wilson et a été traduite en justice. En revanche, Perplexity Pro a été dérouté et a donné la mauvaise réponse du 20 juillet 2022.
CADRESODS-v1+DeepSeek-R1 atteint une précision de 56,71 TP3T avec une seule recherche sur le web, tandis qu'ODS-v2+DeepSeek-R1 améliore la précision à 75,31 TP3T avec des recherches multiples, ce qui est nettement supérieur à la meilleure base de référence disponible.
Figure 6 : ODS-v1+Llama3.1-70B calcule avec précision la différence d'âge à l'aide de l'outil Wolfram Calculator, ce qui donne la bonne réponse.90 En revanche, Perplexity poursuit un raisonnement erroné et indique un âge de 79 ans.

Open source : catalyser l'innovation communautaire

La publication d'ODS ne démontre pas seulement sa puissance dans le domaine de l'IA de recherche, mais fournit également un outil puissant pour la communauté open source. L'implémentation open source d'ODS est accessible au public, et les chercheurs et développeurs peuvent accéder à https://github.com/sentient-agi/OpenDeepSearch来获取相关代码 et s'en inspirer pour innover et optimiser. pour innover et optimiser.

Perspectives d'avenir : l'Open Source donne une nouvelle orientation à l'IA de recherche

L'émergence de l'ODS marque une étape importante pour les moteurs de recherche open source. En combinant des capacités de raisonnement avancées avec des outils de recherche sur le web de haute qualité, l'ODS surpasse non seulement les solutions fermées existantes en termes de performances, mais pose également les bases d'une innovation et d'un développement futurs. Alors que la communauté open source continue de croître et que la technologie continue de progresser, l'ODS devrait faire entrer l'espace de l'IA de recherche dans une nouvelle ère.

résumés

Le lancement d'Open Deep Search est une avancée importante dans l'histoire du développement des moteurs de recherche. Il démontre non seulement le grand potentiel des solutions open source dans le domaine de l'IA, mais fournit également un outil puissant et flexible pour les utilisateurs et les chercheurs. Avec de plus en plus de développeurs rejoignant ce projet open source, l'ODS devrait favoriser le développement de la technologie de recherche IA et offrir aux utilisateurs une expérience de recherche plus intelligente et plus précise.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Le nouveau modèle de Microsoft : Phi-4 est là, avec des paramètres 14B comparables à des modèles à plus grande échelle

Nouvelles de l'IA

Il y a 8 mois

09.4K

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务

Smart Spectrum lance AutoGLM, un agent autonome d'exécution de tâches : cette fois, l'agent peut faire fonctionner activement toutes sortes d'appareils pour exécuter des tâches.

Nouvelles de l'IA

Il y a 9 mois

011.6K

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Nouvelles de l'IA

Il y a 10 mois

011.6K

DeepSeek API : application à grande échelle de la technologie de mise en cache des disques durs : une étape clé dans la civilianisation des grands modèles

Nouvelles de l'IA

Il y a 7 mois

09.6K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Moteur d'inférence de recherche intelligent piloté par le corps avec SimpleQA jusqu'à une précision de 88,31 TP3T

Cœur de l'innovation : outil de recherche ouvert et agent de raisonnement ouvert

Outil de recherche ouverte

Agent de raisonnement ouvert

Performance : au-delà des solutions à source fermée

Open source : catalyser l'innovation communautaire

Perspectives d'avenir : l'Open Source donne une nouvelle orientation à l'IA de recherche

résumés

Llama 4 series debuts : un nouveau départ pour l'innovation en matière d'IA multimodale native ?

Partenaire dédié à l'IA : Microsoft Copilot lance la mémoire, les actions et d'autres nouvelles fonctionnalités importantes

Articles connexes

Le nouveau modèle de Microsoft : Phi-4 est là, avec des paramètres 14B comparables à des modèles à plus grande échelle

Smart Spectrum lance AutoGLM, un agent autonome d'exécution de tâches : cette fois, l'agent peut faire fonctionner activement toutes sortes d'appareils pour exécuter des tâches.

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

DeepSeek API : application à grande échelle de la technologie de mise en cache des disques durs : une étape clé dans la civilianisation des grands modèles

Pas de commentaires

Dernières collections

Derniers articles

Moteur d'inférence de recherche intelligent piloté par le corps avec SimpleQA jusqu'à une précision de 88,31 TP3T

Cœur de l'innovation : outil de recherche ouvert et agent de raisonnement ouvert

Outil de recherche ouverte

Agent de raisonnement ouvert

Performance : au-delà des solutions à source fermée

Open source : catalyser l'innovation communautaire

Perspectives d'avenir : l'Open Source donne une nouvelle orientation à l'IA de recherche

résumés

Llama 4 series debuts : un nouveau départ pour l'innovation en matière d'IA multimodale native ?

Partenaire dédié à l'IA : Microsoft Copilot lance la mémoire, les actions et d'autres nouvelles fonctionnalités importantes

Articles connexes

Le nouveau modèle de Microsoft : Phi-4 est là, avec des paramètres 14B comparables à des modèles à plus grande échelle

Smart Spectrum lance AutoGLM, un agent autonome d'exécution de tâches : cette fois, l'agent peut faire fonctionner activement toutes sortes d'appareils pour exécuter des tâches.

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

DeepSeek API : application à grande échelle de la technologie de mise en cache des disques durs : une étape clé dans la civilianisation des grands modèles

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles