Recherche approfondie de l'OpenAI : comment la formation de bout en bout ouvre la voie à l'avenir des agents d'IA

Isa Fulford et Josh Tobin, d'OpenAI, ont récemment examiné en profondeur le nouveau produit de l'agent d'IA de l'entreprise, Deep Research, sur le podcast Training Data, en notant que Deep Research représente une avancée majeure dans les capacités de recherche en IA, en utilisant une formation de bout en bout des modèles plutôt qu'un processus traditionnel fixe. processus fixe traditionnel.

OpenAI 的 Deep Research:端到端训练如何引领 AI Agent 的未来

Les deux propriétaires de produits ont expliqué en détail comment les données d'entraînement de haute qualité et l'OpenAI o3 Modèles (Ils expliquent également comment les puissantes capacités d'inférence du modèle d'inférence de pointe d'OpenAI contribuent à la stratégie de recherche flexible de Deep Research. Ils partagent également la vision de Sam Altman pour Deep Research, qui s'attend à ce qu'il prenne en charge une part importante des tâches basées sur la connaissance. En outre, pour renforcer la transparence et la confiance des utilisateurs dans le produit, Deep Research a été conçu pour intégrer des fonctionnalités clés telles que des sources de citation et un processus de clarification des exigences. En réduisant en quelques minutes ce qui prenait des heures, Deep Research révolutionne les possibilités de nombreux scénarios d'applications professionnelles et personnelles.

Articles avec des points de vue similaires réf. lire :L'avenir est là : un regard approfondi sur l'ère du "modèle en tant que produit".

Adresse originale : https://www.sequoiacap.com/podcast/training-data-deep-research/

 

Résumé du contenu

Dans ce podcast, Isa Fulford et Josh Tobin d'OpenAI présentent Deep Research, un agent d'intelligence artificielle qui effectue des recherches complètes en ligne en 5 à 30 minutes en interrogeant plusieurs sites web et en générant des rapports complets avec des citations détaillées. Cet épisode explique comment OpenAI construit des agents d'IA efficaces et donne un aperçu de ce que l'avenir réserve à Deep Research dans les applications commerciales et personnelles.

  • La formation de bout en bout est plus performante que la planification manuelleAu lieu de l'approche habituelle de construction d'un agent, qui consiste à construire un graphe opérationnel fixe contenant les nœuds d'un modèle linguistique, Deep Research s'entraîne de bout en bout, directement sur des tâches de navigation complexes. Cette approche permet au modèle de développer des stratégies flexibles de collecte et d'intégration d'informations qui seraient difficiles à réaliser si elles étaient écrites manuellement.
  • La qualité des données est un atout majeurLe projet "Deep Research" : Des données d'entraînement de haute qualité sont essentielles au succès du développement de la recherche en profondeur. L'équipe OpenAI utilise o3 Modèles (le modèle d'inférence de pointe d'OpenAI) Des capacités d'inférence puissantes et un réglage fin du modèle sur des exemples soigneusement sélectionnés de tâches de navigation complexes, une combinaison qui a donné lieu à des résultats très créatifs.
  • L'agent sait définir des tâches claires mais flexiblesDeep Research démontre qu'un agent d'intelligence artificielle peut être formé pour gérer des flux de travail spécifiques qui ne peuvent pas être saisis par des règles rigides. Le modèle est capable d'adapter sa stratégie de recherche en fonction des résultats préliminaires, ce qui le rend idéal pour des tâches telles que les études de marché, les analyses de la littérature scientifique et les études de consommation, qui bénéficient d'une collecte d'informations complète et exploratoire.
  • La transparence et le contrôle renforcent la confianceLe modèle Deep Research permet d'instaurer la confiance des utilisateurs grâce à des citations claires, à la pré-clarification des exigences et à la visualisation du processus de raisonnement en chaîne de l'esprit. Cette transparence, associée à la capacité du modèle à intégrer des informations provenant de sources multiples, permet aux utilisateurs de valider leurs conclusions tout en bénéficiant d'une recherche exhaustive qu'il leur serait difficile de mener à bien par eux-mêmes.
  • La compression du temps crée de nouvelles possibilitésLa recherche approfondie réduit les tâches de recherche qui prenaient des heures à quelques minutes, ce qui n'est pas seulement un gain de temps, mais change fondamentalement le paradigme de la façon dont les travailleurs du savoir travaillent. Les utilisateurs peuvent désormais effectuer des recherches approfondies pour prendre des décisions pour lesquelles ils n'avaient pas le temps auparavant, comme l'analyse d'investissements potentiels ou la planification d'événements spéciaux.

 

transcription du podcast

Josh Tobin. Dans ce domaine, je vois régulièrement des personnes tirer une leçon : nous pensons pouvoir écrire nos propres programmes pour faire un travail plus intelligent que les modèles. Mais en réalité, ce sont généralement les modèles qui, au fur et à mesure que le domaine progresse, trouvent de meilleures solutions que les humains.

La leçon la plus importante à tirer de l'apprentissage automatique est peut-être que l'on obtient ce que l'on optimise. Donc, si vous pouvez construire un système qui vous permet d'optimiser directement les résultats que vous souhaitez, les résultats seront bien meilleurs que si vous essayez d'assembler des modèles qui ne sont pas optimisés de bout en bout pour la tâche que vous essayez d'accomplir. À long terme, je pense donc que le réglage fin de l'apprentissage par renforcement au-dessus des modèles est probablement un élément clé de la construction de l'agent le plus puissant.

Sonya Huang. Nous sommes heureux d'accueillir Isa Fulford et Josh Tobin, les propriétaires du produit OpenAI Deep Research. Deep Research a été lancé il y a trois semaines et est rapidement devenu un succès, utilisé par de nombreuses personnalités technologiques, telles que les frères Collison, à des fins diverses allant de l'analyse de l'industrie à la recherche médicale et même à l'organisation de fêtes d'anniversaire ! .

Deep Research s'entraîne à des tâches complexes de navigation et d'inférence grâce à l'apprentissage par renforcement de bout en bout, et constitue le dernier ajout à la famille de produits OpenAI Agent. Opérateur Le deuxième produit après le premier. Nous avons discuté avec Isa et Josh de Deep Research sur une variété de sujets, de ses cas d'utilisation à sa technologie sous-jacente, en passant par ce que nous attendons des futurs produits Agent d'OpenAI.

Isa et Josh, bienvenue dans l'émission.

Lauren Reeder. Merci d'être venus. Merci beaucoup de nous avoir rejoints.

Josh Tobin. Je suis heureux d'être ici.

Isa Fulford. Merci pour l'invitation.

Qu'est-ce que la recherche approfondie ?

Lauren Reeder. Commençons donc par expliquer ce qu'est Deep Research. Parlez-nous un peu de ses origines et de ce que fait ce produit.

Isa Fulford. Deep Research est un agent qui effectue des recherches sur un grand nombre de sites en ligne et génère des rapports très complets. Il peut faire des choses qui prendraient des heures à un humain. Et il est intégré dans ChatGPT ChatGPT est un outil puissant qui peut répondre à vos questions en seulement 5 à 30 minutes. Par conséquent, il permet une recherche plus approfondie et des réponses à vos questions avec des sources plus détaillées et plus spécifiques que les réponses régulières de ChatGPT.

Il s'agit de notre publication dePremier agent C'est le cas de l'un d'entre eux. Nous avons également publié Operator auparavant. Deep Research est donc le deuxième agent, et nous en publierons d'autres à l'avenir.

Sonya Huang. Quelle est l'histoire de Deep Research ? Quand avez-vous décidé de faire cela ? D'où est venue l'inspiration ? Combien de personnes ont été impliquées dans son développement ? Comment s'est déroulé le processus de réalisation ?

Josh Tobin. Bonne question. C'était avant que je ne rejoigne l'OpenAI.

Isa Fulford. Oui, c'est vrai. [Je pense qu'il y a environ un an, nous avons constaté beaucoup de succès en interne dans l'utilisation de ce nouveau modèle d'inférence et dans l'entraînement des modèles à réfléchir avant de répondre. À l'époque, nous nous concentrions principalement sur les mathématiques et les sciences, mais je pense que l'autre chose que ce nouveau mécanisme de modélisation de l'inférence débloque est la capacité d'effectuer des tâches à plus long terme qui impliquent les capacités d'un agent.

Nous pensons que de nombreuses personnes doivent effectuer des tâches qui nécessitent de nombreuses recherches en ligne ou beaucoup d'informations de base externes, ce qui implique un raisonnement approfondi et une différenciation des sources. Et il faut être très créatif pour faire ce genre de choses. Je pense que nous avons enfin trouvé des modèles, ou des moyens de former des modèles, qui nous ont permis de résoudre certaines de ces tâches. Nous avons donc décidé d'essayer de commencer à former des modèles pour qu'ils accomplissent les tâches suivantesParcourir les tâches. Utilisez la même méthodologie que celle utilisée pour former le modèle d'inférence, mais appliquez-la à une tâche plus concrète.

Sonya Huang. Est-ce votre idée ? Josh, comment avez-vous été impliqué ?

Isa Fulford. Oui, au départ, c'était moi et Yash Patil, un collègue d'OpenAI, qui travaillait sur un projet similaire qui sera également publié à un moment donné, et nous étions très enthousiastes à ce sujet. Nous avons construit une première version de démonstration. Et Thomas Dimson, qui est un très bon ingénieur, est prêt à se plonger dans n'importe quoi et à faire beaucoup de travail. Le processus a donc été très intéressant.

Josh Tobin. Oui, j'ai rejoint OpenAI un peu plus tard. J'avais travaillé à l'OpenAI plus tôt dans ma carrière, et lorsque je suis revenu, j'ai suivi divers projets et j'étais très intéressé par certains de nos projets d'agents, y compris celui-ci, et je me suis donc impliqué.

Lauren Reeder. C'est très bien. Veuillez préciser les groupes d'utilisateurs pour lesquels vous développez Deep Research.

Josh Tobin. Oui, il est en fait conçu pour toute personne qui effectue un travail de connaissance dans son travail quotidien ou dans sa vie. De nombreux utilisateurs s'en servent dans le cadre de leur travail, par exemple pour effectuer des recherches au travail afin de comprendre les marchés, les entreprises, les biens immobiliers ......

Isa Fulford. Une grande partie de la recherche scientifique et de la recherche médicale. Je pense que nous avons vu beaucoup d'exemples médicaux également.

Josh Tobin. OUI. L'une des choses qui nous enthousiasment le plus, c'est que le style est le suivant : je dois passer beaucoup de temps à faire quelque chose, je dois faire beaucoup de recherches sur le web et rassembler beaucoup d'informations, et cela ne se limite pas au travail, mais c'est aussi utile pour le shopping et les voyages.

Isa Fulford. Nous sommes donc ravis de la sortie de la version Plus, qui permettra à un plus grand nombre de personnes d'essayer Deep Research et nous permettra peut-être de voir de nouveaux cas d'utilisation.

Lauren Reeder. Excellent. C'est certainement l'un des produits que j'ai le plus utilisé ces dernières semaines. Il est excellent.

Isa Fulford. Je suis très heureux de vous l'entendre dire.

Josh Tobin. L'utilisez-vous pour le travail ?

Lauren Reeder. Le travail, bien sûr. Il y a aussi le divertissement.

Sonya Huang. À quoi sert-il ?

Lauren Reeder. Oh, pour moi ? C'est vrai. J'envisageais d'acheter une nouvelle voiture et je me demandais quand la prochaine génération de cette voiture serait commercialisée. J'ai donc demandé à Deep Research d'analyser toutes les rumeurs concernant cette voiture, ainsi que toutes les opérations antérieures de ce constructeur automobile. Il a rédigé un très bon rapport et m'a dit que je devrais peut-être attendre quelques mois, mais que la voiture devrait être commercialisée cette année, dans les prochains mois.

Josh Tobin. OUI. L'un des aspects les plus intéressants de ce site est qu'il ne se contente pas de rassembler toutes les informations relatives à une source particulière, mais qu'il est également très efficace pour trouver des informations obscures et bizarres sur le web. Par exemple, si vous voulez savoir quelque chose de très spécifique qui pourrait ne pas apparaître sur la première page des résultats de recherche, il est également très efficace pour ce genre de choses. C'est génial.

Des cas d'utilisation surprenants

Lauren Reeder. Quels sont les cas d'utilisation surprenants que vous avez vus ?

Josh Tobin. Oh.

Isa Fulford. Je pense que la chose la plus surprenante pour moi est le nombre de personnes qui l'utilisent pourCode d'écriture.

Josh Tobin. Oui.

Isa Fulford. Ce n'est pas vraiment un cas d'utilisation que j'ai envisagé, mais j'ai vu beaucoup de gens dire sur Twitter et sur divers canaux où nous pouvons obtenir des commentaires qu'ils l'utilisent pour écrire du code et rechercher du code, et qu'ils l'utilisent également pour trouver la dernière documentation sur un paquet particulier et pour les aider à écrire des scripts ou autre chose.

Josh Tobin. Oui, je suis un peu gêné que nous n'ayons pas pensé à ce cas d'utilisation.

Isa Fulford. [Oui.

Josh Tobin. Cela peut sembler évident pour les utilisateurs de ChatGPT, mais je sais qu'il est vraiment impressionnant qu'il le fasse si bien.

Sonya Huang. Comment pensez-vous que l'équilibre entre l'utilisation commerciale et l'utilisation personnelle évoluera au fil du temps ? Par exemple, vous avez mentionné la prochaine version Plus. Dans un an ou deux, pensez-vous qu'il s'agira principalement d'un outil professionnel ou d'un outil grand public ?

Isa Fulford. J'espère que c'est les deux. Je pense que c'est une capacité très polyvalente, et je pense que c'est quelque chose que nous faisons tous dans notre travail et dans notre vie personnelle. J'espère donc que c'est les deux.

Josh Tobin. Oui, j'attends les deux avec impatience. Je pense que la magie de ce système réside dans le fait qu'il permet aux gens de gagner beaucoup de temps. S'il y a quelque chose qui vous prendrait des heures - dans certains cas, nous avons entendu dire que cela prenait même des jours - les gens peuvent simplement l'introduire dans Deep Research et obtenir leurs propres résultats qui auraient pris beaucoup de temps pour arriver à 90%. Donc, oui, j'ai tendance à penser qu'il y a plus de tâches de ce type dans le monde des affaires que dans le monde personnel. Mais je suis sûr que cela fera partie de la vie des gens, quel que soit le domaine.

Lauren Reeder. C'est devenu mon principal mode d'utilisation de ChatGPT. Je choisis toujours la recherche approfondie plutôt que le mode normal.

Isa Fulford. Vraiment ?

Lauren Reeder. (Rires)

Josh Tobin. Oui, c'est vrai. Tu es si patient.

Lauren Reeder. Apparemment, oui.

Lauren Reeder. Quels sont les cas d'utilisation par les consommateurs que vous observez ? Qu'est-ce qui vous enthousiasme ?

Isa Fulford. Je pense qu'il s'agit en grande partie de conseils en matière d'achats et de voyages. Personnellement, j'utilise beaucoup le modèle. Je l'utilise depuis des mois pour ce genre de choses. Il se trouve que nous étions au Japon lorsque Deep Research est sorti, et il m'a été très utile pour trouver des restaurants qui répondent à des besoins spécifiques, ainsi que des choses que je n'aurais peut-être pas trouvées.

Josh Tobin. OUI. Je trouve cela utile lorsque vous devez acheter quelque chose de cher, que vous planifiez un voyage spécial ou que vous voulez passer beaucoup de temps à réfléchir. En ce qui me concerne, je pourrais passer des heures à essayer de lire toutes les informations sur Internet concernant le produit que je souhaite acheter, en parcourant tous les commentaires et les forums, etc. Deep Research peut rassembler des informations similaires très rapidement. C'est donc très utile pour ce genre de choses.

Isa Fulford. Le modèle est également très performant en ce qui concernecompréhension. Ainsi, si votre requête contient plusieurs parties ou questions différentes, par exemple si vous souhaitez obtenir des informations sur le produit, mais aussi le comparer à tous les autres produits, ou encore obtenir des informations sur les avis de Reddit et ainsi de suite, vous pouvez formuler de nombreuses requêtes différentes et l'outil fera tout cela pour vous.

Josh Tobin. Oui. Une autre astuce consiste à demander que l'information soit présentée dans un tableau. C'est généralement le cas, mais il est vraiment utile d'avoir un tableau avec de nombreuses citations et autres, qui répertorie toutes les catégories d'informations que vous souhaitez rechercher.

Isa Fulford. OUI. Certaines fonctionnalités devraient encore être ajoutées au produit à l'avenir, mais le modèle sous-jacent est capable deImages intégréesIl peut donc trouver des images du produit. Il est également capable deCréation de graphiquesqui intègre ensuite ces graphiques dans leurs réponses, mais il ne s'agit pas encore d'un cas d'utilisation par les consommateurs. Nous espérons que ces fonctionnalités seront bientôt implémentées dans ChatGPT.

Sonya Huang. Les cas d'utilisation du consommateur geek. [Rires].

Josh Tobin. Oui, en parlant de cas d'utilisation par les consommateurs, on peut dire qu'il s'agit d'un cas d'école.l'éducation personnaliséeC'est également un cas d'utilisation très intéressant. Par exemple, si vous voulez en savoir plus sur un certain sujet, si vous avez besoin d'une remise à niveau en biologie ou si vous voulez en savoir plus sur certains événements mondiaux, il est très bon pour rassembler toutes les informations que vous n'avez pas l'impression de comprendre et les aspects que vous aimeriez qu'il examine, puis il vous prépare un bon rapport.

Isa Fulford. J'ai un ami qui envisage de créer une entreprise de produits de consommation courante et il a beaucoup utilisé la recherche approfondie pour rechercher des produits similaires, voir si des noms spécifiques ont été enregistrés, si des domaines ont été pris et pour faire des estimations de la taille du marché, etc. C'était intéressant - il partageait ses rapports avec moi et je les lisais. C'était donc très intéressant de voir cela.

Josh Tobin. Un autre cas d'utilisation intéressant est qu'il est très efficace pour trouver des informations sur l'internet.Faits individuels cachés. Par exemple, s'il s'agit d'une émission de télévision froide dont vous essayez de trouver un épisode ou quelque chose comme ça, il creusera plus profondément et trouvera la seule information de référence à ce sujet sur le web.

Isa Fulford. Oui, c'est vrai. Le père de l'ami de mon frère avait une question factuelle très spécifique. La question portait sur un général autrichien qui était au pouvoir lorsque quelqu'un est mort dans une certaine bataille. C'était une question très pointue. Apparemment, ChatGPT y avait déjà répondu de manière erronée, et il était presque sûr que la réponse de ChatGPT était erronée. Il s'est donc rendu à la bibliothèque publique, a trouvé un dossier et a découvert que ChatGPT s'était effectivement trompé. Deep Research a alors été en mesure de donner la bonne réponse. Nous lui avons donc envoyé la réponse et il était ravi. [Il était ravi.]

Sonya Huang. Quels sont vos modèles mentaux approximatifs pour les tâches pour lesquelles Deep Research est très performant aujourd'hui ? Quels sont les scénarios pour lesquels je devrais utiliser le modèle o-series ? Quels sont les scénarios pour lesquels il faut utiliser Deep Research ?

Josh Tobin. Ce que la recherche en profondeur permet vraiment de faire, c'est que si vous avez une idée de ce que vous voulez faire, vous pouvez le faire en toute sécurité.description détailléeElle implique de lire de nombreuses informations sur l'internet afin d'obtenir la meilleure réponse. Si votre question est vague, il peut vous aider àéluciderCe que vous voulez. Mais cela fonctionne mieux lorsque vous avez un ensemble spécifique d'informations à rechercher.

Isa Fulford. Et je pense qu'il est très bon dans ce domaine.conformeIl est très doué pour trouver des informations spécifiques et difficiles à trouver qu'il rencontre, mais il n'est probablement pas très doué pour cela - et il peut générer de nouvelles idées à partir des informations qu'il rencontre, mais je pense - ilpas encoreFaire de nouvelles découvertes scientifiques. Pour ce qui est de l'utilisation du modèle de la série o, pour moi, si je lui demande de faire la même chose que le modèle de la série o, il n'y a pas de problème.encodagesqui ne nécessitent généralement pas de connaissances autres que celles que le modèle a acquises lors de la préformation. Ainsi, pour le codage ou la o3-mini HIGH, j'utilise généralement o1 Pro ou o1.

Formation complète

Lauren Reeder. Deep Research est une OpenAI Direction des nouveaux produitsC'est un excellent exemple. Je suis curieux de savoir, dans la mesure où vous pouvez le faire, comment cela fonctionne.

Isa Fulford. Le modèle qui sous-tend la recherche approfondie est le suivant Version améliorée de o3(math.) genreo3 est notre modèle d'inférence de pointe.. Nous sommes spécialisés dansNous l'avons entraîné sur notre collection de tâches de navigation complexes ainsi que sur d'autres tâches de raisonnement. En tant que tel, il a également accès àoutil de navigationrépondre en chantant Outils Python. En s'entraînant de bout en bout sur ces tâches, il apprend des stratégies pour les résoudre, et les modèles qui en résultent excellent dans la recherche et l'analyse en ligne.

Josh Tobin. Pour le comprendre intuitivement, il faut formuler une demande, de préférence détaillée, sur ce que l'on souhaite. Le modèle y réfléchira sérieusement, recherchera des informations, les extraira et les lira, comprendra comment ces informations sont liées à la demande, puis décidera de ce qu'il faut rechercher ensuite pour se rapprocher de la réponse finale que vous souhaitez. Il est formé pour bien résumer toutes ces informations dans un rapport soigné, avec des références pointant vers les informations originales qu'il a trouvées.

Isa Fulford. Oui, je pense que la nouveauté de la recherche approfondie en tant que capacité de l'agent réside dans le fait que, parce que nousCapacité de formation de bout en boutIl y a donc beaucoup de choses dans le processus de recherche que l'on ne peut pas prévoir à l'avance. Je ne pense donc pas qu'il soit possible d'écrire un modèle de langage, un programme ou un script qui le rende aussi flexible que le modèle peut l'apprendre par l'entraînement, où le modèle réagit en fait aux informations du réseau en temps réel et en fonction de ce qu'il voit, il doit faire - changer sa stratégie et ainsi de suite. C'est ainsi que nous le voyons faire de trèsRecherche créative. Vous pouvez lire le résumé de la chaîne de pensée, et je suis sûr que vous pouvez parfois constater qu'elle est très intelligente pour ce qui est de savoir ce qu'il faut chercher ensuite ou de contourner les obstacles.

Sonya Huang. John Collison a envoyé un tweet qui a fait l'effet d'une traînée de poudre sur Internet. Quelle est la part de la magie de Deep Research qui provient desAccès en temps réel au contenu webEt combien de Et combien de lachaîne de penséeQue se passe-t-il ? Pouvez-vous nous expliquer un peu ?

Isa Fulford. Je pense que c'est absolumentmariage des deux. Et je pense que vous pouvez voir cela parce qu'il y a d'autres produits de recherche qui ne sont pas nécessairement - ne sont pas formés de bout en bout, et donc ne sont pas aussi flexibles pour répondre - pour répondre à l'information qu'ils rencontrent, et ne sont pas aussi créatifs pour résoudre des problèmes particuliers, et ne sont pas aussi créatifs parce qu'ils n'ont pas été formés spécifiquement à cette fin. ne sont pas aussi créatifs parce qu'ils n'ont pas été formés spécifiquement à cette fin. Il s'agit donc bien d'une combinaison des deux. Je veux dire que c'est une version affinée d'o3. o3 est un modèle très intelligent et puissant. Une grande partie de la puissance analytique provient également de la formation au modèle o3 sous-jacent. Je pense donc qu'il s'agit d'une combinaison des deux.

Josh Tobin. Avant de rejoindre OpenAI, j'ai travaillé dans une startup où nous essayions également de construire des agents, et la façon dont ils étaient construits était similaire à la façon dont la plupart des gens que j'ai vus sur Internet décrivent la construction d'agents, c'est à dire que vous construisez une base de données d'agents.tableau de fonctionnementCertains des nœuds de ce graphe sont des modèles de langage. Ainsi, le modèle linguistique peut décider de ce qu'il faut faire ensuite, mais la logique globale des étapes qui se produisent est définie par un humain. Nous avons constaté qu'il s'agit d'un moyen puissant pour construire rapidement des prototypes, mais qu'il échoue rapidement dans le monde réel parce qu'il est difficile de prévoir tous les scénarios auxquels un modèle pourrait être confronté et d'envisager les différentes branches du chemin que vous pourriez vouloir emprunter.

En outre, les modèles ne sont généralement pas les meilleurs décideurs pour les nœuds de ce graphe, car ils ne sont pas formés pour prendre ces décisions. Ils sont entraînés à faire des choses qui leur ressemblent. Je pense donc que ce qui est vraiment puissant dans ce modèle, c'est qu'ilAprès une formation directe de bout en boutqui peut résoudre les tâches pour lesquelles les utilisateurs l'utilisent.

Lauren Reeder. Vous n'avez donc pas besoin de mettre en place des tableaux ou de prendre des décisions architecturales de type "nœud" au niveau de l'arrière-plan ?

Isa Fulford. Cela dépend entièrement du modèle lui-même.

Josh Tobin. Oui.

Sonya Huang. Pouvez-vous nous en dire plus à ce sujet ? Parce que j'ai l'impression que vous avez faitDes décisions très clairesL'une d'entre elles a apparemment fonctionné. De nombreuses entreprises créent des applications sur votre API qui résolvent des tâches spécifiques pour des utilisateurs spécifiques à l'aide d'indices. Pensez-vous que ces applications seraient mieux servies si elles étaient formées de bout en bout sur leurs flux de travail spécifiques ?

Isa Fulford. Je pense que si votre flux de travail est trèsSpécifique et prévisibleDans ce cas, l'approche décrite par Josh est tout à fait logique. Cependant, si vous avez affaire à beaucoup de choses, il est préférable d'adopter l'approche décrite par Josh.Conditions marginalesou doivent être trèspolyvalentDans ce cas, une approche similaire à celle de la recherche approfondie peut s'avérer une meilleure option.

Josh Tobin. Oui, je conseille aux gens deindésirabledans le modèlesolidification (chimie)Le problème, c'est que vous savez.règle rigide. Si vous avez une base de données ou quelque chose comme ça que vous ne voulez pas que le modèle touche, il vaut mieux l'encoder dans une logique écrite manuellement. Mais je pense que c'est l'une des leçons que j'ai vu les gens apprendre encore et encore dans ce domaine, à savoir que nous pensons que nous pouvons faire des choses plus intelligentes que les modèles en écrivant nos propres programmes. Mais en réalité, les modèles - au fur et à mesure que le domaine progresse, les modèles trouvent de meilleures solutions que les humains.

La leçon la plus importante à tirer de l'apprentissage automatique est peut-être que l'on obtient ce que l'on optimise. Donc, si vous pouvez construire un système qui vous permet d'optimiser directement les résultats que vous souhaitez, les résultats seront bien meilleurs que si vous essayez d'assembler des modèles qui ne sont pas optimisés de bout en bout pour la tâche que vous essayez d'accomplir. À long terme, je pense donc que le réglage fin de l'apprentissage par renforcement au-dessus des modèles est probablement un élément clé de la construction de l'agent le plus puissant.

Sonya Huang. Quels ont été les plus grands défis techniques à relever pour réaliser Deep Research ?

Josh Tobin. Je peux peut-être parler en tant qu'observateur plutôt qu'en tant que personne impliquée depuis le début, mais il semble qu'Isa et le reste de l'équipe aient travaillé très dur et qu'ils soient en train de réussir !Cacher la cléL'une des choses, c'est qu'en faisantDes ensembles de données de très haute qualité. C'est l'une des leçons les plus anciennes de l'apprentissage automatique que l'on réapprend sans cesse. Mais la qualité des données que vous introduisez dans votre modèle est probablement le facteur le plus important pour déterminer la qualité du modèle que vous obtiendrez à l'autre bout.

Isa Fulford. Et puis il y a quelqu'un comme Edward (Edward Sun), qui est une autre personne impliquée dans ce projet, qui optimisera n'importe quel ensemble de données. C'est la recette du succès.

Lauren Reeder. Trouvez votre Edward.

Josh Tobin. Excellent formateur de modèles d'apprentissage automatique.

Lauren Reeder. Comment vous assurez-vous que c'est bien le cas ?

Isa Fulford. Oui, évidemment, c'est un élément essentiel du modèle et du produit, et nous voulons que les utilisateurs puissentConfiance dans les résultats obtenus. En partie parce que nous avonscitationL'utilisateur est donc en mesure de voir la source à partir de laquelle le modèle cite ses informations. Au cours de la formation, nous essayons de nous assurer que ces informations sont correctes, mais il est toujours possible que le modèle commette des erreurs, qu'il ait des hallucinations ou qu'il se fie à des sources d'information qui ne sont peut-être pas les plus fiables. Il s'agit donc d'un domaine actif dans lequel nous voulons continuer à améliorer le modèle.

Recherche approfondie et opérateur

Sonya Huang. Comment devrions-nous considérer Deep Research par rapport à o3 et Operator et d'autres versions différentes ? Par exemple, Deep Research utilise-t-il Operator ? Sont-ils tous construits les uns sur les autres ? Ou s'agit-il d'une série d'applications différentes d'o3 ?

Josh Tobin. Actuellement, ces produits sontautoportantmais vous pouvez imaginer ce qui nous attend à l'avenir si les gens ont accès, à un moment ou à un autre, à l'Internet.L'agent ultime Il devrait non seulement être capable d'effectuer des recherches sur le web, d'utiliser un ordinateur ou d'effectuer tout autre type d'opération que vous souhaiteriez qu'un assistant humain effectue, mais il devrait également être capable de combiner toutes ces fonctions de manière plus naturelle.

Sonya Huang. Quelles sont les autres décisions que vous avez prises en matière de conception et qui ne sont pas forcément évidentes à première vue ?

Isa Fulford. Je pense que l'un d'entre eux estProcessus de clarification. Si vous avez utilisé Deep Research, le modèle vous posera des questions avant que vous ne commenciez votre recherche, alors que normalement ChatGPT pourrait vous poser des questions à la fin de ses réponses, mais pas habituellement au début de la recherche.dès le départIl suffit de montrer ce comportement. Il s'agit defaire quelque chose délibérémentEn effet, si l'invite est très claire et détaillée, vous obtiendrez la meilleure réponse du modèle de recherche approfondie. Je ne pense pas qu'il soit naturel pour l'utilisateur de fournir toutes les informations dès la première demande. Nous voulons donc nous assurer que si vous devez attendre 5 ou 30 minutes, votre réponse sera aussi détaillée et satisfaisante que possible. Nous avons donc ajouté ces étapes supplémentaires pour nous assurer que l'utilisateur fournit tous les détails dont nous avons besoin.

J'ai d'ailleurs vu beaucoup de gens dire sur Twitter qu'ils avaient mis en place un processus qui leur permettait de parler à un o1 ou à un o1 Pro pour les aider.Rendre les messages plus détaillésUne fois qu'ils sont satisfaits du message, ils l'envoient à Deep Research. C'est intéressant. Les gens trouvent donc leurs propres flux de travail pour utiliser Deep Research.

Lauren Reeder. Trois produits différents de Deep Research ont été lancés au cours des derniers mois. Veuillez décrire brièvement ce qui différencie votre produit et ce que nous pouvons en attendre.

Sonya Huang. Et ils s'appellent tous les deux Deep Research, n'est-ce pas ?

Josh Tobin. Il s'agit dans les deux cas d'une recherche approfondie.Peu de créativité dans l'attribution des noms. Je pense que les gens devraient essayer tous ces produits pour eux-mêmes et se faire une idée. Je pense que la différence de qualité, je pense qu'ils ont tous des avantages et des inconvénients, mais je pense que les différences seront évidentes. Mais cela se résume à la manière dont ce modèle est construit et aux efforts déployés pour construire l'ensemble de données et le moteur que nous utilisons pour les modèles de la série O, qui nous permet d'optimiser le modèle et de le rendre très intelligent et de haute qualité.

Sonya Huang. L'année dernière, l'équipe d'o1 a participé au podcast et nous avons plaisanté sur le fait qu'OpenAI Je ne suis pas très doué pour nommer les choses.. Je dirais que la recherche approfondie est votreCiter les plus grands succèsProduit. [PETIT RIRE]

Josh Tobin. Deep Research, c'est ça ? Au moins, cela décrit ce qu'il fait, je suppose.

perspectives d'avenir

Lauren Reeder. J'aimerais connaître votre vision de l'avenir. Vous avez lancé Deep Research aujourd'hui, à quoi pensez-vous qu'il ressemblera dans un an ? Quels autres éléments complémentaires souhaitez-vous mettre en place au cours du processus ?

Isa Fulford. Nous sommes heureux.Extension des sources de données accessibles au modèle. Le modèle que nous formons est généralement très bon pour naviguer dans les informations publiques, mais il doit également être capable deRecherche de données privées. Et puis je pense que c'est juste plus loinRenforcer leurs capacités. Il pourrait donc être plus performant en matière de navigation et d'analyse. Oui, je pense qu'à court terme, nous voulons améliorer ces domaines.

Josh Tobin. Oui, nous le faisons. Ensuite, réfléchissez à la façon dont cela s'inscrit dans notre feuille de route plus large pour les agents. Je pense que la recette ici s'étendrait à un très large éventail de cas d'utilisation qui surprendraient les gens par leur efficacité. Mais l'idée est de prendre un modèle d'inférence de pointe, de lui donner accès aux mêmes outils que les humains peuvent utiliser dans leur travail ou leur vie quotidienne, et de l'optimiser directement pour les types de résultats que vous voulez que l'agent soit capable d'obtenir. Rien n'empêche ce type de recette de s'adapter à des tâches de plus en plus complexes.L'AGI est désormais une question opérationnelle. Et je pense qu'il y a beaucoup plus à attendre de cette formule universelle.

Lauren Reeder. Sam (Sam Altman) a fait une citation très frappante lorsqu'il a déclaré que la recherche en profondeur allaitS'emparer d'un pourcentage à un chiffre de toutes les missions à valeur économique au niveau mondial. Comment devons-nous comprendre cette déclaration ?

Josh Tobin. Je pense qu'il est juste de comprendre que Deep Research Vous ne pouvez pas terminer ce que vous avez commencé.Mais cela peut fonctionner pour vous.utiliser avec parcimonieheures, et parfois même d'économiserquelques joursde temps. Je pense donc que l'objectif que nous sommes sur le point d'atteindre est que Deep Research, et l'agent que nous construirons ensuite, et l'agent que nous construirons par-dessus, vous donnerontutiliser avec parcimonie 1%, 5%, 10%, 25% fois, selon le type de travail que vous effectuez.

Sonya Huang. Je veux dire, je pense que vous avez vraimentautomatiqueMon 80% fonctionnait, donc ......

Lauren Reeder. [Pour moi, c'est nettement plus élevé.

Josh Tobin. Je pense que nous devons simplement commencer.faire un chèqueOui. Oui, c'est le cas.

Sonya Huang. Qu'en pensez-vous ?Ensemble du groupe professionnelPlus - "à risque" n'est pas le bon terme, mais plus proche des domaines dans lesquels Deep Research est très bon ? Je pense au conseil, par exemple, mais quelles sont les catégories spécifiques qui, selon vous, s'en rapprochent le plus ?

Josh Tobin. Oui, j'ai été consultant. Je pense que...Aucun emploi n'est menacé. Je ne pense vraiment pas qu'il s'agisse d'uneSubstitution de la main-d'œuvreL'essentiel. Cependant, pour ces types d'emplois basés sur la connaissance, vous devez consacrer beaucoup de temps àParcourir les informations et tirer des conclusionsJe pense que la recherche approfondie va permettre aux gens de s'émanciperpouvoir surnaturel.

Isa Fulford. Oui, je m'intéresse à beaucoup de choses.étude de la médecineLes cas d'utilisation sont très intéressants. Les cas d'utilisation sont très intéressants.trouverIl s'agit d'une maladie.Tous les documentspeut-êtreTous les cas récentsLa capacité de faire cela. Je pense avoir vu de nombreux médecins publier des articles en ligne sur Deep Research ou nous contacter pour nous dire : "Oh, nous avons fait ceci avec Deep Research. Nous l'avons utilisé pour trouver un essai clinique pour ce patient" ou quelque chose comme ça. C'est donc un gain de temps pour les personnes qui sont déjà très occupées ou qui n'avaient pas le temps de faire certaines choses auparavant et qui peuvent désormais accéder à ces informations.

Josh Tobin. Oui. Et je pense que l'impact de cette mesure peut être plus important qu'il n'y paraît à première vueplus profondC'est un gain de temps, n'est-ce pas ? Ce n'est pas seulement - ce n'est pas seulement un gain de temps pour 5%, c'est que ce qui pourrait vous prendre 4 heures ou 8 heures à faire, vous pouvez maintenant le faire avec un abonnement ChatGPT et 5 minutes de votre temps. Donc, si vous avezTemps illimitéQuels sont les types d'activités que vous pratiquez ? Vous pourriez probablement en faire beaucoup, beaucoup de copies ?

Par exemple, vous devez rechercher chaqueStartups dans lesquelles il est possible d'investirplutôt que de rechercher des entreprises que vous avez le temps de rencontrer ? Ce genre de choses.

Sonya Huang. Ou du côté des consommateurs, l'une des choses qui me vient à l'esprit est, vous savez.Les mères qui travaillentTrop occupés pour prendre le tempsenfant en bas âgeplanificateurfête d'anniversaireMaintenant, ça devient faisable. Cela devient faisable. Je suis donc d'accord avec vous. C'est bien plus important que de faire gagner du temps à 5%.

Josh Tobin. Oui.

Lauren Reeder. Il s'agit de choses que vous ne pouviez pas faire auparavant.

Isa Fulford. C'est exact.

Sonya Huang. Comment cela va-t-il changer ?éduqueret nousfaireQu'apprendriez-vous aux enfants maintenant que nous sommes dans le monde des agents et de la recherche approfondie ? Maintenant que nous sommes dans le monde des agents et de la recherche approfondie, qu'enseignez-vous aux enfants ?

Josh Tobin. éduquerChatGPT a toujours été utilisé parutilisation principaleUn. Je pense - et c'est vrai pour ChatGPT en général - que c'est comme apprendre des choses en parlant à un système d'intelligence artificielle. C'est comme apprendre des choses en parlant à un système d'IA qui peut apprendre des choses en fonction de ce que vous lui dites ou, à l'avenir, en fonction de ce qu'il apprend sur vouspersonnaliséIl vous fournit des informations, ce qui semble être une manière plus efficace et plus engageante d'apprendre que la lecture d'un manuel.

Séance de questions éclair

Lauren Reeder. Nous avons quelquesquestion sur la foudreLe problème avec le lien.

Josh Tobin. D'accord.

Sonya Huang. Bien sûr. Quels sont vos cas d'utilisation préférés en matière de recherche approfondie ?

Josh Tobin. Je dirais oui, par exemple.l'éducation personnalisée. Juste, apprendre tout ce que je veux apprendre.

Isa Fulford. Je l'ai déjà mentionné, mais je pense qu'une grande partie de ce que les gens partagent à propos de latrouverA propos d'eux ou de leur familleInformations sur les maladies subiesLes histoires personnelles, toutes, sont formidables.

Sonya Huang. Le bon côté des choses. Au cours de l'année écoulée, nous avons vu apparaître quelques catégories d'applicationsépidémies. Par exemple.encodagesen est un bon exemple. Quelles sont les catégories d'applications qui, selon vous, vont exploser cette année ?

Josh Tobin. Je veux dire...Apparemment, l'agent..

Isa Fulford. Je dirai également ceci.

Sonya Huang. D'accord.2025 est l'année de l'agent.

Josh Tobin. Je pense que oui.

Lauren Reeder. Selon vous, que devrait-on recommander aux gens de lire pour en savoir plus sur l'évolution de l'agent ou de l'IA ? Il peut également s'agir d'auteurs.

Sonya Huang. Podcast sur les données de formation. [Rires]

Josh Tobin. Je pense qu'il est important de se tenir au courant des derniers développements en matière d'IAextrêmement difficile. Je donne aux gens leRecommandations généralesOui, choisissez-en un ou deux qui vous intéressent vraimentsous-thèmeEt puis, vous savez.planificateurUne liste de personnes qui, selon vous, font des déclarations intéressantes à ce sujet, et comment trouver une ou deux choses qui vous intéressent. En fait, il s'agit peut-être d'un bon cas d'utilisation de la recherche approfondie. Utilisez-le pour approfondir des sujets sur lesquels vous voulez en savoir plus.

Isa Fulford. Cela date un peu, mais je crois que je l'ai vu il y a quelques années - je crois qu'il s'appelait Renforcer les fondements de l'apprentissage (Foundations of RL) ou quelque chose comme ça, de Pieter Abbeel. Ça date un peu, mais je pense que c'est un ouvrage de référence.Une excellente introduction à l'apprentissage intensif.

Josh Tobin. Oui, c'est vrai.sont d'accord avec Tout ce qui est écrit par Pieter Abbeel. Mon conseiller d'études supérieures.

Isa Fulford. Oh, oui.

Sonya Huang. D'accord. Apprentissage intensifAprès uneheure de pointeEt puis, on a l'impression qu'il retombe enralentissement. Une fois de plus, la question se pose de savoir si cette interprétation de la dynamique actuelle de l'apprentissage intensif est correcte.

Josh Tobin. Il est de retour.Oui. Oui.

Sonya Huang. Il est de retour. Pourquoi ? Pourquoi maintenant ?

Josh Tobin. en raison deTout le reste a fonctionné.. Par exemple, si quelqu'un suit cet espace depuis un certain temps, il se souvient peut-être du gâteau de Yann LeCunparaboles?

Sonya Huang. Parlez-en.

Josh Tobin. Donc, si vous voulezFaire un gâteauLa majorité du gâteau est donc le corps du gâteau, puis il y a un peu de glaçage et quelques cerises sur le dessus. L'analogie est la suivanteapprentissage non superviséC'est un corps de gâteau.Apprentissage superviséC'est la cerise sur le gâteau.Apprentissage intensifC'est la cerise sur le gâteau.

Je pense que lorsque nous travaillions sur la recherche en apprentissage par renforcement dans ce domaine en 2015, 2016, je pense que l'analogie de Yann LeCun, qui rétrospectivement est probablement correcte, était que nous essayions de travailler sur l'apprentissage par renforcement dans ce domaine.Pas de corps de gâteau.situation actuelleAjouter une cerise. Mais maintenant que nous avons enPré-entraînement sur des données massives(utilisé comme expression nominale)modèle linguistiqueLeur capacité àrare. Nous savons comment modéliser ces langages surAmélioration de la surveillanceIls sont bons dans ce qu'ils font.Suivre les instructionset de manière généraleFaire ce que les gens veulent qu'ils fassent..

Par conséquent, étant donné qu'il atrès efficaceIl est temps d'affiner ces modèles pour qu'ils correspondent à ce que vous pouvez faire pour eux.Définir la fonction de récompensede tout type de cas d'utilisation.

Sonya Huang. C'est très bien. Très bien, à l'issue de cette séance de questions éclair, nous avons les applications d'IA préférées de Deep Research. L'agent sera la catégorie la plus importante en 2025. Et.L'apprentissage intensif est de retour.Je l'aime bien. J'adore. Merci beaucoup de vous être joints à nous. Nous apprécions le dialogue. Félicitations pour la sortie d'un excellent produit et nous sommes impatients de voir ce qu'il apportera.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...