Investigación a fondo de OpenAI: cómo la formación integral lidera el futuro de los agentes de IA

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

56.7K 00

Isa Fulford y Josh Tobin, de OpenAI, analizaron recientemente en profundidad el último producto de agente de IA de la empresa, Deep Research, en el podcast Training Data, y señalaron que Deep Research representa un gran avance en las capacidades de investigación de IA, ya que utiliza el entrenamiento integral de modelos en lugar de un proceso fijo.

OpenAI 的 Deep Research：端到端训练如何引领 AI Agent 的未来

Los dos responsables de producto explicaron en detalle cómo los datos de formación de alta calidad y OpenAI o3 Modelos (También comparten cómo las potentes capacidades de inferencia del modelo de inferencia de última generación de OpenAI contribuyen a la estrategia de investigación flexible de Deep Research. También comparten la visión de Sam Altman para Deep Research, que espera que asuma una proporción significativa de tareas basadas en el conocimiento. Además, para fomentar la transparencia y la confianza de los usuarios en el producto, Deep Research se diseñó para incorporar funciones clave como fuentes de citas y un proceso de aclaración de requisitos. Al comprimir en minutos lo que antes llevaba horas, Deep Research está revolucionando las posibilidades de numerosas aplicaciones empresariales y personales.

Artículos con puntos de vista similares ref. leer:El futuro ya está aquí: una mirada en profundidad a la era del "modelo como producto

Dirección original: https://www.sequoiacap.com/podcast/training-data-deep-research/

Resumen de contenidos

En este podcast, Isa Fulford y Josh Tobin, de OpenAI, detallan Deep Research, un agente de IA que completa una investigación exhaustiva en línea en 5 a 30 minutos buscando en múltiples sitios web y generando informes completos con citas detalladas. Este episodio profundiza en cómo OpenAI construye agentes de IA eficientes y anticipa lo que depara el futuro para Deep Research tanto en aplicaciones comerciales como personales.

La formación de principio a fin supera a la programación manualEn lugar del método común de construcción de agentes, consistente en construir un grafo operativo fijo que contenga nodos de un modelo lingüístico, Deep Research se entrena de principio a fin directamente en tareas de navegación complejas. Este enfoque permite al modelo desarrollar estrategias flexibles de recopilación e integración de información que serían difíciles de conseguir si se guionizaran manualmente.
La calidad de los datos es un punto fuerteEl uso de datos de entrenamiento de alta calidad es fundamental para el éxito del desarrollo de la Investigación Profunda. El equipo de OpenAI utiliza o3 Modelos (modelo de inferencia de última generación de OpenAI) Potentes capacidades de inferencia y puesta a punto del modelo en ejemplos cuidadosamente seleccionados de tareas de navegación complejas, una combinación que ha dado lugar a resultados muy creativos.
Al agente se le da bien definir tareas claras pero flexiblesDeep Research demuestra que un agente de IA puede entrenarse para manejar flujos de trabajo específicos que no pueden ser capturados por reglas rígidas. El modelo es capaz de adaptar su estrategia de investigación en función de los resultados preliminares, lo que lo hace ideal para tareas como la investigación de mercados, las revisiones de la literatura científica y los estudios de consumo, que se benefician de una recopilación de información exhaustiva y exploratoria.
La transparencia y el control generan confianzaDeep Research genera confianza en el usuario mediante citas claras, la aclaración previa de los requisitos y la visualización del proceso de razonamiento en cadena. Esta transparencia, unida a la capacidad del modelo para integrar información de múltiples fuentes, permite a los usuarios validar sus conclusiones al tiempo que se benefician de una investigación exhaustiva que difícilmente podrían completar por sí mismos.
La compresión del tiempo crea nuevas posibilidadesDeep Research reduce a minutos tareas de investigación que antes llevaban horas, lo que no sólo supone un ahorro de tiempo, sino también un cambio fundamental en el paradigma de cómo trabajan los trabajadores del conocimiento. Ahora los usuarios pueden investigar en profundidad para tomar decisiones para las que antes no tenían tiempo, como analizar posibles inversiones o planificar eventos especiales.

transcripción del podcast

Josh Tobin. Una y otra vez veo que la gente aprende una lección en este campo, y es que pensamos que podemos escribir nuestros propios programas para hacer un trabajo más inteligente que los modelos. Pero, en realidad, suelen ser los modelos los que, a medida que avanza el campo, encuentran mejores soluciones que los humanos.

Y quizá la lección más importante del aprendizaje automático es que se obtiene aquello para lo que se optimiza. Por tanto, si se puede construir un sistema que permita optimizar directamente los resultados deseados, estos serán mucho mejores que si se intenta unir modelos que no están optimizados de principio a fin para la tarea que se pretende realizar. Así que mi orientación a largo plazo es que creo que afinar el aprendizaje por refuerzo sobre los modelos es probablemente una parte clave de la construcción del Agente más potente.

Sonya Huang. Nos complace dar la bienvenida a Isa Fulford y Josh Tobin, los propietarios de producto de OpenAI Deep Research. Deep Research salió al mercado hace tres semanas y se ha convertido rápidamente en un éxito, utilizado por muchas luminarias de la tecnología, como los hermanos Collison, para una variedad de propósitos que van desde análisis de la industria a la investigación médica, ¡e incluso la planificación de fiestas de cumpleaños! .

Deep Research se entrena en tareas complejas de navegación e inferencia mediante el aprendizaje por refuerzo de extremo a extremo, y es la última incorporación a la familia de productos OpenAI Agent. Operador El segundo producto después del primero. Hablamos con Isa y Josh sobre Deep Research acerca de diversos temas, desde sus casos de uso hasta su tecnología subyacente, pasando por lo que esperamos de los futuros productos de Agente de OpenAI.

Isa y Josh, bienvenidos al programa.

Lauren Reeder. Gracias por venir. Muchas gracias por acompañarnos.

Josh Tobin. Me alegro de estar aquí.

Isa Fulford. Gracias por la invitación.

¿Qué es la investigación en profundidad?

Lauren Reeder. Empecemos por ¿qué es Deep Research? Háblanos un poco de sus orígenes y de lo que hace este producto.

Isa Fulford. Deep Research es un agente que busca en un gran número de sitios en línea y genera informes muy completos. Puede hacer cosas que a un ser humano le llevaría horas. Y está integrado en ChatGPT ChatGPT es una potente herramienta que puede responder a sus preguntas en sólo 5 a 30 minutos. Como resultado, permite investigar más a fondo y responder a sus preguntas con fuentes más detalladas y específicas que las respuestas habituales de ChatGPT.

Es nuestra liberación dePrimer agente Uno de ellos. También hemos lanzado antes Operator. Así que Deep Research es el segundo Agente, y lanzaremos más en el futuro.

Sonya Huang. ¿Cuál es el origen de Deep Research? ¿Cuándo decidieron hacerlo? ¿De dónde surgió la inspiración? ¿Cuántas personas participaron en su desarrollo? ¿Cuál fue el proceso para llevarlo a buen puerto?

Josh Tobin. Buena pregunta. Esto fue antes de unirme a OpenAI.

Isa Fulford. Ah, sí. [Creo que hace un año, más o menos, tuvimos mucho éxito internamente en el uso de este nuevo modelo de inferencia y en el entrenamiento de modelos para que piensen antes de responder. En aquel momento nos centrábamos sobre todo en las matemáticas y la ciencia, pero creo que lo otro que desbloquea este nuevo mecanismo de modelización de la inferencia es la capacidad de realizar tareas de mayor duración que impliquen las capacidades de un Agente.

Creemos que mucha gente necesita realizar tareas que requieren mucha investigación en Internet o mucha información de fondo externa, lo que implica razonar mucho y diferenciar entre fuentes de información. Y hay que ser muy creativo para hacer ese tipo de cosas. Creo que por fin teníamos modelos, o formas de entrenar modelos, que nos permitían resolver algunas de estas tareas. Así que decidimos intentar empezar a entrenar modelos para realizarExaminar tareas. Utiliza la misma metodología que empleamos para entrenar el modelo de inferencia, pero aplícala a una tarea más real.

Sonya Huang. ¿Es idea tuya? Josh, ¿cómo te involucraste?

Isa Fulford. Sí, inicialmente fuimos Yash Patil y yo, que es un colega en OpenAI, que estaba trabajando en un proyecto similar que también va a ser lanzado en algún momento, y estábamos muy entusiasmados con eso. Construimos una versión demo inicial. Y Thomas Dimson, que es un ingeniero muy bueno, se sumerge en cualquier cosa y hace un montón de trabajo. Así que ha sido un proceso muy interesante.

Josh Tobin. Sí, me incorporé un poco más tarde. Me reincorporé a OpenAI hace unos seis meses procedente de mi propia startup. Había trabajado en OpenAI anteriormente en mi carrera, y cuando me reincorporé, había estado siguiendo varios proyectos y estaba muy interesado en algunos de nuestros proyectos de Agentes, incluido este, y entonces me involucré.

Lauren Reeder. Estupendo. Explíquenos para qué grupos de usuarios está creando Deep Research.

Josh Tobin. Sí, en realidad está diseñado para cualquier persona que realice labores de conocimiento en su trabajo o vida diaria. Vemos que muchos usuarios lo utilizan para su trabajo, por ejemplo, para investigar en el trabajo sobre mercados, empresas, propiedades, etc. ......

Isa Fulford. Mucha investigación científica, investigación médica. Creo que también hemos visto muchos ejemplos médicos.

Josh Tobin. SÍ. Una de las cosas que nos entusiasma es que el estilo es como si tuviera que pasar mucho tiempo haciendo algo, tuviera que hacer muchas búsquedas en Internet y recopilar mucha información, y eso no se limita al trabajo, sino que también es útil para ir de compras y viajar.

Isa Fulford. Así que estamos entusiasmados con el lanzamiento de la versión Plus para que más gente pueda probar Deep Research y quizá veamos nuevos casos de uso.

Lauren Reeder. Genial. Este es sin duda uno de los productos que más he utilizado en las últimas semanas. Es excelente.

Isa Fulford. Me alegra mucho oírte decir eso.

Josh Tobin. ¿Lo utilizas para trabajar?

Lauren Reeder. Trabajo, por supuesto. También hay entretenimiento.

Sonya Huang. ¿Para qué lo utiliza?

Lauren Reeder. ¿Para mí? Caramba. Estaba pensando en comprarme un coche nuevo y me preguntaba cuándo saldría a la venta la próxima generación de este coche. Había un montón de entradas de blog especulativas en Internet sobre diversas pistas del fabricante, por ejemplo, así que pedí a Deep Research que analizara todos los rumores sobre este coche y todas las operaciones anteriores reales de este fabricante. Elaboró un informe excelente y me dijo que quizá tendría que esperar unos meses, pero que debería salir a la venta este año, en los próximos meses.

Josh Tobin. SÍ. Una de las cosas más interesantes es que no sólo es una amplia recopilación de toda la información sobre una fuente en particular, sino que también es muy bueno para encontrar información web muy oscura y extraña. Por ejemplo, si quieres saber algo muy específico que puede que no aparezca en la primera página de resultados de búsqueda, también es muy bueno para ese tipo de cosas. Es genial.

Casos de uso sorprendentes

Lauren Reeder. ¿Cuáles son algunos de los casos de uso más sorprendentes que ha visto?

Josh Tobin. Oh.

Isa Fulford. Creo que lo que más me sorprendió fue el número de personas que lo utilizaron paraEscribir código.

Josh Tobin. Sí.

Isa Fulford. No es realmente un caso de uso que yo haya considerado, pero he visto a mucha gente decir en Twitter y en varios canales en los que podemos recibir comentarios que lo utilizan para escribir código y buscar código, y también lo utilizan para encontrar la documentación más reciente sobre un paquete en particular y para ayudarles con secuencias de comandos o lo que sea.

Josh Tobin. Sí, me da un poco de vergüenza no haber pensado en esto como un caso de uso.

Isa Fulford. [Sí.

Josh Tobin. Esto puede parecer obvio para los usuarios de ChatGPT, pero sé que es realmente impresionante que lo haga tan bien.

Sonya Huang. ¿Cómo cree que evolucionará con el tiempo el equilibrio entre el uso comercial y el personal? Por ejemplo, ha mencionado la próxima versión Plus. Dentro de uno o dos años, ¿cree que será principalmente una herramienta comercial o principalmente una herramienta de consumo?

Isa Fulford. Espero que sea ambas cosas. Creo que es una habilidad muy versátil, y creo que es algo que todos hacemos en nuestro trabajo y en nuestra vida personal. Así que espero que sea ambas cosas.

Josh Tobin. Sí, estoy deseando ver las dos cosas. Creo que lo mejor de todo es que ahorra mucho tiempo. Si hay algo que te puede llevar horas -en algunos casos, hemos oído que incluso días-, la gente puede introducirlo en Deep Research y obtener sus propios resultados que habrían llevado mucho tiempo en 90%. Así que, sí, tiendo a pensar que hay más tareas de este tipo en el mundo empresarial que en el personal. Pero estoy seguro de que formará parte de la vida de la gente, independientemente del ámbito.

Lauren Reeder. Realmente se ha convertido en mi principal modo de usar ChatGPT. Siempre elijo Deep Research en lugar del modo normal.

Isa Fulford. ¿De verdad?

Lauren Reeder. [Risas]

Josh Tobin. Sí, claro. Eres tan paciente.

Lauren Reeder. Eso parece.

Lauren Reeder. ¿Qué casos de uso ve entre los consumidores? ¿Qué le entusiasma?

Isa Fulford. Creo que mucho tiene que ver con los consejos para comprar y viajar. Yo personalmente uso mucho el modelo. Llevo meses utilizándolo para estas cosas. Resulta que estábamos en Japón cuando se lanzó Deep Research, y me ha sido muy útil para encontrar restaurantes que cumplen requisitos específicos, así como cosas que quizá no encontraría.

Josh Tobin. SÍ. Me parece útil cuando tienes que comprar algo caro, o estás planeando un viaje especial, o quieres pasar mucho tiempo pensando en ello. En mi caso, podría pasarme horas intentando leer toda la información que hay en Internet sobre ese producto que me interesa comprar, como examinar todas las reseñas y foros y cosas así. Y Deep Research puede recopilar información similar muy rápidamente. Es muy útil para ese tipo de cosas.

Isa Fulford. El modelo también es muy bueno encomprensión. Así que si su consulta contiene muchas partes diferentes o muchas preguntas diferentes, como usted quiere saber sobre el producto, pero también quiere compararlo con todos los demás productos y también quiere saber acerca de la información de la revisión de Reddit y así sucesivamente, hay muchas peticiones diferentes que usted puede hacer y que va a hacer todo eso para usted.

Josh Tobin. Sí. Otro truco es simplemente pedir que se presente en una tabla. Normalmente también lo hace, pero realmente ayuda tener una tabla con muchas citas y demás que enumere todas las categorías de información que quieres investigar.

Isa Fulford. SÍ. Todavía hay algunas características que se espera añadir al producto en el futuro, pero el modelo subyacente es capaz deImágenes incrustadaspor lo que puede encontrar imágenes del producto. Y también es capaz deCreación de gráficosque luego incorpora estos gráficos en sus respuestas, pero éste no es todavía un caso de uso para el consumidor. Esperemos que estas funciones también se implementen pronto en ChatGPT.

Sonya Huang. Casos de uso de consumidores frikis. [Risas]

Josh Tobin. Sí, hablando de casos de uso de consumidores frikis.educación personalizadaTambién es un caso de uso muy interesante. Por ejemplo, si quieres aprender sobre un tema concreto, si necesitas un repaso de biología o si quieres enterarte de algunos acontecimientos mundiales, es muy bueno recopilando toda la información que crees que no entiendes y los aspectos que te gustaría que investigara, y luego te prepara un buen informe.

Isa Fulford. Tengo un amigo que está pensando en crear una empresa de bienes de consumo y ha estado utilizando mucho Deep Research para buscar productos similares y ver si se han registrado nombres específicos, si se han ocupado dominios y para hacer estimaciones sobre el tamaño del mercado, entre otras cosas. Era interesante: él compartía los informes conmigo y yo los leía. Fue muy interesante verlo.

Josh Tobin. Otro caso de uso interesante es que es muy bueno para encontrar internetHechos individuales y ocultos. Por ejemplo, si estás buscando un programa de televisión, un episodio o algo parecido, buscará la única información de referencia sobre él en Internet.

Isa Fulford. Ah, sí. El padre del amigo de mi hermano tenía una pregunta muy específica sobre hechos. La pregunta era sobre un general austriaco que estaba en el poder cuando alguien murió en cierta batalla. Era una pregunta muy específica. Al parecer, ChatGPT ya la había respondido mal antes, y él estaba bastante seguro de que la respuesta de ChatGPT era incorrecta. Así que fue a la biblioteca pública, encontró un registro y descubrió que, efectivamente, ChatGPT se había equivocado. Y entonces Deep Research fue capaz de dar la respuesta correcta, así que le enviamos la respuesta, y él estaba encantado. [Risas]

Sonya Huang. ¿Cuáles son tus modelos mentales aproximados para las tareas en las que Deep Research es muy buena hoy en día? ¿Para qué escenarios debería utilizar el modelo o-series? ¿En qué escenarios debería utilizar Deep Research?

Josh Tobin. Lo que Deep Research hace realmente bien es que, si tienes una idea de lo que quieresdescripción detalladae implica leer mucha información en Internet para obtener la mejor respuesta. Si su pregunta es vaga, puede ayudarle adilucidarLo que usted quiere. Pero funciona mejor cuando tienes un conjunto específico de información que buscar.

Isa Fulford. Y creo que lo hace muy bien.ConformeEs muy bueno encontrando información específica y difícil de encontrar que encuentra, pero probablemente no es muy bueno - y puede generar algunas nuevas ideas a partir de la información que encuentra, pero creo - quetodavía noHacer nuevos descubrimientos científicos. En cuanto al uso del modelo de la serie o, para mí, si le pido que haga lo mismo que elcodificacionescosas relacionadas que normalmente no requieren conocimientos más allá de lo que el modelo ha obtenido del preentrenamiento. Así, para codificar o o3-mini HIGH, suelo utilizar o1 Pro u o1.

Formación integral

Lauren Reeder. Deep Research es una OpenAI Nueva dirección de productoUn excelente ejemplo de ello. Tengo curiosidad, en la medida en que se puede compartir, ¿cómo funciona?

Isa Fulford. El modelo que impulsa la Investigación en Profundidad es Versión perfeccionada de o3(matemáticas) géneroo3 es nuestro modelo de inferencia más avanzado.. Estamos especializados enLo hemos entrenado con nuestra colección de tareas de navegación complejas, así como con otras tareas de razonamiento.. Como tal, también tiene acceso aherramienta de navegaciónresponder cantando Herramientas Python. Al entrenarse de principio a fin en estas tareas, aprende estrategias para resolverlas, y los modelos resultantes sobresalen en la búsqueda y el análisis en línea.

Josh Tobin. Y, la forma de entenderlo intuitivamente es que tú haces esta petición, preferiblemente una petición detallada sobre lo que quieres. El modelo se lo pensará mucho, buscará información, la extraerá y la leerá, entenderá cómo se relaciona esa información con la petición y decidirá qué buscar a continuación para acercarse a la respuesta final que quieres. Y está entrenado para hacer un buen trabajo resumiendo toda esta información en un informe ordenado con referencias que apunten a la información original que encontró.

Isa Fulford. Sí, creo que la novedad de la Investigación Profunda como capacidad del Agente es que porqueCapaz de impartir formación de principio a finAsí que hay muchas cosas en el proceso de investigación que no se pueden predecir de antemano. Así que no creo que sea posible escribir algún modelo de lenguaje o programa o guión que lo haga tan flexible como el modelo puede aprender a través del entrenamiento, donde el modelo está realmente reaccionando a la información de la red en tiempo real y en función de lo que ve, tiene que hacer - cambiar su estrategia y así sucesivamente. Y así lo vemos haciendo muyBúsqueda creativa. Puedes leer el resumen de la Cadena de Pensamiento, y seguro que a veces te das cuenta de que es muy inteligente a la hora de averiguar qué buscar a continuación o sortear obstáculos.

Sonya Huang. John Collison envió un tuit que ha provocado una pequeña tormenta en Internet. ¿Cuánto de la magia de Deep Research proviene deAcceso en tiempo real a contenidos web¿Cuántos? ¿Y cuánto de loscadena de pensamiento¿Qué es lo que pasa? ¿Podéis explicarlo un poco?

Isa Fulford. Creo que es absolutamentematrimonio de los dos. Y creo que se puede ver que debido a que hay otros productos de búsqueda que no son necesariamente - no están entrenados de extremo a extremo, y por lo tanto no son tan flexibles en la respuesta - en respuesta a la información que se encuentran, y no son tan creativos en términos de cómo resolver creativamente problemas particulares, y no son ser tan creativos porque no han sido formados específicamente para ello. Así que definitivamente es una combinación de ambos. Es decir, es una versión afinada de o3. o3 es un modelo muy inteligente y potente. Gran parte de la potencia analítica también procede de la formación subyacente del modelo o3. Así que creo que se trata de una combinación de ambas cosas.

Josh Tobin. Antes de unirme a OpenAI, trabajé en una startup en la que también estábamos tratando de construir Agentes, y la forma en que se construyó fue similar a la forma en que la mayoría de la gente que he visto en Internet describe la construcción de Agentes, que es básicamente que usted construye ungráfico de funcionamientoAlgunos de los nodos de ese grafo son modelos lingüísticos. Así, el modelo lingüístico puede decidir qué hacer a continuación, pero la lógica general de los pasos que se producen la define un humano. Hemos descubierto que esta es una forma potente de construir prototipos rápidamente, pero falla enseguida en el mundo real porque es difícil predecir todos los escenarios a los que puede enfrentarse un modelo y considerar las diferentes ramas del camino que puede querer tomar.

Además, los modelos no suelen tomar las mejores decisiones para los nodos de ese gráfico porque no están entrenados para tomar esas decisiones. Están entrenados para hacer cosas que se les parecen. Por lo tanto, creo que lo que es realmente poderoso acerca de este modelo es queTras una formación directa de principio a finque pueda resolver las tareas para las que lo utilizan los usuarios.

Lauren Reeder. ¿Para no tener que configurar gráficos o tomar decisiones de arquitectura de nodos en el back-end?

Isa Fulford. Esto depende totalmente del propio modelo.

Josh Tobin. Sí.

Sonya Huang. ¿Pueden dar más detalles? Porque parece que ustedes hicieronDecisiones muy clarasUno de ellos, y al parecer funcionó. Hay muchas empresas que construyen aplicaciones en su API que resuelven tareas específicas para usuarios específicos con sugerencias. ¿Crees que estas aplicaciones estarían mejor servidas si recibieran formación completa sobre sus flujos de trabajo específicos?

Isa Fulford. Creo que si su flujo de trabajo es muyEspecíficos y predeciblesentonces adoptar el enfoque que describe Josh tiene mucho sentido. Sin embargo, si usted está tratando con un montón de cosasCondiciones marginaleso necesitan ser muyversátilentonces un enfoque similar al de Deep Research puede ser una mejor opción.

Josh Tobin. Sí, mi consejo a la gente es queno deseadoen el modelosolidificación (química)La cosa es, ya sabes.norma rígida. Si tienes una base de datos o algo así que no quieres que el modelo toque, es mejor codificarlo en lógica escrita manualmente. Pero creo que esa es una de las lecciones que he visto a la gente aprender una y otra vez en este campo, y es que pensamos que podemos hacer cosas más inteligentes que los modelos escribiendo nuestros propios programas. Pero en realidad, normalmente los modelos - a medida que avanza el campo, los modelos encuentran mejores soluciones que los humanos.

Sonya Huang. ¿Cuáles fueron los mayores retos técnicos a la hora de realizar Deep Research?

Josh Tobin. Bueno, quizá pueda hablar como observador y no como alguien que ha participado desde el principio, pero parece que Isa y el resto del equipo han trabajado muy duro y ¡parece que lo están consiguiendo!Ocultar la llaveUna de las cosas es que hacerConjunto de datos de muy alta calidad. Es una de esas viejas lecciones del aprendizaje automático que la gente sigue reaprendiendo. Pero la calidad de los datos que se introducen en el modelo es probablemente el factor que más influye en la calidad del modelo que se obtiene al final.

Isa Fulford. Y luego tener a alguien como Edward (Edward Sun), que es otra persona implicada en este proyecto, que optimizará cualquier conjunto de datos. Esa es la receta del éxito.

Lauren Reeder. Encuentra a tu Edward.

Josh Tobin. Gran entrenador de modelos de aprendizaje automático.

Lauren Reeder. ¿Cómo se aseguran de que está bien?

Isa Fulford. Sí, obviamente, es una parte fundamental del modelo y del producto, y queremos que los usuarios puedanConfianza en los resultados. En parte porque tenemoscitaAsí, el usuario puede ver la fuente de la que el modelo extrae la información. Y, durante el entrenamiento, es algo que intentamos que sea correcto, pero aún es posible que el modelo cometa errores o alucine o confíe en fuentes de información que quizá no sean las más fiables. Así que se trata de un área activa en la que queremos seguir mejorando el modelo.

Investigación en profundidad y operador

Sonya Huang. ¿Cómo debemos considerar Deep Research en relación con o3 y Operator y otras versiones diferentes? Por ejemplo, ¿utiliza Deep Research Operator? ¿Se basan unos en otros? ¿O se trata de una serie de aplicaciones diferentes de o3?

Josh Tobin. Actualmente, estos productos sonindependientepero puedes imaginarte hacia dónde nos dirigimos en el futuro con personas que tengan acceso en algún momento de laAgente definitivo No sólo debe ser capaz de realizar búsquedas en Internet o utilizar un ordenador, o realizar cualquier otro tipo de operación que usted querría que realizara un asistente humano, sino que debe ser capaz de combinar todas estas funciones de una forma más natural.

Sonya Huang. ¿Qué otras decisiones de diseño ha tomado que no resulten obvias a primera vista?

Isa Fulford. Creo que uno de ellos esProceso de clarificación. Si ha utilizado Deep Research, el modelo le hará preguntas antes de comenzar su investigación, mientras que normalmente ChatGPT podría hacerle preguntas al final de sus respuestas, pero no normalmente en elal principioSólo muestra este comportamiento. Esto eshacer algo deliberadamentePorque si la pregunta es muy clara y detallada, vas a obtener la mejor respuesta del modelo de Deep Research. Y no creo que sea el comportamiento natural del usuario proporcionar toda la información en la primera solicitud, por lo que queremos asegurarnos de que si vas a esperar 5 minutos, 30 minutos, que su respuesta es tan detallada y satisfactoria como sea posible. Así que hemos añadido estos pasos adicionales para asegurarnos de que el usuario proporciona todos los detalles que necesitamos.

Y de hecho he visto a mucha gente decir en Twitter que tienen un proceso en el que van a hablar con un o1 o un o1 Pro para ayudar aHacer más detalladas sus indicacionesY una vez que están contentos con el mensaje, lo envían a Deep Research. Es interesante. Así que la gente está encontrando sus propios flujos de trabajo para utilizar Deep Research.

Lauren Reeder. En los últimos meses se han lanzado tres productos diferentes de Deep Research. Describa brevemente en qué se diferencia su producto y qué podemos esperar de él.

Sonya Huang. Y ambos se llaman Investigación Profunda, ¿verdad?

Josh Tobin. Ambos se llaman Investigación Profunda. Sí, este campo dePoca creatividad en los nombres. Creo que la gente debería probar todos estos productos por sí misma y hacerse una idea. Creo que la diferencia de calidad, creo que todos tienen pros y contras, pero creo que las diferencias serán obvias. Pero todo se reduce a la forma en que se construye este modelo y el esfuerzo que se dedica a la construcción del conjunto de datos y el motor que utilizamos para la serie o de modelos, que nos permite optimizar el modelo y hacerlo muy inteligente y de alta calidad.

Sonya Huang. El año pasado tuvimos al equipo de o1 en el podcast y bromeábamos con que OpenAI No se me da muy bien nombrar las cosas.. Yo diría que Deep Research es suNombrar a los más exitososProducto. [RÍE]

Josh Tobin. Investigación profunda, ¿no? Al menos describe lo que hace, supongo.

perspectivas de futuro

Lauren Reeder. Me encantaría conocer su visión de futuro. Hoy habéis lanzado Deep Research, ¿cómo creéis que será dentro de un año? ¿Qué otras cosas complementarias queréis construir en el proceso?

Isa Fulford. Estamos contentos.Ampliación de las fuentes de datos accesibles al modelo. El modelo que entrenamos suele ser muy bueno navegando por la información pública, pero también debe ser capaz deBúsqueda de datos privados. Y entonces creo que es sólo másAumentar su capacidad. Podría mejorar la navegación y el análisis. Sí, creo que a corto plazo queremos mejorar esos aspectos.

Josh Tobin. Pues sí. Y luego considere cómo esto encaja en nuestra hoja de ruta más amplia Agente. Creo que la receta se extendería a una amplia gama de casos de uso que sorprenderían a la gente por lo bien que funciona. Pero la idea es que se toma un modelo de inferencia de última generación, se le da acceso a las mismas herramientas que los seres humanos pueden utilizar para hacer su trabajo o su vida cotidiana, y luego se optimiza directamente para el tipo de resultados que queremos que el Agente sea capaz de realizar. No hay nada que impida que esa receta se amplíe a tareas cada vez más complejas, así que creo que sí.AGI es ahora una cuestión operativa. Y creo que hay mucho más que esperar de esta fórmula universal.

Lauren Reeder. Sam (Sam Altman) tenía una cita muy llamativa cuando dijo que Deep ResearchAsumir un porcentaje de un solo dígito de todas las asignaciones económicamente valiosas a escala mundial.. ¿Cómo debemos entender esta afirmación?

Josh Tobin. Creo que es justo entender que Deep Research No puedes terminar lo que empezaste.Pero puede funcionar para ti.utilizar con moderaciónhoras, y en algunos casos incluso ahorrarpocos díasde tiempo. Así que creo que el objetivo que podemos estar relativamente cerca de conseguir es que Deep Research, y el Agente que construyamos a continuación, y el Agente que construyamos encima de él, te denutilizar con moderación 1%, 5%, 10%, 25% veces, según el tipo de trabajo que realices.

Sonya Huang. Quiero decir, creo que ustedes realmenteautomáticoTenía mi 80% trabajando, así que ......

Lauren Reeder. [Definitivamente más alto para mí.

Josh Tobin. Creo que tenemos que empezar.extender un chequeSí. Sí, lo es.

Sonya Huang. ¿Qué opinas?Todo el grupo profesionalMás... "en riesgo" no es la palabra adecuada, ¿pero más cerca de las áreas en las que Deep Research es muy buena? Estoy pensando en consultoría, por ejemplo, pero ¿qué categorías específicas crees que se acercan más a eso?

Josh Tobin. Sí, solía ser consultor. Eso creo.Ningún puesto de trabajo en peligro. Realmente no creo que sea unSustitución de la mano de obraLas cosas. Sin embargo, para este tipo de trabajos basados en el conocimiento, es necesario dedicar mucho tiempo aExaminar la información y sacar conclusionesCreo que Deep Research va a capacitar a la gentepoder sobrenatural.

Isa Fulford. Sí, me interesan muchosestudio de la medicinaLos casos de uso son muy interesantes. Sólo ellocaliceSe trata de una enfermedad.Todos los documentostal vezTodos los casos recientesLa capacidad de hacer eso. Creo que he visto a muchos médicos publicando en Internet sobre Deep Research o que se han puesto en contacto con nosotros y nos han dicho: "Oh, hicimos esto con él. Lo utilizamos para ayudar a encontrar un ensayo clínico para este paciente" o algo así. Así que es sólo un ahorro de tiempo para las personas que ya están muy ocupados o puede haber cosas que no tenían tiempo para hacer antes y ahora son capaces de acceder a esa información.

Josh Tobin. Sí. Y creo que el impacto de eso puede ser más de lo que parece en la superficie...más profundo¿verdad? No es sólo - no es sólo el ahorro de tiempo 5%, es que lo que podría tomar 4 horas u 8 horas para hacer, ahora se puede hacer con una suscripción ChatGPT y 5 minutos de su tiempo. Así que si tienesTiempo ilimitado¿Qué tipo de cosas haces? ¿Ahora podrías hacer muchas, muchas copias?

Por ejemplo, debe investigar cadaPosibles empresas en las que invertir¿en lugar de limitarse a buscar empresas con las que tenga tiempo de reunirse? Cosas así.

Sonya Huang. O en el lado del consumidor, una de las cosas que me viene a la mente es, ya sabes.Madres trabajadorasDemasiado ocupado para dedicarle tiemponiño pequeñoplanificadorfiesta de cumpleañosAl igual que, ahora se está convirtiendo en factible. Al igual que, ahora esto se está convirtiendo en factible. Así que estoy de acuerdo contigo. Es mucho más importante que salvar el tiempo de 5%.

Josh Tobin. Sí.

Lauren Reeder. Todo esto son cosas que antes no podías hacer.

Isa Fulford. Así es.

Sonya Huang. Cómo cambiaráenseñary nosotrosdo¿Qué enseñaría a los niños ahora que estamos en el mundo de los agentes y la investigación profunda? Ahora que estamos en el mundo de los agentes y la investigación profunda, ¿qué enseñaría a los niños?

Josh Tobin. enseñarChatGPT siempre ha sido utilizado poruso principalUno. Creo - y esto es cierto para ChatGPT en general. Es como aprender cosas hablando con un sistema de IA que puede aprender cosas basándose en lo que le dices, o en el futuro, basándose en lo que aprende de tipersonalizadoTe proporciona información, lo que parece una forma más eficaz y atractiva de aprender que leer un libro de texto.

Sesión relámpago de preguntas

Lauren Reeder. Tenemos algunospregunta sobre el rayoEl problema con el enlace.

Josh Tobin. De acuerdo.

Sonya Huang. De acuerdo. ¿Cuáles son sus casos de uso favoritos de Deep Research?

Josh Tobin. Yo diría que sí, por ejemplo.educación personalizada. Simplemente, aprender cualquier cosa que quiera aprender.

Isa Fulford. Ya lo he mencionado, pero creo que mucho de lo que la gente comparte sobre lalocaliceSobre ellos o sus familiasInformación sobre enfermedades padecidasLas historias personales, todas ellas, son geniales.

Sonya Huang. Lo bueno. Hemos visto algunas categorías de aplicaciones en el último añobrotes. Por ejemplo.codificacioneses un claro ejemplo. Qué categorías de aplicaciones crees que explotarán este año?

Josh Tobin. Quiero decir...Aparentemente, Agente..

Isa Fulford. También diré esto.

Sonya Huang. De acuerdo.2025 es el año del Agente.

Josh Tobin. Creo que sí.

Lauren Reeder. ¿Qué creéis que se debería recomendar leer a la gente para aprender más sobre hacia dónde se dirige el agente o la IA? También podría tratarse de autores.

Sonya Huang. Podcast de Datos de Entrenamiento. [Risas]

Josh Tobin. Creo que es importante mantenerse al día de los últimos avances en IAextremadamente difícil. Doy a la gente laRecomendaciones generalesSí, elija uno o dos que realmente le interesensubtemaY entonces, ya sabes.planificadorUna lista de personas que crees que están haciendo declaraciones interesantes sobre esto, y cómo encontrar una o dos cosas que te interesen. Quizá, en realidad, éste sea un buen caso de uso para la Investigación Profunda. Úsalo para profundizar en cosas sobre las que quieres saber más.

Isa Fulford. Ahora esto es un poco anticuado, pero creo que lo vi hace unos años - creo que se llamaba Reforzar las bases del aprendizaje (Foundations of RL) o algo así, de Pieter Abbeel. Está un poco anticuado, pero creo que es unGran introducción al aprendizaje intensivo.

Josh Tobin. Sí, claro que sí.de acuerdo con Cualquier cosa de Pieter Abbeel. Mi asesor de posgrado.

Isa Fulford. Ah, sí.

Sonya Huang. De acuerdo. Mejora del aprendizajeDespués de unhora puntaY luego se siente como si estuviera cayendo de nuevo endesaceleración. Una vez más, cabe preguntarse si ésta es la interpretación correcta de la dinámica actual del aprendizaje intensivo.

Josh Tobin. Ha vuelto.Sí. Sí.

Sonya Huang. Ha vuelto. ¿Por qué? ¿Por qué ahora?

Josh Tobin. debido aTodo lo demás funcionó.. Al igual, creo que si alguien ha estado siguiendo este espacio por un tiempo, puede recordar el pastel de Yann LeCunparábolas?

Sonya Huang. Habla de ello.

Josh Tobin. Así que, como, si vas aHacer una tartaEntonces la mayor parte de la tarta es el cuerpo de la tarta y luego hay un poco de glaseado y unas cerezas por encima. La analogía es queaprendizaje no supervisadoEs un cuerpo de pastel.Aprendizaje supervisadoEs la guinda.Mejora del aprendizajeEs la guinda del pastel.

Creo que cuando estábamos trabajando en la investigación del aprendizaje de refuerzo en esta área en 2015, 2016, algo así como, creo que la analogía de Yann LeCun, que creo que en retrospectiva es probablemente correcta, era que estábamos tratando de trabajar en elNo hay cuerpo de torta.situación actualAñadir cereza. Pero ahora que tenemos enFormación previa con datos masivos(utilizado como expresión nominal)modelo lingüísticoSu capacidad parararo. Sabemos cómo modelar estos lenguajes enAjuste de la supervisiónSon buenos en lo que hacen.Siga las instruccionesy en generalHacer lo que la gente quiere que hagan..

Por lo tanto, como esto hamuy eficazde los modelos para que se ajusten a lo que usted puede hacer por ellos.Definir la función de recompensade cualquier tipo de caso de uso.

Sonya Huang. Estupendo. Muy bien, de esta sesión relámpago de preguntas, tenemos las aplicaciones de IA favoritas de Deep Research. El agente será la categoría más importante en 2025. Y.Vuelve el aprendizaje intensivo.Me gusta. Me encanta. Muchas gracias por unirse a nosotros. Estamos disfrutando del diálogo. Enhorabuena por el lanzamiento de un gran producto y estamos impacientes por ver qué nos depara.