Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Pesquisa profunda da OpenAI: como o treinamento de ponta a ponta está conduzindo o futuro dos agentes de IA

Isa Fulford e Josh Tobin, da OpenAI, recentemente fizeram uma análise detalhada do mais novo produto de agente de IA da empresa, o Deep Research, no podcast Training Data, observando que o Deep Research representa um grande avanço nos recursos de pesquisa de IA, usando treinamento de modelos de ponta a ponta em vez de um processo fixo tradicional. processo fixo tradicional.

Pesquisa profunda da OpenAI: como o treinamento de ponta a ponta está conduzindo o futuro dos agentes de IA-1


Os dois proprietários de produtos explicaram em detalhes como os dados de treinamento de alta qualidade e a OpenAI o3 Modelos (Eles também compartilham como os poderosos recursos de inferência do modelo de inferência de última geração da OpenAI contribuem para a estratégia de pesquisa flexível da Deep Research. Eles também compartilham a visão de Sam Altman para o Deep Research, que espera que ele assuma uma proporção significativa de tarefas baseadas em conhecimento. Além disso, para criar transparência e confiança do usuário no produto, o Deep Research foi projetado para incorporar recursos importantes, como fontes de citação e um processo de esclarecimento de requisitos. Ao compactar o que costumava levar horas em minutos, o Deep Research está revolucionando as possibilidades de vários cenários de aplicativos pessoais e comerciais.

Artigos com pontos de vista semelhantes:O futuro está aqui: uma análise aprofundada da era do "modelo como produto"

Endereço original: https://www.sequoiacap.com/podcast/training-data-deep-research/

 

Resumo do conteúdo

Neste podcast, Isa Fulford e Josh Tobin, da OpenAI, detalham o Deep Research, um agente de IA que conclui uma pesquisa on-line abrangente em 5 a 30 minutos, pesquisando vários sites e gerando relatórios abrangentes com citações detalhadas. Este episódio investiga como a OpenAI cria agentes de IA eficientes e prevê o que o futuro reserva para o Deep Research em aplicativos comerciais e pessoais.

  • O treinamento de ponta a ponta supera o agendamento manualEm vez do método comum de construção de agentes, que consiste em criar um gráfico operacional fixo contendo nós de um modelo de linguagem, o Deep Research treina de ponta a ponta diretamente em tarefas de navegação complexas. Essa abordagem permite que o modelo desenvolva estratégias flexíveis de coleta e integração de informações que seriam difíceis de obter se fossem programadas manualmente.
  • A qualidade dos dados é um ponto forteDados de treinamento de alta qualidade são essenciais para o sucesso do desenvolvimento da Deep Research. A equipe da OpenAI utiliza o3 Modelos (modelo de inferência de última geração da OpenAI) Recursos avançados de inferência e ajuste fino do modelo em exemplos cuidadosamente selecionados de tarefas de navegação complexas, uma combinação que gerou resultados altamente criativos.
  • O agente é bom em definir tarefas claras, mas flexíveisA Deep Research demonstra que um agente de IA pode ser treinado para lidar com fluxos de trabalho específicos que não podem ser capturados por regras rígidas. O modelo é capaz de adaptar sua estratégia de pesquisa com base em descobertas preliminares, o que o torna ideal para tarefas como pesquisa de mercado, análises de literatura científica e estudos de consumidores, que se beneficiam da coleta de informações abrangentes e exploratórias.
  • Transparência e controle geram confiançaO Deep Research gera confiança no usuário por meio de citações claras, pré-esclarecimento de requisitos e visualização do processo de raciocínio em cadeia. Essa transparência, aliada à capacidade do modelo de integrar informações de várias fontes, permite que os usuários validem suas conclusões e, ao mesmo tempo, se beneficiem de uma pesquisa abrangente que seria difícil para eles concluírem por conta própria.
  • A compressão do tempo cria novas possibilidadesO Deep Research reduz as tarefas de pesquisa que costumavam levar horas para minutos, o que não é apenas uma economia de tempo, mas também uma mudança fundamental no paradigma de como os profissionais do conhecimento trabalham. Os usuários agora podem realizar pesquisas aprofundadas para tomar decisões para as quais não tinham tempo antes, como analisar possíveis investimentos ou planejar eventos especiais.

 

transcrição do podcast

Josh Tobin. Sempre vejo as pessoas aprenderem uma lição nesse campo, que é o fato de acharmos que podemos escrever nossos próprios programas para fazer um trabalho mais inteligente do que os modelos. Mas, na realidade, geralmente os modelos - à medida que o campo avança, os modelos encontram soluções melhores do que os humanos.

E, talvez, a lição mais importante do aprendizado de máquina seja que você obtém o que otimiza. Portanto, se você puder criar um sistema que permita otimizar diretamente os resultados desejados, os resultados serão muito melhores do que se você tentar juntar modelos que não são otimizados de ponta a ponta para a tarefa que você está tentando executar. Portanto, minha orientação de longo prazo é que acho que o ajuste fino do aprendizado por reforço sobre os modelos é provavelmente uma parte fundamental da criação do agente mais avançado.

Sonya Huang. Temos o prazer de dar as boas-vindas a Isa Fulford e Josh Tobin, os proprietários do produto OpenAI Deep Research. O Deep Research foi lançado há três semanas e rapidamente se tornou um sucesso, sendo usado por muitos luminares da tecnologia, como os irmãos Collison, para uma variedade de finalidades, desde análises do setor até pesquisas médicas e até mesmo planejamento de festas de aniversário! .

O Deep Research treina tarefas complexas de navegação e inferência por meio da aprendizagem por reforço de ponta a ponta e é a mais recente adição à família de produtos OpenAI Agent. Operador O segundo produto depois do primeiro. Conversamos com Isa e Josh sobre o Deep Research em uma variedade de tópicos, desde seus casos de uso até sua tecnologia subjacente e o que esperamos dos futuros produtos Agent da OpenAI.

Isa e Josh, bem-vindos ao programa.

Lauren Reeder. Obrigado por sua presença. Muito obrigado por se juntar a nós.

Josh Tobin. Estou feliz por estar aqui.

Isa Fulford. Obrigado pelo convite.

O que é pesquisa profunda?

Lauren Reeder. Então, vamos começar com o que é Deep Research? Conte-nos um pouco sobre suas origens e o que esse produto faz.

Isa Fulford. O Deep Research é um agente que pesquisa um grande número de sites on-line e gera relatórios muito abrangentes. Ele pode fazer coisas que um ser humano levaria horas para fazer. E está integrado ao ChatGPT O ChatGPT é uma ferramenta poderosa que pode responder suas perguntas em apenas 5 a 30 minutos. Como resultado, ele permite uma pesquisa mais aprofundada e respostas às suas perguntas com fontes mais detalhadas e específicas do que as respostas regulares do ChatGPT.

É o nosso lançamento dePrimeiro agente Um deles. Também lançamos o Operator anteriormente, portanto, o Deep Research é o segundo Agent, e lançaremos mais no futuro.

Sonya Huang. Qual é a história de origem da Deep Research? Quando vocês decidiram fazer isso? De onde veio a inspiração? Quantas pessoas estiveram envolvidas em seu desenvolvimento? Qual foi o processo de concretização do projeto?

Josh Tobin. Boa pergunta. Isso foi antes de eu entrar para a OpenAI.

Isa Fulford. Ah, sim. [Acho que há mais ou menos um ano, tivemos muito sucesso internamente ao usar esse novo modelo de inferência e treinar modelos para pensar antes de responder. Naquela época, estávamos nos concentrando principalmente em matemática e ciências, mas acho que a outra coisa que esse novo mecanismo de modelagem de inferência desbloqueia é a capacidade de executar tarefas de longo prazo que envolvem os recursos de um agente.

Acreditamos que muitas pessoas precisam realizar tarefas que exijam muita pesquisa on-line ou muitas informações externas, o que envolve muito raciocínio e diferenciação entre fontes de informação. E é preciso ser muito criativo para fazer esse tipo de coisa. Acho que finalmente tínhamos modelos, ou formas de treinar modelos, que nos permitiam resolver algumas dessas tarefas. Então, decidimos tentar começar a treinar modelos para realizarProcurar tarefas. Use a mesma metodologia que usamos para treinar o modelo de inferência, mas aplique-a a uma tarefa mais realista.

Sonya Huang. Essa ideia é sua? Josh, como você se envolveu?

Isa Fulford. Sim, inicialmente fomos eu e Yash Patil, que é um colega da OpenAI, que estava trabalhando em um projeto semelhante que também será lançado em algum momento, e estávamos muito animados com isso. Criamos uma versão inicial de demonstração. E Thomas Dimson, que é um engenheiro muito bom, se dedica a tudo e trabalha muito. Portanto, foi um processo muito interessante.

Josh Tobin. Sim, entrei um pouco mais tarde. Eu havia trabalhado na OpenAI no início da minha carreira e, quando voltei, estava acompanhando vários projetos e fiquei muito interessado em alguns de nossos projetos de agentes, inclusive este, e então me envolvi.

Lauren Reeder. Ótimo. Explique para quais grupos de usuários você está criando o Deep Research.

Josh Tobin. Sim, ele foi projetado para qualquer pessoa que trabalhe com conhecimento em sua vida ou trabalho diário. Vemos muitos usuários utilizando-o para seu trabalho, por exemplo, realizando pesquisas no trabalho para entender mercados, empresas, propriedades ......

Isa Fulford. Uma grande quantidade de pesquisa científica, pesquisa médica. Acho que vimos muitos exemplos médicos também.

Josh Tobin. SIM. Uma das coisas que mais nos entusiasmam é o fato de que o estilo é do tipo "preciso passar muito tempo fazendo algo, preciso fazer muitas pesquisas na Web e reunir muitas informações", e isso não se limita apenas ao trabalho, mas também é útil para fazer compras e viajar.

Isa Fulford. Por isso, estamos animados com o lançamento da versão Plus, para que mais pessoas possam experimentar o Deep Research e talvez vejamos alguns novos casos de uso.

Lauren Reeder. Excelente. Esse é definitivamente um dos produtos que mais usei nas últimas semanas. É excelente.

Isa Fulford. Fico muito feliz em ouvi-lo dizer isso.

Josh Tobin. Você o usa para trabalhar?

Lauren Reeder. Trabalho, é claro. Há também o entretenimento.

Sonya Huang. Para que você o usa?

Lauren Reeder. Ah, para mim? Puxa vida. Eu estava pensando em comprar um carro novo e queria saber quando a próxima geração desse carro seria lançada. Havia muitas publicações especulativas em blogs na Internet sobre várias dicas do fabricante, por exemplo, então perguntei à Deep Research se poderia analisar todos os rumores sobre esse carro e todas as operações anteriores reais desse fabricante de carros. Ela elaborou um relatório muito bom e me disse que talvez eu tivesse que esperar alguns meses, mas que ele deveria ser lançado este ano, nos próximos meses.

Josh Tobin. SIM. Uma das coisas realmente interessantes sobre ele é que, além de ser uma ampla coleção de todas as informações sobre uma determinada fonte, ele também é muito bom para encontrar informações obscuras e estranhas na Web. Por exemplo, se você quiser saber algo muito específico que talvez não apareça na primeira página dos resultados de pesquisa, ele também é muito bom em lidar com esse tipo de coisa. Isso é legal.

Casos de uso surpreendentes

Lauren Reeder. Quais são alguns dos casos de uso surpreendentes que você já viu?

Josh Tobin. Oh.

Isa Fulford. Acho que a coisa mais surpreendente para mim é o número de pessoas que o usam paraEscrever código.

Josh Tobin. Sim.

Isa Fulford. Não é realmente um caso de uso que eu tenha considerado, mas vi muitas pessoas dizerem no Twitter e em vários canais em que podemos obter feedback que o usam para escrever código e pesquisar código, e também o usam para encontrar a documentação mais recente sobre um determinado pacote e para ajudá-las com scripts ou qualquer outra coisa.

Josh Tobin. Sim, estou um pouco envergonhado por não termos pensado nisso como um caso de uso.

Isa Fulford. [Sim.

Josh Tobin. Isso pode parecer óbvio para os usuários do ChatGPT, mas sei que é realmente impressionante que ele faça isso tão bem.

Sonya Huang. Como você acha que o equilíbrio entre o uso comercial e pessoal evoluirá com o tempo? Por exemplo, você mencionou a próxima versão Plus. Em um ou dois anos, você acha que ela será principalmente uma ferramenta comercial ou principalmente uma ferramenta para o consumidor?

Isa Fulford. Espero que sejam as duas coisas. Acho que é uma habilidade muito versátil, e acho que é algo que todos nós fazemos em nosso trabalho e em nossa vida pessoal. Portanto, espero que seja as duas coisas.

Josh Tobin. Sim, estou ansioso por ambos. Acho que a mágica do sistema é que ele realmente economiza muito tempo das pessoas. Se houver algo que possa levar horas - em alguns casos, ouvimos dizer que levou até dias - as pessoas podem simplesmente inseri-lo no Deep Research e obter seus próprios resultados, o que levaria muito tempo para chegar ao 90%. Portanto, sim, eu acho que há mais tarefas desse tipo no mundo dos negócios do que no mundo pessoal. Mas tenho certeza de que isso fará parte da vida das pessoas, independentemente do domínio.

Lauren Reeder. Ele realmente se tornou minha principal forma de usar o ChatGPT. Eu sempre escolho o Deep Research em vez do modo normal.

Isa Fulford. Sério?

Lauren Reeder. [Risos].

Josh Tobin. Sim, é verdade. Você é tão paciente.

Lauren Reeder. Aparentemente, sim.

Lauren Reeder. Então, que casos de uso de consumidores vocês estão vendo? O que os entusiasma?

Isa Fulford. Acho que muito disso tem a ver com conselhos sobre compras e viagens. Pessoalmente, uso muito o modelo. Estou usando-o há meses para essas coisas. Por acaso, estávamos no Japão quando o Deep Research foi lançado, e ele tem sido muito útil para me ajudar a encontrar restaurantes que atendam a requisitos específicos, bem como coisas que eu talvez não encontrasse.

Josh Tobin. SIM. Acho que é útil quando você precisa comprar algo caro, ou quando está planejando uma viagem especial, ou quando quer passar muito tempo pensando sobre o assunto. Para mim, eu poderia passar horas tentando ler todas as informações na Internet sobre esse produto que estou interessado em comprar, como examinar todas as avaliações, fóruns e coisas do gênero. E o Deep Research pode reunir informações semelhantes muito rapidamente. Portanto, ele é realmente útil para esse tipo de coisa.

Isa Fulford. O modelo também é muito bom emcompreensão. Portanto, se a sua consulta contiver muitas partes diferentes ou muitas perguntas diferentes, como se você quiser saber sobre o produto, mas também quiser compará-lo com todos os outros produtos e também quiser saber sobre as informações de avaliação do Reddit e assim por diante, há muitas solicitações diferentes que você pode fazer e ele fará tudo isso para você.

Josh Tobin. Sim. Outro truque é simplesmente pedir que seja apresentado em uma tabela. Em geral, ele também faz isso, mas é muito útil ter uma tabela com muitas citações e que liste todas as categorias de informações que você deseja pesquisar.

Isa Fulford. SIM. Ainda há alguns recursos que devem ser adicionados ao produto no futuro, mas o modelo subjacente é capaz deImagens incorporadasAssim, ele pode encontrar imagens do produto. E ele também é capaz deCriação de gráficosque, em seguida, incorpora esses gráficos em suas respostas, mas esse ainda não é um caso de uso do consumidor. Esperamos que esses recursos também sejam implementados no ChatGPT em breve.

Sonya Huang. Casos de uso do consumidor nerd. [Risos].

Josh Tobin. Sim, falando de casos de uso de consumidores nerds.educação personalizadaTambém é um caso de uso muito interessante. Por exemplo, se você quiser aprender sobre um determinado tópico, se precisar de uma atualização em biologia ou se quiser aprender sobre alguns eventos mundiais, ele é muito bom em reunir todas as informações que você acha que não entende e os aspectos que você gostaria que ele examinasse e, em seguida, ele elaborará um bom relatório para você.

Isa Fulford. Tenho um amigo que está pensando em abrir uma empresa de produtos de consumo e ele tem usado muito o Deep Research para pesquisar produtos semelhantes e ver se nomes específicos foram registrados - domínios tomados e para fazer estimativas do tamanho do mercado e assim por diante. Foi interessante - ele compartilhava os relatórios comigo e eu os lia. Foi muito interessante ver isso.

Josh Tobin. Outro caso de uso interessante é que ele é muito bom para encontrar a InternetFatos individuais e ocultos. Por exemplo, se houver algum programa de TV que você esteja tentando encontrar, como um determinado episódio ou algo do gênero, ele se aprofundará e encontrará as únicas informações de referência sobre ele na Web.

Isa Fulford. Ah, sim. O pai do amigo do meu irmão tinha uma pergunta factual muito específica. A pergunta era sobre um general austríaco que estava no poder quando alguém morreu em uma determinada batalha. Era uma pergunta muito específica. Aparentemente, o ChatGPT já havia respondido errado antes, e ele tinha certeza de que a resposta do ChatGPT estava errada. Então, ele foi à biblioteca pública, encontrou um registro e descobriu que ChatGPT estava realmente errado. E então o Deep Research conseguiu dar a resposta certa, então enviamos a ele a resposta, e ele ficou entusiasmado. [Risos].

Sonya Huang. Quais são seus modelos mentais aproximados para tarefas nas quais a Deep Research é muito boa atualmente? Para quais cenários devo usar o modelo o-series? Em quais cenários a Deep Research deve ser usada?

Josh Tobin. O que o Deep Research faz muito bem é, se você tiver uma noção do que desejadescrição elaboradae envolve a leitura de muitas informações na Internet para obter a melhor resposta. Se sua pergunta for vaga, ela pode ajudá-lo aelucidarO que você deseja. Mas isso funciona melhor quando você tem um conjunto específico de informações para procurar.

Isa Fulford. E acho que ele é muito bom nisso.conformeEle é muito bom em encontrar informações específicas e difíceis de encontrar, mas provavelmente não é muito bom nisso - e pode gerar alguns novos insights a partir das informações que encontra, mas acho queainda nãoFazer novas descobertas científicas. Quanto ao uso do modelo da série O, para mim, se eu pedir que ele faça a mesma coisa que o modelocodificaçõescoisas relacionadas que normalmente não exigem conhecimento além do que o modelo adquiriu com o pré-treinamento. Assim, para codificação ou o3-mini HIGH, geralmente uso o o1 Pro ou o1.

Treinamento de ponta a ponta

Lauren Reeder. A Deep Research é uma OpenAI Direção de novos produtosUm excelente exemplo disso. Estou curioso para saber, na medida em que puder compartilhar, como isso funciona.

Isa Fulford. O modelo que orienta a Deep Research é Versão aprimorada do o3(matemática) gêneroo3 é o nosso modelo de inferência de última geração.. Somos especializados emNós o treinamos em nossa coleção de tarefas de navegação complexas, bem como em outras tarefas de raciocínio. Como tal, ele também tem acesso aferramenta de navegaçãoresponder cantando Ferramentas Python. Ao treinar de ponta a ponta nessas tarefas, ele aprende estratégias para resolvê-las, e os modelos resultantes são excelentes em pesquisa e análise on-line.

Josh Tobin. E a maneira de entender isso intuitivamente é que você faz essa solicitação, de preferência uma solicitação detalhada sobre o que deseja. O modelo pensará bastante sobre isso, buscará informações, extrairá informações e as lerá, entenderá como essas informações se relacionam com a solicitação e, em seguida, decidirá o que buscar em seguida para se aproximar da resposta final que você deseja. E ele é treinado para fazer um bom trabalho de resumo de todas essas informações em um relatório organizado, com referências que apontem para as informações originais encontradas.

Isa Fulford. Sim, acho que a novidade da pesquisa profunda como um recurso de agente é que, comoCapacidade de treinamento de ponta a pontaPortanto, há muitas coisas no processo de pesquisa que não podem ser previstas com antecedência. Portanto, não acho que seja possível escrever algum modelo de linguagem, programa ou script que o torne tão flexível quanto o modelo pode aprender por meio de treinamento, em que o modelo está realmente reagindo às informações da rede em tempo real e, dependendo do que vê, precisa mudar sua estratégia e assim por diante. Assim, vemos que ele está fazendo muitoPesquisa criativa. Você pode ler o resumo do Chain of Thought e tenho certeza de que, às vezes, pode perceber que ele é muito inteligente em termos de descobrir o que procurar em seguida ou contornar obstáculos.

Sonya Huang. John Collison enviou um tuíte que está causando um certo alvoroço na Internet. Quanto da magia da Deep Research vem deAcesso em tempo real ao conteúdo da WebE quantos de E quanto docadeia de pensamentoO que está acontecendo? Vocês podem explicar um pouco?

Isa Fulford. Acho que é absolutamentecasamento dos dois. E acho que você pode ver isso porque há outros produtos de busca que não são necessariamente - não são treinados de ponta a ponta e, portanto, não são tão flexíveis em responder - em responder às informações que encontram, e não são tão criativos em termos de como resolver problemas específicos de forma criativa, e não são não são tão criativos porque não foram treinados especificamente para esse fim. Portanto, é definitivamente uma combinação de ambos. Ou seja, é uma versão aperfeiçoada do o3. o3 é um modelo muito inteligente e poderoso. Grande parte do poder analítico também vem do treinamento do modelo o3 subjacente. Portanto, acho que é definitivamente uma combinação de ambos.

Josh Tobin. Antes de ingressar na OpenAI, trabalhei em uma startup na qual também estávamos tentando criar agentes, e a maneira como ele foi criado era semelhante à maneira como a maioria das pessoas que vi na Internet descreve a criação de agentes, que é basicamente a criação de umgráfico de operaçãoAlguns dos nós desse gráfico são modelos de linguagem. Assim, o modelo de linguagem pode decidir o que fazer em seguida, mas a lógica geral das etapas que ocorrem é definida por um ser humano. Descobrimos que essa é uma maneira eficiente de criar protótipos rapidamente, mas ela falha rapidamente no mundo real porque é difícil prever todos os cenários que um modelo pode enfrentar e considerar os diferentes ramos do caminho que você pode querer seguir.

Além disso, os modelos geralmente não são os melhores tomadores de decisão para os nós desse gráfico porque não foram treinados para tomar essas decisões. Eles são treinados para fazer coisas que se assemelham a eles. Portanto, acho que o que é realmente poderoso nesse modelo é o fato de eleApós o treinamento direto de ponta a pontaque pode resolver as tarefas que os usuários estão usando para resolver.

Lauren Reeder. Então você não precisa configurar gráficos ou tomar decisões arquitetônicas do tipo nó no back-end?

Isa Fulford. Isso é totalmente determinado pelo próprio modelo.

Josh Tobin. Sim.

Sonya Huang. Vocês podem falar mais sobre isso? Porque parece que vocês fizeramDecisões muito clarasUm deles, e aparentemente funcionou. Há muitas empresas criando aplicativos em sua API que resolvem tarefas específicas para usuários específicos com dicas. Você acha que esses aplicativos seriam mais bem atendidos se fossem treinados de ponta a ponta em seus fluxos de trabalho específicos?

Isa Fulford. Acho que se seu fluxo de trabalho for muitoEspecífico e previsívelSe você não estiver lidando com um grande número de coisas, então adotar a abordagem descrita por Josh faz muito sentido. No entanto, se você estiver lidando com muitas coisasCondições marginaisou precisam ser muitoversátilEntão, uma abordagem semelhante à da Deep Research pode ser uma opção melhor.

Josh Tobin. Sim, meu conselho para as pessoas é que vocêindesejávelno modelosolidificação (química)O problema é que você sabe.regra rígida. Se você tiver um banco de dados ou algo do gênero que não queira que o modelo toque, é melhor codificá-lo em uma lógica escrita manualmente. Mas acho que essa é uma das lições que tenho visto as pessoas aprenderem repetidamente nesse campo: achamos que podemos fazer coisas mais inteligentes do que os modelos escrevendo nossos próprios programas. Mas, na realidade, geralmente os modelos - à medida que o campo avança, os modelos encontram soluções melhores do que os humanos.

E, talvez, a lição mais importante do aprendizado de máquina seja que você obtém o que otimiza. Portanto, se você puder criar um sistema que permita otimizar diretamente os resultados desejados, os resultados serão muito melhores do que se você tentar juntar modelos que não são otimizados de ponta a ponta para a tarefa que você está tentando executar. Portanto, minha orientação de longo prazo é que acho que o ajuste fino do aprendizado por reforço sobre os modelos é provavelmente uma parte fundamental da criação do agente mais avançado.

Sonya Huang. Quais foram os maiores desafios técnicos na realização da Deep Research?

Josh Tobin. Bem, talvez eu possa falar como observador e não como alguém que esteve envolvido desde o início, mas parece que a Isa e o restante da equipe trabalharam muito e parecem estar tendo sucesso!Ocultar a chaveUma das coisas é que fazerConjuntos de dados de altíssima qualidade. Essa é uma daquelas lições antigas de aprendizado de máquina que as pessoas continuam reaprendendo. Mas a qualidade dos dados que você alimenta em seu modelo é provavelmente o maior fator para determinar a qualidade do modelo que você obtém do outro lado.

Isa Fulford. E depois ter alguém como Edward (Edward Sun), que é outra pessoa envolvida nesse projeto, que otimizará qualquer conjunto de dados. Essa é a receita do sucesso.

Lauren Reeder. Encontre seu Edward.

Josh Tobin. Ótimo treinador de modelos de aprendizado de máquina.

Lauren Reeder. Como vocês se certificam de que está tudo certo?

Isa Fulford. Sim, obviamente, essa é uma parte essencial do modelo e do produto, e queremos que os usuários possamConfiança nos resultados de saída. Em parte porque temoscitaçãoAssim, o usuário pode ver a fonte da qual o modelo está citando suas informações. E, durante o treinamento, tentamos garantir que isso esteja correto, mas ainda é possível que o modelo cometa erros, tenha alucinações ou confie em fontes de informação que talvez não sejam as mais confiáveis. Portanto, essa é definitivamente uma área ativa em que queremos continuar a aprimorar o modelo.

Pesquisa profunda e operador

Sonya Huang. Como devemos pensar sobre o Deep Research em relação ao o3, ao Operator e a outras versões diferentes? Por exemplo, o Deep Research usa o Operator? Eles são todos construídos uns sobre os outros? Ou são todos uma série de aplicativos diferentes do o3?

Josh Tobin. Atualmente, esses produtos sãoautônomoMas você pode imaginar para onde estamos indo no futuro, com as pessoas tendo acesso, em algum momento, aoAgente definitivo Ele não só deve ser capaz de fazer pesquisas na Web, usar um computador ou realizar qualquer outro tipo de operação que você gostaria que um assistente humano realizasse, mas também deve ser capaz de combinar todas essas funções de forma mais natural.

Sonya Huang. Que outras decisões de design você tomou que podem não ser óbvias à primeira vista?

Isa Fulford. Acho que um deles éProcesso de esclarecimento. Se você tiver usado o Deep Research, o modelo fará perguntas antes de você iniciar sua pesquisa, enquanto normalmente o ChatGPT pode fazer perguntas no final das respostas, mas não no início.no inícioBasta mostrar esse comportamento. Isso éfazer algo deliberadamentePorque se a solicitação for muito clara e detalhada, você obterá a melhor resposta do modelo Deep Research. E não acho que seja o comportamento natural do usuário fornecer todas as informações na primeira solicitação, portanto, queremos ter certeza de que, se você vai esperar 5 minutos, 30 minutos, sua resposta seja a mais detalhada e satisfatória possível. Portanto, adicionamos essas etapas extras para garantir que o usuário forneça todos os detalhes de que precisamos.

E, na verdade, vi muitas pessoas dizerem no Twitter que têm um processo em que conversam com um o1 ou um o1 Pro para ajudarTornar seus prompts mais detalhadosE quando estão satisfeitos com o prompt, eles o enviam para o Deep Research. Isso é interessante. Portanto, as pessoas estão encontrando seus próprios fluxos de trabalho para usar o Deep Research.

Lauren Reeder. Três produtos diferentes da Deep Research foram lançados nos últimos meses. Descreva brevemente o que torna seu produto diferente e o que devemos esperar dele.

Sonya Huang. E ambos se chamam Deep Research, certo?

Josh Tobin. Ambos são chamados de pesquisa profunda.Pouca criatividade na nomeação. Acho que as pessoas deveriam experimentar todos esses produtos por conta própria e ter uma ideia deles. Acho que a diferença de qualidade, acho que todos eles têm prós e contras, mas acho que as diferenças serão óbvias. Mas tudo se resume à maneira como esse modelo é construído e ao esforço despendido na construção do conjunto de dados e do mecanismo que usamos para a série O de modelos, o que nos permite otimizar o modelo e torná-lo muito inteligente e de alta qualidade.

Sonya Huang. No ano passado, tivemos a equipe da o1 no podcast e brincamos que a OpenAI Não sou muito bom em dar nomes às coisas.. Eu diria que a Pesquisa Profunda é o seuNomear os mais bem-sucedidosProduto. [RISOS].

Josh Tobin. Pesquisa profunda, certo? Pelo menos descreve o que ela faz, eu acho.

perspectivas futuras

Lauren Reeder. Gostaria muito de ouvir sua visão do futuro. Vocês lançaram o Deep Research hoje, como acham que ele será daqui a um ano? Talvez que outras coisas complementares vocês queiram criar no processo?

Isa Fulford. Estamos felizes.Ampliação das fontes de dados acessíveis ao modelo. O modelo que treinamos geralmente é muito bom em navegar pelas informações públicas, mas também deve ser capaz deBusca de dados privados. E então eu acho que é apenas maisAumentar sua capacidade. Portanto, ele poderia ser melhor em termos de navegação e análise. Sim, acho que, em curto prazo, queremos melhorar essas áreas.

Josh Tobin. Sim, é verdade. E então considere como isso se encaixa em nosso roteiro mais amplo do Agente. Por exemplo, acho que a receita aqui se estenderia a uma ampla gama de casos de uso que surpreenderiam as pessoas com seu bom funcionamento. Mas a ideia é que você pegue um modelo de inferência de última geração, dê a ele acesso às mesmas ferramentas que os humanos podem usar para fazer seus trabalhos ou suas vidas diárias e, em seguida, otimize-o diretamente para os tipos de resultados que você deseja que o Agente seja capaz de realizar. Esse tipo de receita não tem nada que impeça o escalonamento dessa receita para tarefas cada vez mais complexas, portanto, acho que sim.O AGI agora é um problema operacional. E acho que há muito mais a se esperar dessa fórmula universal.

Lauren Reeder. Sam (Sam Altman) fez uma citação muito marcante quando disse que o Deep ResearchAssumir uma porcentagem de um único dígito de todas as atribuições de valor econômico em todo o mundo. Como devemos entender essa declaração?

Josh Tobin. Acho que é justo entender que a Deep Research Não é possível terminar o que você começou.Mas isso pode funcionar para você.usar com moderaçãohoras e, em alguns casos, até mesmo economizarvários diasde tempo. Portanto, acho que a meta que podemos estar relativamente perto de alcançar é que o Deep Research, o Agente que construirmos em seguida e o Agente que construirmos sobre ele lhe darãousar com moderação 1%, 5%, 10%, 25% vezes, dependendo do tipo de trabalho que você faz.

Sonya Huang. Quero dizer, acho que vocês realmenteautomáticoMeu 80% estava funcionando, então ......

Lauren Reeder. [Definitivamente, para mim é mais alto.

Josh Tobin. Acho que só precisamos começar.preencher um chequeSim. Sim, é isso mesmo.

Sonya Huang. O que você acha?Todo o grupo ocupacionalMais - "em risco" não é a palavra certa, mas mais próximo das áreas em que a Deep Research é muito boa? Estou pensando em consultoria, por exemplo, mas que categorias específicas você acha que estão mais próximas disso?

Josh Tobin. Sim, eu costumava ser um consultor. Acho que sim.Nenhum emprego está em risco. Eu realmente não acho que seja umaSubstituição da força de trabalhoO material. Entretanto, para esses tipos de empregos baseados em conhecimento, você precisa dedicar muito tempo paraProcurar informações e tirar conclusõesAcho que a Deep Research vai capacitar as pessoaspoder sobrenatural.

Isa Fulford. Sim, estou interessado em muitosestudo da medicinaOs casos de uso são muito interessantes. Apenas olocalizarTrata-se de uma doença.Todos os documentostalvezTodos os casos recentesA capacidade de fazer isso. Acho que vi muitos médicos postando on-line sobre o Deep Research ou entraram em contato conosco e disseram: "Ah, fizemos isso com ele. Nós a usamos para ajudar a encontrar um estudo clínico para este paciente" ou algo do gênero. Portanto, é apenas uma economia de tempo para pessoas que já estão muito ocupadas ou que talvez não tenham tido tempo para fazer coisas antes e agora podem acessar essas informações.

Josh Tobin. Sim. E acho que o impacto disso pode ser maior do que parece à primeira vistamais profundocerto? Não se trata apenas de economizar o tempo do 5%, mas o que pode levar 4 ou 8 horas para ser feito, agora você pode fazer com uma assinatura do ChatGPT e 5 minutos do seu tempo. Portanto, se você tiverTempo ilimitadoQue tipos de coisas você faz? Agora você provavelmente poderia fazer muitas, muitas cópias?

Por exemplo, você deve pesquisar cadaPossíveis startups para investirem vez de apenas pesquisar empresas com as quais você tem tempo para se reunir? Coisas desse tipo.

Sonya Huang. Ou, no lado do consumidor, uma das coisas que me vem à mente é, você sabe.Mães que trabalhamMuito ocupado para ter tempo paracriança pequenaplanejadorfesta de aniversárioPor exemplo, agora está se tornando viável. Tipo, agora isso está se tornando viável. Portanto, concordo com você. É muito mais importante do que economizar o tempo do 5%.

Josh Tobin. Sim.

Lauren Reeder. Tudo isso é algo que você não podia fazer antes.

Isa Fulford. É isso mesmo.

Sonya Huang. Como isso mudaráeducare nósfazerO que você ensinaria às crianças agora que estamos no mundo dos agentes e da pesquisa profunda? Agora que estamos no mundo dos agentes e da pesquisa profunda, o que você ensina às crianças?

Josh Tobin. educarO ChatGPT sempre foi usado poruso primárioUm. Acho que - e isso vale para o ChatGPT em geral. É como aprender coisas conversando com um sistema de IA que pode aprender coisas com base no que você diz a ele ou, no futuro, com base no que ele aprende sobre vocêpersonalizadoEle fornece informações, o que parece ser uma maneira mais eficaz e envolvente de aprender do que ler um livro didático.

Sessão de perguntas relâmpago

Lauren Reeder. Temos algunspergunta sobre raiosO problema com o link.

Josh Tobin. Está bem.

Sonya Huang. Certo. Quais são seus casos de uso favoritos da Deep Research?

Josh Tobin. Eu diria que sim, por exemplo.educação personalizada. Simplesmente, aprender qualquer coisa que eu queira aprender.

Isa Fulford. Já mencionei isso, mas acho que muito do que as pessoas compartilham sobre alocalizarSobre eles ou suas famíliasInformações sobre doenças sofridasAs histórias pessoais, todas elas, são ótimas.

Sonya Huang. O bom. Vimos algumas categorias de aplicativos no ano passadosurtos. Por exemplo.codificaçõesé um exemplo claro. Que categorias de aplicativos você acha que vão explodir este ano?

Josh Tobin. Quero dizer.Aparentemente, Agente..

Isa Fulford. Também vou dizer isso.

Sonya Huang. Está bem.2025 é o ano do Agente.

Josh Tobin. Acho que sim.

Lauren Reeder. Então, o que vocês acham que as pessoas deveriam ler para saber mais sobre o rumo que o agente ou a IA está tomando? Também poderiam ser autores.

Sonya Huang. Podcast de dados de treinamento. [Risos].

Josh Tobin. Acho que é importante acompanhar os últimos desenvolvimentos em IAextremamente difícil. Eu dou às pessoas oRecomendações geraisSim, escolha um ou dois que realmente lhe interessemsubtemaE então, você sabe.planejadorUma lista de pessoas que você acha que estão fazendo declarações interessantes sobre isso e como encontrar uma ou duas coisas que lhe interessam. Talvez, na verdade, esse seja um bom caso de uso para a pesquisa profunda. Use-o para se aprofundar em assuntos sobre os quais você deseja saber mais.

Isa Fulford. Isso está um pouco ultrapassado, mas acho que vi isso há alguns anos - acho que se chamava Fortalecimento dos fundamentos da aprendizagem (Foundations of RL) ou algo parecido, de Pieter Abbeel. É um pouco antiquado, mas acho que é uma ótima opção.Ótima introdução ao aprendizado intensivo.

Josh Tobin. Sim, com certeza.concordar com Qualquer coisa de Pieter Abbeel. Meu orientador de pós-graduação.

Isa Fulford. Ah, sim.

Sonya Huang. Está bem. Aprendizado intensivoDepois de umhorário de picoE então parece que está caindo de voltaretração. Novamente, a pergunta é: essa é a interpretação correta da dinâmica atual do aprendizado intensivo?

Josh Tobin. Ele está de volta.Sim. Sim.

Sonya Huang. Ele está de volta. Por quê? Por que agora?

Josh Tobin. por conta deTodo o resto funcionou.. Por exemplo, acho que se alguém estiver acompanhando este espaço há algum tempo, deve se lembrar do bolo de Yann LeCunparábolas?

Sonya Huang. Fale sobre isso.

Josh Tobin. Então, por exemplo, se você forFaça um boloO bolo é um bolo de massa, então a maior parte do bolo é o corpo do bolo e depois há um pouco de cobertura e algumas cerejas por cima. A analogia é queaprendizado não supervisionadoÉ um corpo de bolo.Aprendizagem supervisionadaÉ a cobertura.Aprendizado intensivoÉ a cereja do bolo.

Acho que quando estávamos trabalhando na pesquisa de aprendizagem por reforço nessa área em 2015, 2016, mais ou menos como, acho que a analogia de Yann LeCun, que, em retrospecto, provavelmente está correta, era que estávamos tentando trabalhar naSem corpo de bolo.situação atualAdicionar cereja. Mas agora que temos emPré-treinamento em dados massivos(usado em uma expressão nominal)modelo de linguagemSua capacidade deraro. Sabemos como modelar essas linguagens emAjuste fino da supervisãoEles são bons no que fazem.Siga as instruçõese, em geralFazendo o que as pessoas querem que eles façam..

Portanto, como isso temmuito eficazentão é hora de ajustar esses modelos para que se encaixem no que você pode fazer por elesDefinir a função de recompensade qualquer tipo de caso de uso.

Sonya Huang. Muito bom. Muito bem, a partir dessa sessão de perguntas-relâmpago, temos os aplicativos de IA favoritos da Deep Research. Agente será a categoria de destaque em 2025. E.O aprendizado intensivo está de volta.Eu gosto disso. Eu adoro isso. Muito obrigado por se juntar a nós. Estamos gostando do diálogo. Parabéns pelo lançamento de um ótimo produto e mal podemos esperar para ver o que ele trará.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Pesquisa profunda da OpenAI: como o treinamento de ponta a ponta está conduzindo o futuro dos agentes de IA

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil