OpenAI의 심층 연구: 엔드투엔드 트레이닝이 AI 에이전트의 미래를 선도하는 방법

56.1K 00

OpenAI의 이사 풀포드와 조쉬 토빈은 최근 트레이닝 데이터 팟캐스트에서 자사의 최신 AI 에이전트 제품인 딥 리서치에 대해 자세히 살펴보면서, 딥 리서치는 기존의 고정된 프로세스 대신 엔드투엔드 모델 트레이닝을 사용하여 AI 연구 역량에 있어 획기적인 고정된 프로세스.

OpenAI 的 Deep Research：端到端训练如何引领 AI Agent 的未来

두 제품 소유자는 고품질 학습 데이터와 OpenAI가 어떻게 결합되는지 자세히 설명했습니다. o3 모델 (또한 OpenAI의 최첨단 추론 모델의 강력한 추론 기능이 어떻게 딥 리서치의 유연한 연구 전략에 기여하는지도 공유합니다. 또한 지식 기반 작업의 상당 부분을 담당하게 될 것으로 예상하는 샘 알트만의 딥 리서치에 대한 비전도 공유합니다. 또한 제품에 대한 투명성과 사용자 신뢰를 구축하기 위해 인용 출처 및 요구 사항 설명 프로세스와 같은 주요 기능을 통합하도록 설계되었습니다. 몇 시간이 걸리던 작업을 몇 분으로 압축함으로써, Deep Research는 수많은 비즈니스 및 개인 애플리케이션 시나리오의 가능성을 혁신적으로 개선하고 있습니다.

비슷한 관점의 기사를 참조하세요:미래는 여기에 있다: '제품으로서의 모델' 시대를 심층적으로 살펴보기

원래 주소: https://www.sequoiacap.com/podcast/training-data-deep-research/

내용 요약

이 팟캐스트에서는 여러 웹사이트를 검색하고 상세한 인용이 포함된 종합 보고서를 생성하여 5~30분 안에 종합적인 온라인 조사를 완료하는 AI 에이전트인 딥 리서치에 대해 OpenAI의 이사 풀포드와 조쉬 토빈이 자세히 설명합니다. 이 에피소드에서는 OpenAI가 효율적인 AI 에이전트를 구축하는 방법을 살펴보고 상업용 및 개인용 애플리케이션에서 딥 리서치의 미래를 미리 살펴봅니다.

엔드투엔드 교육이 수동 스케줄링보다 뛰어난 성능 제공언어 모델의 노드를 포함하는 고정된 연산 그래프를 구축하는 일반적인 에이전트 구축 방식 대신, 딥 러닝은 복잡한 검색 작업을 엔드투엔드로 직접 학습시킵니다. 이 접근 방식을 통해 모델은 수동으로 스크립트를 작성할 경우 달성하기 어려운 유연한 정보 수집 및 통합 전략을 개발할 수 있습니다.
데이터 품질은 핵심 강점고품질의 학습 데이터는 딥러닝 개발의 성공에 매우 중요합니다. OpenAI 팀은 다음을 활용합니다. o3 모델 (OpenAI의 최첨단 추론 모델) 강력한 추론 기능과 세심하게 선별된 복잡한 검색 작업의 예시를 바탕으로 모델을 미세 조정하여 매우 창의적인 결과를 만들어 냈습니다.
에이전트는 명확하면서도 유연한 작업 정의에 능숙합니다.딥 리서치는 엄격한 규칙으로는 포착할 수 없는 특정 워크플로우를 처리하도록 AI 에이전트를 훈련시킬 수 있음을 보여줍니다. 이 모델은 예비 조사 결과에 따라 연구 전략을 조정할 수 있으므로 포괄적이고 탐색적인 정보 수집이 필요한 시장 조사, 과학 문헌 검토 및 소비자 연구와 같은 작업에 이상적입니다.
투명성과 제어로 신뢰 구축딥 리서치는 명확한 인용, 요구 사항의 사전 설명, 연쇄 추론 프로세스의 시각화를 통해 사용자의 신뢰를 구축합니다. 이러한 투명성은 여러 출처의 정보를 통합하는 모델의 기능과 결합하여 사용자가 결론을 검증하는 동시에 실제로 혼자서 완료하기 어려운 포괄적인 연구의 이점을 누릴 수 있게 해줍니다.
시간 압축으로 새로운 가능성 창출딥 리서치는 몇 시간이 걸리던 리서치 작업을 몇 분으로 단축하여 시간 절약뿐 아니라 지식 근로자의 업무 방식 패러다임에 근본적인 변화를 가져왔습니다. 이제 사용자는 잠재적 투자 분석이나 특별 이벤트 기획과 같이 이전에는 시간이 부족했던 의사 결정을 위해 심층적인 리서치를 수행할 수 있습니다.

팟캐스트 대본

조쉬 토빈. 이 분야에서 사람들이 모델보다 더 똑똑한 일을 할 수 있는 프로그램을 직접 작성할 수 있다고 생각하는 것을 자주 봅니다. 하지만 실제로는 이 분야가 발전할수록 모델이 인간보다 더 나은 솔루션을 찾아냅니다.

그리고 머신 러닝의 가장 중요한 교훈은 최적화한 만큼 결과를 얻을 수 있다는 것입니다. 따라서 원하는 결과를 위해 직접 최적화할 수 있는 시스템을 구축할 수 있다면, 수행하려는 작업에 최적화되지 않은 모델을 종단 간 연결하려고 할 때보다 훨씬 더 나은 결과를 얻을 수 있을 것입니다. 따라서 저는 장기적으로 모델 위에 강화 학습을 미세 조정하는 것이 가장 강력한 에이전트를 구축하는 데 있어 핵심적인 부분이라고 생각합니다.

소냐 황. 오픈AI 딥 리서치의 제품 소유자인 이사 풀포드와 조쉬 토빈을 소개합니다. 딥 리서치는 3주 전에 출시되어 콜리슨 형제와 같은 많은 기술 분야의 유명 인사들이 산업 분석부터 의학 연구, 심지어 생일 파티 계획에 이르기까지 다양한 용도로 사용하면서 빠르게 인기를 얻고 있습니다! .

딥 리서치는 엔드투엔드 강화 학습을 통해 복잡한 검색 및 추론 작업을 학습하며, OpenAI 에이전트 제품군에 가장 최근에 추가된 기능입니다. 연산자 첫 번째 제품에 이은 두 번째 제품입니다. 사용 사례부터 기반 기술, 향후 OpenAI의 에이전트 제품에서 기대하는 바에 이르기까지 다양한 주제에 대한 심층 연구에 대해 Isa와 Josh와 이야기를 나눴습니다.

이사, 조쉬, 쇼에 오신 것을 환영합니다.

로렌 리더. 와주셔서 감사합니다. 함께 해주셔서 감사합니다.

조쉬 토빈. 이곳에 오게 되어 기쁩니다.

이사 풀포드. 초대해 주셔서 감사합니다.

딥 리서치란 무엇인가요?

로렌 리더. 그럼 딥 리서치란 무엇인가요? 딥 리서치의 기원과 이 제품의 기능에 대해 조금 알려주세요.

이사 풀포드. 딥 리서치는 수많은 온라인 사이트를 검색하여 매우 포괄적인 보고서를 생성하는 에이전트입니다. 사람이 몇 시간이 걸리는 작업을 수행할 수 있습니다. 그리고 이 기능은 ChatGPT ChatGPT는 단 5분에서 30분이면 질문에 대한 답변을 얻을 수 있는 강력한 도구입니다. 따라서 일반 ChatGPT 답변보다 더 상세하고 구체적인 출처를 통해 심도 있게 조사하고 질문에 대한 답변을 제공할 수 있습니다.

이번 릴리스는첫 번째 에이전트 그중 하나죠. 이전에도 오퍼레이터를 출시한 적이 있습니다. 따라서 딥 리서치는 두 번째 에이전트이며, 앞으로 더 많은 에이전트를 출시할 예정입니다.

소냐 황. 딥 리서치의 탄생 비화는 무엇인가요? 언제 이 일을 하기로 결정했나요? 영감은 어디서 얻었나요? 개발에 참여한 인원은 몇 명인가요? 이 프로젝트가 실현되기까지 어떤 과정을 거쳤나요?

조쉬 토빈. 좋은 질문입니다. 제가 OpenAI에 합류하기 전의 일입니다.

이사 풀포드. 네, 맞아요. [웃음] 약 1년 전쯤에 내부적으로 이 새로운 추론 모델을 사용하여 모델이 반응하기 전에 먼저 생각하도록 훈련하는 데 많은 성공을 거둔 것 같습니다. 당시에는 주로 수학과 과학에 집중했지만, 이 새로운 추론 모델링 메커니즘을 통해 에이전트의 역량을 필요로 하는 장시간 작업을 수행할 수 있게 된 것이 또 다른 성과라고 생각합니다.

많은 사람들이 많은 온라인 조사나 외부 배경 정보가 필요한 작업을 수행해야 하며, 이를 위해서는 많은 추론과 정보 출처를 구별해야 합니다. 그리고 이러한 유형의 작업을 수행하려면 매우 창의적이어야 합니다. 마침내 이러한 작업을 해결할 수 있는 모델, 즉 모델을 훈련하는 방법을 찾았다고 생각합니다. 그래서 우리는 다음과 같은 작업을 수행할 수 있는 모델 훈련을 시작하기로 결정했습니다.작업 찾아보기. 추론 모델을 훈련하는 데 사용한 것과 동일한 방법론을 사용하되 보다 실제적인 작업에 적용합니다.

소냐 황. 여러분의 아이디어인가요? 조쉬, 어떻게 참여하게 되었나요?

이사 풀포드. 네, 처음에는 저와 OpenAI의 동료인 Yash Patil이 비슷한 프로젝트를 진행 중이었는데, 언젠가는 출시될 예정이어서 매우 기대가 컸습니다. 우리는 초기 데모 버전을 만들었습니다. 그리고 토마스 딤슨은 매우 뛰어난 엔지니어로서 무엇이든 뛰어들어 많은 작업을 해냈습니다. 그래서 매우 흥미로운 과정이었죠.

조쉬 토빈. 네, 저는 조금 늦게 합류했습니다. 저는 약 6개월 전에 스타트업을 그만두고 OpenAI에 다시 합류했습니다. 경력 초기에 OpenAI에서 일한 적이 있었는데, 다시 합류했을 때 다양한 프로젝트를 지켜보던 중 이 프로젝트를 포함한 일부 에이전트 프로젝트에 큰 관심을 갖게 되어 참여하게 되었습니다.

로렌 리더. 훌륭합니다. 어떤 사용자 그룹을 대상으로 딥 리서치를 구축하는지 자세히 설명해 주세요.

조쉬 토빈. 예, 실제로 일상 업무나 생활에서 지식 작업을 하는 모든 사람을 위해 설계되었습니다. 많은 사용자가 시장, 회사, 부동산을 이해하기 위해 직장에서 조사를 하는 등 업무에 사용하는 것을 볼 수 있습니다 ......

이사 풀포드. 많은 과학 연구, 의학 연구. 의학적인 사례도 많이 본 것 같습니다.

조쉬 토빈. 네. 우리가 정말 기대하는 것 중 하나는 웹 검색을 많이 하고 많은 정보를 수집해야 하는 업무에만 국한되지 않고 쇼핑과 여행에도 유용하다는 점입니다.

이사 풀포드. 따라서 이번 플러스 버전 출시를 통해 더 많은 사람들이 딥 리서치를 사용해보고 새로운 사용 사례를 볼 수 있게 되어 기대가 큽니다.

로렌 리더. 훌륭합니다. 지난 몇 주 동안 가장 많이 사용한 제품 중 하나입니다. 정말 훌륭합니다.

이사 풀포드. 그렇게 말씀해 주셔서 정말 기쁩니다.

조쉬 토빈. 업무용으로 사용하시나요?

로렌 리더. 업무는 물론입니다. 물론 엔터테인먼트도 있습니다.

소냐 황. 어떤 용도로 사용하시나요?

로렌 리더. 아, 저요? 세상에. 새 차 구매를 고려 중인데 이 차의 차세대 모델이 언제 출시될지 궁금합니다. 예를 들어 인터넷에는 제조업체의 다양한 힌트에 대한 추측성 블로그 게시물이 많았기 때문에 이 차에 대한 모든 소문과 이 자동차 제조업체의 실제 이전 작업을 모두 분석해 줄 수 있는지 Deep Research에 문의했습니다. 딥리서치는 훌륭한 보고서를 작성해 주었고 몇 달은 기다려야겠지만 올해 안에, 몇 달 안에 출시될 것이라고 알려주었습니다.

조쉬 토빈. 네. 정말 멋진 점 중 하나는 특정 출처에 대한 모든 정보를 광범위하게 수집할 뿐만 아니라 매우 모호하고 이상한 웹 정보를 찾는 데도 매우 능숙하다는 것입니다. 예를 들어, 검색 결과의 첫 페이지에 표시되지 않을 수 있는 매우 구체적인 정보를 알고 싶다면 이런 종류의 정보도 매우 잘 처리합니다. 멋지네요.

놀라운 사용 사례

로렌 리더. 놀라운 사용 사례에는 어떤 것이 있나요?

조쉬 토빈. 오.

이사 풀포드. 가장 놀라웠던 점은 다음과 같은 용도로 사용하는 사람들의 수였습니다.코드 작성.

조쉬 토빈. 예.

이사 풀포드. 제가 직접 생각해본 사용 사례는 아니지만 트위터와 피드백을 받을 수 있는 다양한 채널에서 많은 사람들이 코드를 작성하고 코드를 검색할 때 사용하며, 특정 패키지에 대한 최신 문서를 찾고 스크립팅이나 다른 작업을 도와주는 데도 사용한다고 말하는 것을 많이 보았습니다.

조쉬 토빈. 네, 사용 사례로 생각하지 못해서 조금 당황스럽습니다.

이사 풀포드. [킥킥 ] 네.

조쉬 토빈. ChatGPT 사용자에게는 당연한 것처럼 보일 수 있지만, 저는 이 기능이 매우 인상적이라는 것을 알고 있습니다.

소냐 황. 상업적 사용과 개인적 사용 사이의 균형이 시간이 지남에 따라 어떻게 변화할 것이라고 생각하시나요? 예를 들어 곧 출시될 플러스 버전에 대해 언급하셨습니다. 1~2년 후에는 주로 비즈니스 도구가 될까요, 아니면 주로 소비자 도구가 될까요?

이사 풀포드. 저는 둘 다였으면 좋겠어요. 매우 다재다능한 능력이라고 생각하며, 우리 모두가 일과 개인 생활에서 필요로 하는 능력이라고 생각합니다. 그래서 저는 둘 다였으면 좋겠어요.

조쉬 토빈. 네, 두 가지 모두 기대됩니다. 이 기능의 가장 큰 장점은 사람들의 시간을 크게 절약해준다는 점입니다. 몇 시간이 걸리는 작업(경우에 따라 며칠이 걸리는 경우도 있다고 들었습니다)이 있다면, 90%를 사용했다면 많은 시간이 걸렸을 결과를 딥 리서치에 입력하기만 하면 바로 얻을 수 있습니다. 그렇기 때문에 개인보다는 비즈니스 세계에서 이런 종류의 작업이 더 많다고 생각하는 경향이 있습니다. 하지만 영역에 관계없이 사람들의 삶의 일부가 될 것이라고 확신합니다.

로렌 리더. 이 모드가 제가 ChatGPT를 주로 사용하는 방식이 되었습니다. 저는 항상 일반 모드보다 심층 연구를 선택합니다.

이사 풀포드. 정말요?

로렌 리더. [웃음]

조쉬 토빈. 네, 맞아요. 참을성이 대단하시네요.

로렌 리더. 그런 것 같네요.

로렌 리더. 그렇다면 어떤 소비자 사용 사례를 보고 계신가요? 어떤 점이 흥미롭나요?

이사 풀포드. 많은 부분이 쇼핑과 여행에 대한 조언과 관련이 있다고 생각합니다. 저는 개인적으로 이 모델을 많이 사용합니다. 이런 용도로 몇 달째 사용하고 있습니다. 딥 리서치가 출시되었을 때 마침 일본에 있었는데, 특정 요건을 충족하는 레스토랑은 물론 제가 찾지 못할 수도 있는 레스토랑을 찾는 데 매우 유용했습니다.

조쉬 토빈. 네. 비싼 물건을 사야 할 때나 특별한 여행을 계획하고 있을 때, 또는 많은 시간을 들여 고민하고 싶을 때 유용합니다. 예를 들어, 구매하려는 제품에 대한 모든 리뷰와 포럼 등 인터넷에 있는 모든 정보를 읽으려고 몇 시간을 소비할 수 있습니다. 그런데 딥 리서치는 비슷한 정보를 매우 빠르게 수집할 수 있습니다. 그래서 그런 경우에 정말 유용합니다.

이사 풀포드. 이 모델은 또한 다음을 매우 잘 수행합니다.이해력. 따라서 쿼리에 제품에 대해 알고 싶지만 다른 모든 제품과 비교하고 싶고 Reddit의 리뷰 정보에 대해서도 알고 싶은 등 다양한 부분이나 다양한 질문이 포함되어 있는 경우 다양한 요청을 할 수 있으며 이 모든 것을 처리해 줍니다.

조쉬 토빈. 네. 또 다른 요령은 표로 표시해 달라고 요청하는 것입니다. 보통 그렇게 하기도 하지만, 조사하려는 정보의 모든 카테고리가 나열된 인용문 등이 많이 포함된 표를 만들면 정말 도움이 됩니다.

이사 풀포드. 예. 향후 제품에 추가될 것으로 예상되는 몇 가지 기능이 아직 남아 있지만 기본 모델은 다음을 수행할 수 있습니다.임베디드 이미지를 검색하여 제품의 이미지를 찾을 수 있습니다. 또한 다음을 수행할 수 있습니다.차트 만들기를 사용하여 응답에 이러한 차트를 삽입할 수 있지만 아직 소비자 사용 사례는 아닙니다. 이러한 기능도 곧 ChatGPT에 구현될 예정입니다.

소냐 황. 괴짜 소비자 사용 사례. [웃음]

조쉬 토빈. 네, 괴짜 소비자 사용 사례에 대해 말씀드리자면요.개인 맞춤형 교육또한 매우 흥미로운 사용 사례이기도 합니다. 예를 들어, 특정 주제에 대해 배우고 싶거나 생물학에 대한 복습이 필요한 경우, 또는 세계 사건에 대해 배우고 싶은 경우, 이해하지 못하는 정보와 살펴보고 싶은 측면을 모두 수집하여 멋진 보고서를 작성하는 데 매우 능숙합니다.

이사 풀포드. CPG 회사를 창업하려는 친구가 있는데, 그는 특정 이름이 등록되었는지, 도메인을 사용했는지, 시장 규모를 추정하는 등 유사한 제품을 찾기 위해 딥 리서치를 많이 사용하고 있습니다. 그는 저와 보고서를 공유했고 저는 그 보고서를 읽었습니다. 그래서 정말 흥미로웠어요.

조쉬 토빈. 또 다른 흥미로운 사용 사례는 인터넷 검색에 매우 능숙하다는 것입니다.개별적이고 숨겨진 사실. 예를 들어, 특정 에피소드 등을 찾고자 하는 인기 TV 프로그램 같은 것이 있다면 웹에서 해당 프로그램과 관련된 유일한 참조 정보를 더 깊이 파헤쳐서 찾아줍니다.

이사 풀포드. 네, 맞아요. 제 동생 친구의 아버지가 매우 구체적인 사실에 대한 질문을 했어요. 어떤 전투에서 누군가가 죽었을 때 권력을 잡고 있던 오스트리아의 장군에 관한 질문이었죠. 매우 틈새 질문이었죠. 분명히 이전에 ChatGPT가 틀린 답변을 한 적이 있었고, 그는 ChatGPT의 답변이 틀렸다고 확신했습니다. 그래서 그는 공공 도서관에 가서 기록을 찾아보고 ChatGPT가 틀렸다는 사실을 발견했습니다. 그리고 딥 리서치가 정답을 제시할 수 있었기 때문에 정답을 그에게 보냈고, 그는 매우 기뻐했습니다. [웃음]

소냐 황. 현재 딥 리서치가 잘하는 작업에 대한 대략적인 멘탈 모델은 무엇인가요? 어떤 시나리오에 O 시리즈 모델을 사용해야 하나요? 어떤 시나리오에 딥 리서치를 사용해야 하나요?

조쉬 토빈. 딥 리서치가 정말 잘하는 것은 원하는 것이 무엇인지에 대한 감각이 있다면자세한 설명가장 좋은 답을 얻기 위해서는 인터넷에서 많은 정보를 읽어야 합니다. 질문이 모호한 경우 다음과 같은 도움이 될 수 있습니다.설명원하는 정보. 하지만 찾고자 하는 구체적인 정보가 있을 때 가장 효과적입니다.

이사 풀포드. 그리고 저는 이 기능이 매우 훌륭하다고 생각합니다.준수찾기 어려운 특정 정보를 찾는 데는 매우 능숙하지만, 아마도 그다지 능숙하지는 않을 것입니다. 그리고 그 정보에서 새로운 통찰력을 생성 할 수는 있지만 제 생각에는 다음과 같습니다.아직새로운 과학적 발견을 하세요. O 시리즈 모델을 사용하는 경우, 저 같은 경우에는인코딩일반적으로 모델이 사전 교육을 통해 습득한 것 이상의 지식이 필요하지 않은 관련 사항입니다. 따라서 코딩이나 o3-mini 높음, 저는 보통 o1 Pro 또는 o1을 사용합니다.

엔드투엔드 교육

로렌 리더. 딥 리서치는 OpenAI 새로운 제품 방향이에 대한 훌륭한 예시입니다. 공유할 수 있는 범위 내에서 어떻게 작동하는지 궁금합니다.

이사 풀포드. 심층 연구를 추진하는 모델은 다음과 같습니다. 미세 조정된 o3 버전(수학.) 속o3는 최신 추론 모델입니다.. 전문 분야복잡한 탐색 작업 모음과 기타 추론 작업에 대해 학습시켰습니다.. 따라서 다음과 같은 액세스 권한도 있습니다.탐색 도구노래로 응답 Python 도구. 이러한 작업에 대한 엔드투엔드 학습을 통해 문제를 해결하기 위한 전략을 학습하고, 그 결과 모델은 온라인 검색 및 분석에 탁월한 능력을 발휘합니다.

조쉬 토빈. 그리고 이를 직관적으로 이해하는 방법은 사용자가 원하는 것에 대한 세부적인 요청을 하는 것입니다. 그러면 모델은 이에 대해 열심히 생각하고, 정보를 검색하고, 정보를 추출하여 읽고, 해당 정보가 해당 요청과 어떤 관련이 있는지 파악한 다음, 사용자가 원하는 최종 답변에 더 가까이 가기 위해 다음에 무엇을 검색할지 결정합니다. 그리고 이 모든 정보를 찾은 원래 정보를 가리키는 참조가 포함된 깔끔한 보고서로 잘 요약하도록 훈련되어 있습니다.

이사 풀포드. 네, 에이전트 기능으로서 딥 리서치의 참신함은 다음과 같은 점이라고 생각합니다.엔드투엔드 교육 가능따라서 연구 과정에서 미리 예측할 수 없는 것들이 많이 있습니다. 따라서 모델이 실제로 실시간 네트워크 정보에 반응하고 그 정보에 따라 전략을 변경하는 등 훈련을 통해 학습할 수 있을 만큼 유연한 언어 모델이나 프로그램 또는 스크립트를 작성하는 것은 불가능하다고 생각합니다. 그래서 우리는 실제로크리에이티브 검색. 생각의 사슬 요약본을 읽어보면 다음에 무엇을 찾아야 할지 파악하거나 장애물을 우회하는 데 매우 영리하다는 것을 알 수 있을 것입니다.

소냐 황. 존 콜리슨이 올린 트윗이 인터넷에서 큰 화제를 불러일으켰습니다. 딥 리서치의 마법은 어디에서 오는가?웹 콘텐츠에 대한 실시간 액세스몇 개나 되나요? 그리고 얼마나 많은사고 체인무슨 일이죠? 설명 좀 해주시겠어요?

이사 풀포드. 저는 절대적으로두 사람의 결혼. 그리고 다른 검색 제품들은 엔드투엔드 교육을 받지 않았기 때문에, 즉 특정 문제를 창의적으로 해결하는 방법이나 특정 정보를 접할 때 유연하게 대응하지 못하기 때문에 그 목적을 위해 특별히 훈련받지 않았기 때문에 창의적이지 못합니다. 따라서 이 두 가지의 조합이라고 할 수 있습니다. 즉, o3의 미세 조정된 버전이라고 할 수 있습니다. o3 는 매우 스마트하고 강력한 모델입니다.. 분석 능력의 상당 부분은 기본 o3 모델 트레이닝에서 비롯됩니다. 따라서 저는 이 두 가지의 조합이라고 생각합니다.

조쉬 토빈. OpenAI에 합류하기 전에 저는 에이전트를 구축하는 스타트업에서 일했는데, 그 구축 방식은 인터넷에서 본 대부분의 사람들이 에이전트 구축에 대해 설명하는 방식과 비슷했습니다.작업 차트그래프에서 일부 노드는 언어 모델입니다. 따라서 언어 모델이 다음에 수행할 작업을 결정할 수 있지만 발생하는 단계의 전체 로직은 사람이 정의합니다. 이러한 방식은 프로토타입을 빠르게 구축하는 강력한 방법이지만 모델이 직면할 수 있는 모든 시나리오를 예측하고 다양한 경로를 고려하기 어렵기 때문에 현실에서는 빠르게 실패할 수 있다는 사실을 발견했습니다.

게다가 모델은 이러한 결정을 내리도록 훈련되지 않았기 때문에 일반적으로 그래프에서 노드에 대한 최선의 의사 결정자가 아닙니다. 노드와 비슷하게 보이는 일을 하도록 훈련받기 때문입니다. 따라서 이 모델의 정말 강력한 장점은 다음과 같습니다.직접 엔드투엔드 교육 후를 사용하여 사용자가 해결하고자 하는 작업을 해결할 수 있습니다.

로렌 리더. 그렇다면 백엔드에서 차트를 설정하거나 노드와 같은 아키텍처 결정을 내릴 필요가 없나요?

이사 풀포드. 이는 전적으로 모델 자체에서 주도합니다.

조쉬 토빈. 예.

소냐 황. 이에 대해 자세히 설명해 주시겠어요? 왜냐하면 여러분들이매우 명확한 의사 결정그 중 하나인데, 분명히 효과가 있었습니다. 특정 사용자를 위한 특정 작업을 힌트를 통해 해결하는 앱을 API로 구축하는 회사가 많이 있습니다. 이러한 앱이 특정 워크플로에 대해 엔드투엔드 교육을 받으면 더 나은 서비스를 제공할 수 있을까요?

이사 풀포드. 워크플로우가 매우구체적이고 예측 가능를 사용한다면 Josh가 설명하는 접근 방식을 채택하는 것이 매우 합리적입니다. 하지만 다음과 같이 많은 일을 처리하고 있다면한계 조건또는 매우다용도와 유사한 접근 방식이 더 나은 옵션일 수 있습니다.

조쉬 토빈. 예, 제가 사람들에게 조언하는 것은원치 않는모델에서응고(화학)문제는 아시다시피엄격한 규칙. 모델이 건드리지 않기를 바라는 데이터베이스 같은 것이 있다면 수동으로 작성한 로직으로 인코딩하는 것이 좋습니다. 하지만 이 분야에서 사람들이 반복해서 배우는 교훈 중 하나는 우리가 직접 프로그램을 작성함으로써 모델보다 더 똑똑한 일을 할 수 있다고 생각한다는 것입니다. 하지만 실제로는 이 분야가 발전할수록 모델이 인간보다 더 나은 솔루션을 찾는 경우가 많습니다.

소냐 황. 딥 리서치를 실현하는 데 있어 가장 큰 기술적 과제는 무엇이었나요?

조쉬 토빈. 처음부터 참여한 사람이 아니라 관찰자로서 말씀드릴 수 있겠지만, 이사님과 나머지 팀원들이 정말 열심히 일했고 성공하고 있는 것 같습니다!키 숨기기한 가지 중요한 점은매우 높은 품질의 데이터 세트. 이는 사람들이 계속 재학습하는 머신 러닝의 오래된 교훈 중 하나입니다. 하지만 모델에 입력하는 데이터의 품질이 다른 쪽에서 얻는 모델의 품질을 결정하는 가장 큰 요소일 것입니다.

이사 풀포드. 그리고 이 프로젝트에 참여한 또 다른 사람인 Edward(에드워드 선) 같은 사람이 모든 데이터 집합을 최적화할 수 있도록 하는 것이죠. 이것이 성공의 비결입니다.

로렌 리더. 에드워드를 찾아보세요.

조쉬 토빈. 훌륭한 머신러닝 모델 트레이너입니다.

로렌 리더. 올바른지 어떻게 확인하나요?

이사 풀포드. 예, 물론 이것이 모델과 제품의 핵심 부분이며 사용자가 다음과 같은 기능을 사용할 수 있기를 바랍니다.출력 결과에 대한 신뢰. 부분적으로는견적를 사용하여 사용자가 모델이 정보를 인용한 출처를 확인할 수 있습니다. 학습 과정에서 실제로 정확한지 확인하려고 노력하지만, 여전히 모델이 실수를 하거나 환각을 일으키거나 가장 신뢰할 수 없는 정보 출처를 신뢰하는 경우가 발생할 수 있습니다. 따라서 이 부분은 계속해서 모델을 개선하고자 하는 적극적인 영역입니다.

심층 연구 및 운영자

소냐 황. o3와 Operator 및 기타 다른 릴리스와 관련하여 딥 리서치에 대해 어떻게 생각해야 하나요? 예를 들어, 딥 리서치는 Operator를 사용하나요? 모두 서로 위에 구축되어 있나요? 아니면 모두 o3의 서로 다른 일련의 애플리케이션인가요?

조쉬 토빈. 현재 이러한 제품은 다음과 같습니다.독립형하지만 미래의 어느 시점에서 사람들이 액세스 할 수 있는궁극의 에이전트 웹 검색을 수행하거나 컴퓨터를 사용하거나 인간 비서가 수행하기를 원하는 다른 유형의 작업을 수행할 수 있어야 할 뿐만 아니라 이러한 모든 기능을 보다 자연스러운 방식으로 혼합할 수 있어야 합니다.

소냐 황. 언뜻 보기에는 분명하지 않을 수 있는 다른 디자인 결정에는 어떤 것이 있나요?

이사 풀포드. 그 중 하나는해명 프로세스. 딥 리서치를 사용한 경우 모델이 리서치를 시작하기 전에 질문을 하는 반면, 일반적으로 ChatGPT는 응답이 끝날 때 질문을 할 수 있지만 일반적으로는처음에이 동작을 보여주면 됩니다. 이것은의도적으로 무언가 하기프롬프트가 매우 명확하고 상세해야 딥서치 모델에서 최상의 응답을 얻을 수 있기 때문입니다. 또한 첫 번째 프롬프트에서 모든 정보를 제공하는 것은 사용자의 자연스러운 행동이 아니라고 생각하기 때문에 5분을 기다리든 30분을 기다리든 최대한 상세하고 만족스러운 응답이 이루어지도록 하고자 합니다. 따라서 사용자가 필요한 모든 세부 정보를 제공하고 있는지 확인하기 위해 이러한 추가 단계를 추가했습니다.

실제로 트위터에서 많은 사람들이 o1 또는 o1 Pro와 상담하여 도움을 받을 수 있는 절차가 있다고 말하는 것을 보았습니다.더 자세한 프롬프트 만들기프롬프트가 만족스러우면 딥 리서치에 보내는데, 흥미로운 일이죠. 그래서 사람들은 딥 리서치를 사용하기 위해 자신만의 워크플로우를 찾고 있습니다.

로렌 리더. 지난 몇 달 동안 세 가지 딥리서치 제품이 출시되었습니다. 각 제품의 차별점과 기대할 수 있는 점을 간략히 설명해 주세요.

소냐 황. 그리고 둘 다 딥 리서치라고 하죠?

조쉬 토빈. 이 두 가지를 모두 딥 리서치라고 합니다. 예, 이 분야는이름 지정에 창의성이 부족합니다.. 저는 사람들이 이 모든 제품을 직접 사용해보고 느껴봐야 한다고 생각합니다. 품질에 있어서는 모두 장단점이 있다고 생각하지만 그 차이는 분명할 것이라고 생각합니다. 하지만 이 모델을 구성하는 방식과 데이터 세트 구축에 들어가는 노력, 그리고 모델을 최적화하고 매우 지능적이고 고품질로 만들 수 있는 O 시리즈 모델에 사용하는 엔진에 달려 있습니다.

소냐 황. 작년에 우리는 팟캐스트에서 o1 팀과 함께 농담 삼아 OpenAI 이름을 잘 짓지 못합니다.. 딥 리서치는가장 성공적인제품. [CHUCKLES]

조쉬 토빈. 심층 연구, 맞죠? 적어도 그것이 무엇을 하는지는 설명해주고 있는 것 같네요.

향후 전망

로렌 리더. 앞으로의 비전을 듣고 싶습니다. 오늘 딥 리서치를 출시하셨는데, 1년 후에는 어떤 모습일 것 같나요? 그 과정에서 또 어떤 보완적인 기능을 추가하고 싶으신가요?

이사 풀포드. 저희는 행복합니다.모델에 액세스할 수 있는 데이터 원본 확장. 우리가 훈련하는 모델은 일반적으로 공개 정보를 탐색하는 데 매우 능숙하지만 다음과 같은 작업도 수행할 수 있어야 합니다.비공개 데이터 검색. 그리고 더 나아가역량 강화. 따라서 검색을 더 잘할 수도 있고 분석을 더 잘할 수도 있습니다. 네, 단기적으로는 이러한 부분을 개선하고자 합니다.

조쉬 토빈. 네, 그렇습니다. 그리고 이것이 더 광범위한 에이전트 로드맵에 어떻게 부합하는지 생각해 보세요. 예를 들어, 이 레시피는 매우 다양한 사용 사례로 확장되어 사람들이 얼마나 잘 작동하는지 놀라게 할 수 있을 것이라고 생각합니다. 하지만 이 아이디어는 최첨단 추론 모델을 가져와서 사람이 업무나 일상 생활에 사용하는 것과 동일한 도구에 액세스할 수 있도록 한 다음 에이전트가 수행하기를 원하는 종류의 결과에 맞게 직접 최적화하는 것입니다. 이러한 방식은 점점 더 복잡한 작업으로 확장하는 것을 막을 수 있는 방법이 없으므로, 저는 '네'라고 생각합니다.AGI는 이제 운영상의 문제입니다.. 그리고 이 보편적인 공식에는 기대할 수 있는 것이 더 많다고 생각합니다.

로렌 리더. 샘(샘 알트먼)은 딥 리서치가 다음과 같이 매우 인상적인 말을 했습니다.전 세계적으로 경제적으로 가치 있는 모든 과제 중 한 자릿수 이상의 비율을 차지합니다.. 이 문장을 어떻게 이해해야 할까요?

조쉬 토빈. 저는 딥 리서치가 시작한 일을 끝낼 수 없습니다.하지만 여러분에게도 도움이 될 수 있습니다.아껴서 사용시간을 절약할 수 있으며, 경우에 따라서는며칠시간이 걸립니다. 따라서 우리가 달성할 수 있는 목표는 딥 리서치와 그 다음에 구축하는 에이전트, 그리고 그 위에 구축하는 에이전트가 다음과 같은 기능을 제공한다는 것입니다.아껴서 사용 작업 유형에 따라 1%, 5%, 10%, 25% 횟수입니다.

소냐 황. 제 말은, 제 생각에는 여러분들이 정말자동내 80%가 작동하므로 ......

로렌 리더. [웃음] 저에게는 확실히 더 높습니다.

조쉬 토빈. 이제 시작해야 할 것 같습니다.수표 쓰기네. 네, 맞습니다.

소냐 황. 어떻게 생각하세요?전체 직업군더 - "위험에 처해 있다"는 표현은 적절하지 않고, 딥리서치가 잘하는 분야에 더 가깝다고 할 수 있을까요? 예를 들어 컨설팅을 생각하고 있는데, 구체적으로 어떤 카테고리가 이에 더 가깝다고 생각하시나요?

조쉬 토빈. 네, 저는 컨설턴트였습니다. 제 생각에는요.위험에 처한 일자리 없음. 나는 정말로 그것이노동력 대체더 스터프. 그러나 이러한 유형의 지식 기반 작업의 경우 다음과 같은 작업에 많은 시간을 투자해야 합니다.정보 검색 및 결론 도출저는 딥 리서치가 사람들에게 힘을 실어줄 것이라고 생각합니다.초자연적 힘.

이사 풀포드. 예, 저는 많은 것에 관심이 있습니다.의학 연구사용 사례는 매우 흥미롭습니다. 단지찾기질병에 관한 이야기입니다.모든 문서어쩌면최근 모든 사례그렇게 할 수 있는 능력이죠. 많은 의사들이 딥 리서치에 대해 온라인에 글을 올리거나 저희에게 연락해서 "오, 우리가 이걸로 이걸 했어요. 이 환자를 위한 임상시험을 찾는 데 사용했어요."라고 말하곤 합니다. 따라서 이미 매우 바쁘거나 이전에는 시간이 없던 사람들이 이제 해당 정보에 액세스할 수 있게 되어 시간을 절약할 수 있습니다.

조쉬 토빈. 네. 그리고 그 영향은 겉으로 보이는 것보다 더 클 수 있다고 생각합니다.더 심오한라고 생각하시죠? 단순히 5% 시간을 절약하는 것뿐만 아니라, 4시간 또는 8시간이 걸리는 작업을 이제 ChatGPT 구독과 5분의 시간만 있으면 할 수 있다는 것입니다. 따라서 다음과 같은 경우무제한 시간어떤 종류의 일을 하나요? 이제 많은 복사본을 만들 수 있을까요?

예를 들어, 모든투자할 수 있는 스타트업만날 시간이 있는 회사만 조사하는 것이 아니라? 그런 거죠.

소냐 황. 또는 소비자 측면에서도 떠오르는 것 중 하나가 있습니다.워킹맘너무 바빠서 시간을 내기 힘든유아플래너생일 파티이제 실현 가능해졌죠. 이제 실현 가능성이 높아지고 있습니다. 저도 동의합니다. 5%의 시간을 절약하는 것보다 훨씬 더 중요하죠.

조쉬 토빈. 예.

로렌 리더. 이전에는 할 수 없었던 일들입니다.

이사 풀포드. 맞습니다.

소냐 황. 어떻게 달라질까요?교육그리고 우리do에이전트와 딥 리서치의 세계에 살고 있는 지금, 아이들에게 무엇을 가르치시겠습니까? 에이전트와 딥 리서치의 세계에 살고 있는 지금, 아이들에게 무엇을 가르치시나요?

조쉬 토빈. 교육ChatGPT는 항상 다음에서 사용되었습니다.주요 용도하나. 그리고 이것은 일반적으로 ChatGPT에도 해당됩니다. 사용자가 말하는 내용을 기반으로 또는 향후 사용자에 대해 학습한 내용을 기반으로 학습할 수 있는 AI 시스템과 대화하면서 무언가를 배우는 것과 같습니다.개인화교과서를 읽는 것보다 더 효과적이고 매력적인 학습 방법으로 느껴지는 정보를 제공합니다.

라이트닝 질문 세션

로렌 리더. 우리는 몇 가지가 있습니다번개 질문링크에 문제가 있습니다.

조쉬 토빈. 알겠습니다.

소냐 황. 맞아요. 가장 좋아하는 딥 리서치 사용 사례는 무엇인가요?

조쉬 토빈. 예를 들어, 저는 그렇다고 말할 수 있습니다.개인 맞춤형 교육. 배우고 싶은 것은 무엇이든 배우세요.

이사 풀포드. 이미 언급했지만, 사람들이 공유하는 많은 내용은찾기본인 또는 가족에 대한 정보앓고 있는 질병에 대한 정보개인적인 이야기는 모두 훌륭합니다.

소냐 황. 좋은 점 작년에 몇 가지 애플리케이션 카테고리를 살펴봤습니다.발생. 예를 들어인코딩가 대표적인 예입니다. 올해 어떤 앱 카테고리가 폭발적으로 성장할 것이라고 생각하시나요?

조쉬 토빈. 내 말은.그렇군요, 에이전트..

이사 풀포드. 이것도 말씀드리겠습니다.

소냐 황. 알겠습니다.2025년은 에이전트의 해.

조쉬 토빈. 그런 것 같아요.

로렌 리더. 그렇다면 에이전트나 AI가 나아갈 방향에 대해 자세히 알아보기 위해 사람들에게 어떤 책을 추천해야 한다고 생각하시나요? 저서가 될 수도 있습니다.

소냐 황. 트레이닝 데이터 팟캐스트. [웃음]

조쉬 토빈. AI의 최신 개발 동향을 파악하는 것이 중요하다고 생각합니다.매우 어려움. 저는 사람들에게일반 권장 사항예, 정말 관심 있는 한두 가지를 선택하세요.하위 테마그리고 알다시피플래너이에 대해 흥미로운 발언을 하고 있다고 생각되는 사람들의 목록과 관심 있는 한두 가지를 찾는 방법. 어쩌면 이것이 심층 연구의 좋은 사용 사례일 수도 있습니다. 더 자세히 알고 싶은 주제를 탐구하는 데 사용하세요.

이사 풀포드. 이제 이것은 약간 오래되었지만 몇 년 전에 본 것 같습니다. 학습의 기초 강화 (RL의 기초) 또는 Pieter Abbeel의 비슷한 책입니다. 약간 오래되었지만, 제 생각에는집중 학습을 위한 훌륭한 입문서.

조쉬 토빈. 네, 물론이죠.동의 피터 아벨의 모든 것. 제 대학원 지도교수입니다.

이사 풀포드. 아, 맞아요.

소냐 황. 알겠습니다. 집중 학습이후러시아워그리고 나서 다시 다음과 같이 떨어지는 느낌이 듭니다.침체기. 다시 한 번, 이것이 현재 집중 학습의 역학 관계에 대한 올바른 해석인가라는 질문이 제기됩니다.

조쉬 토빈. 다시 돌아왔습니다.예. 네

소냐 황. 다시 돌아왔습니다. 왜요? 왜 지금이죠?

조쉬 토빈. 다음과 같은 이유로다른 모든 것은 작동했습니다.. 이 공간을 오랫동안 팔로우하신 분이라면 얀 르쿤의 케이크를 기억하실 겁니다.비유?

소냐 황. 이야기해 보세요.

조쉬 토빈. 예를 들어, 다음과 같은 경우케이크 만들기의 경우 케이크의 대부분은 케이크의 몸통이고 그 위에 약간의 프로스팅과 체리가 얹어집니다. 비유하자면비지도 학습케이크 본체입니다.지도 학습장식입니다.집중 학습가장 중요한 것은 바로 이 부분입니다.

2015년, 2016년에 이 분야에서 강화 학습 연구를 진행했을 때, 지금 생각해보면 아마도 맞다고 생각되는 얀 르쿤의 비유가 맞는 것 같습니다.케이크 본체가 없습니다.현재 상황체리 추가. 하지만 이제대규모 데이터에 대한 사전 교육(명목식 형태로 사용됨)언어 모델그들의 능력은 다음과 같습니다.희귀. 이러한 언어를 모델링하는 방법을 알고 있습니다.감독 미세 조정그들은 자신이 하는 일에 능숙합니다.지침을 따르세요.그리고 일반적으로사람들이 원하는 일을 하세요..

따라서매우 효과적을 설정했다면, 이제 해당 모델에 대해 수행할 수 있는 작업에 맞게 미세 조정할 차례입니다.보상 함수 정의모든 유형의 사용 사례에 적용됩니다.

소냐 황. 좋아요. 자, 이번 번개 질문 세션에서는 딥 리서치에서 가장 좋아하는 AI 앱을 소개해 드리겠습니다. 2025년에는 에이전트가 돌파구가 될 것입니다.. 그리고.집중 학습이 돌아왔습니다.마음에 들어요. 정말 좋아요. 참여해주셔서 감사합니다. 대화가 즐거웠습니다. 훌륭한 제품의 출시를 축하드리며, 앞으로 어떤 제품이 출시될지 기대됩니다.