OpenAI's Deep Research: Wie End-to-End Training die Zukunft der KI-Agenten anführt

AI-NachrichtenGeschrieben vor 7 Monaten AI-Austauschkreis

19.1K 00

Isa Fulford und Josh Tobin von OpenAI haben kürzlich im Training Data Podcast einen ausführlichen Blick auf das neueste KI-Agentenprodukt des Unternehmens, Deep Research, geworfen und festgestellt, dass Deep Research einen großen Durchbruch bei den KI-Forschungsfähigkeiten darstellt, indem es ein durchgehendes Training von Modellen anstelle eines traditionellen festen Prozess.

OpenAI 的 Deep Research：端到端训练如何引领 AI Agent 的未来

Die beiden Produktverantwortlichen erläuterten im Detail, wie hochwertige Trainingsdaten und OpenAI o3 Modelle (Sie teilen auch mit, wie die leistungsstarken Inferenzfähigkeiten des hochmodernen Inferenzmodells von OpenAI zu der flexiblen Forschungsstrategie von Deep Research beitragen. Sie teilen auch die Vision von Sam Altman für Deep Research, der davon ausgeht, dass es einen bedeutenden Anteil an wissensbasierten Aufgaben übernehmen wird. Um Transparenz zu schaffen und das Vertrauen der Nutzer in das Produkt zu stärken, wurde Deep Research außerdem so konzipiert, dass es wichtige Funktionen wie Zitierquellen und einen Prozess zur Klärung von Anforderungen enthält. Durch die Komprimierung dessen, was früher Stunden dauerte, auf Minuten, revolutioniert Deep Research die Möglichkeiten zahlreicher geschäftlicher und persönlicher Anwendungsszenarien.

Artikel mit ähnlichen Gesichtspunkten lesen:Die Zukunft ist da: Ein detaillierter Blick auf die Ära des "Modells als Produkt".

Originaladresse: https://www.sequoiacap.com/podcast/training-data-deep-research/

Zusammenfassung des Inhalts

In diesem Podcast stellen Isa Fulford und Josh Tobin von OpenAI Deep Research vor, einen KI-Agenten, der in 5 bis 30 Minuten eine umfassende Online-Recherche durchführt, indem er mehrere Websites durchsucht und umfassende Berichte mit detaillierten Zitaten erstellt. In dieser Folge erfahren Sie, wie OpenAI effiziente KI-Agenten entwickelt, und erhalten einen Ausblick auf die Zukunft von Deep Research in kommerziellen und privaten Anwendungen.

End-to-End-Training übertrifft manuelle PlanungAnstelle der üblichen Agenten-Konstruktionsmethode, bei der ein fester operativer Graph erstellt wird, der die Knoten eines Sprachmodells enthält, trainiert Deep Research Ende-zu-Ende direkt auf komplexe Browsing-Aufgaben. Dieser Ansatz ermöglicht es dem Modell, flexible Strategien zur Informationsbeschaffung und -integration zu entwickeln, die bei einer manuellen Skripterstellung nur schwer zu erreichen wären.
Datenqualität ist eine zentrale StärkeHochwertige Trainingsdaten sind entscheidend für den Erfolg der Deep Research-Entwicklung. Das OpenAI-Team nutzt die o3 Modelle (OpenAIs hochmodernes Inferenzmodell) Leistungsstarke Inferenzfähigkeiten und Feinabstimmung des Modells anhand sorgfältig kuratierter Beispiele komplexer Browsing-Aufgaben, eine Kombination, die äußerst kreative Ergebnisse hervorgebracht hat.
Der Agent ist gut darin, klare, aber flexible Aufgaben zu definierenDeep Research zeigt, dass ein KI-Agent so trainiert werden kann, dass er spezifische Arbeitsabläufe bewältigt, die nicht durch starre Regeln erfasst werden können. Das Modell ist in der Lage, seine Recherchestrategie auf der Grundlage vorläufiger Ergebnisse anzupassen, was es ideal für Aufgaben wie Marktforschung, wissenschaftliche Literaturrecherchen und Verbraucherstudien macht, die von einer umfassenden und explorativen Informationsbeschaffung profitieren.
Transparenz und Kontrolle schaffen VertrauenDeep Research stärkt das Vertrauen der Nutzer durch klare Zitate, Vorabklärung der Anforderungen und Visualisierung des Denkprozesses. Diese Transparenz in Verbindung mit der Fähigkeit des Modells, Informationen aus verschiedenen Quellen zu integrieren, ermöglicht es den Nutzern, ihre Schlussfolgerungen zu validieren und gleichzeitig von einer umfassenden Recherche zu profitieren, die sie allein nur schwer durchführen könnten.
Zeitkompression schafft neue MöglichkeitenDeep Research reduziert Rechercheaufgaben, die früher Stunden dauerten, auf Minuten, was nicht nur eine Zeitersparnis bedeutet, sondern auch einen grundlegenden Paradigmenwechsel in der Arbeitsweise von Wissensarbeitern. Die Nutzer können nun tiefgreifende Recherchen für Entscheidungen durchführen, für die sie zuvor keine Zeit hatten, wie z. B. die Analyse potenzieller Investitionen oder die Planung besonderer Veranstaltungen.

Podcast-Transkript

Josh Tobin. Immer wieder erlebe ich, dass Menschen in diesem Bereich eine Lektion lernen, nämlich dass wir glauben, wir könnten unsere eigenen Programme schreiben, um besser zu sein als die Modelle. Aber in Wirklichkeit sind es meist die Modelle, die mit dem Fortschritt in diesem Bereich bessere Lösungen finden als der Mensch.

Und vielleicht ist die übergreifende Lehre des maschinellen Lernens, dass man das bekommt, wofür man optimiert. Wenn Sie also ein System aufbauen können, das es Ihnen ermöglicht, direkt für die gewünschten Ergebnisse zu optimieren, werden die Ergebnisse viel besser sein, als wenn Sie versuchen, Modelle zusammenzufügen, die nicht durchgängig für die Aufgabe optimiert sind, die Sie durchführen wollen. Langfristig denke ich also, dass die Feinabstimmung des Verstärkungslernens auf die Modelle ein wesentlicher Bestandteil der Entwicklung des leistungsfähigsten Agenten ist.

Sonya Huang. Wir freuen uns, Isa Fulford und Josh Tobin, die Produktinhaber von OpenAI Deep Research, begrüßen zu dürfen. Deep Research wurde vor drei Wochen veröffentlicht und hat sich schnell zu einem Hit entwickelt, der von vielen Tech-Koryphäen, wie den Collison-Brüdern, für eine Vielzahl von Zwecken genutzt wird, die von Industrieanalysen über medizinische Forschung bis hin zur Planung von Geburtstagsfeiern reichen! .

Deep Research trainiert komplexe Browsing- und Inferenzaufgaben durch durchgängiges Reinforcement Learning und ist die neueste Ergänzung der OpenAI Agent-Produktfamilie. Betreiber Das zweite Produkt nach dem ersten. Wir sprachen mit Isa und Josh über Deep Research und eine Vielzahl von Themen, von den Anwendungsfällen über die zugrundeliegende Technologie bis hin zu den Erwartungen an die zukünftigen Agent-Produkte von OpenAI.

Isa und Josh, willkommen in der Sendung.

Lauren Reeder. Ich danke Ihnen für Ihr Kommen. Vielen Dank, dass Sie sich uns angeschlossen haben.

Josh Tobin. Ich bin froh, hier zu sein.

Isa Fulford. Vielen Dank für die Einladung.

Was ist Tiefenforschung?

Lauren Reeder. Beginnen wir also damit, was Deep Research ist? Erzählen Sie uns ein wenig über seine Ursprünge und was dieses Produkt bewirkt.

Isa Fulford. Deep Research ist ein Agent, der eine große Anzahl von Online-Sites durchsucht und sehr umfassende Berichte erstellt. Er kann Dinge tun, für die ein Mensch Stunden brauchen würde. Und er ist integriert in ChatGPT ChatGPT ist ein leistungsstarkes Tool, das Ihre Fragen in nur 5 bis 30 Minuten beantworten kann. Dadurch ermöglicht es eine tiefgreifendere Recherche und Antworten auf Ihre Fragen mit detaillierteren und spezifischeren Quellen als die regulären ChatGPT-Antworten.

Es ist unsere Veröffentlichung vonErster Agent Einer von ihnen. Wir haben auch schon Operator herausgebracht, Deep Research ist also der zweite Agent, und wir werden in Zukunft noch mehr herausbringen.

Sonya Huang. Was ist die Entstehungsgeschichte von Deep Research? Wann habt ihr beschlossen, das zu machen? Woher kam die Inspiration? Wie viele Leute waren an der Entwicklung beteiligt? Wie sah der Prozess aus, der zum Erfolg führte?

Josh Tobin. Gute Frage. Das war, bevor ich OpenAI beigetreten bin.

Isa Fulford. Oh, ja. (Gelächter) Ich glaube, vor etwa einem Jahr konnten wir intern große Erfolge bei der Verwendung dieses neuen Inferenzmodells verzeichnen und Modelle darauf trainieren, zu denken, bevor sie reagieren. Damals konzentrierten wir uns in erster Linie auf Mathematik und Naturwissenschaften, aber ich denke, dass dieser neue Mechanismus zur Modellierung von Schlussfolgerungen auch die Möglichkeit eröffnet, Aufgaben mit längeren Zeitspannen durchzuführen, die die Fähigkeiten eines Agenten einbeziehen.

Wir sind der Meinung, dass viele Menschen Aufgaben erledigen müssen, die eine umfangreiche Online-Recherche oder eine Menge Hintergrundinformationen von außen erfordern, was viel logisches Denken und die Unterscheidung von Informationsquellen voraussetzt. Und man muss sehr kreativ sein, um diese Art von Aufgaben zu erledigen. Ich glaube, wir hatten endlich Modelle oder Möglichkeiten, Modelle zu trainieren, mit denen wir einige dieser Aufgaben lösen konnten. Also haben wir beschlossen, Modelle zu trainieren, die folgende Aufgaben erfüllenAufgaben durchsuchen. Wenden Sie dieselbe Methode an, die wir zum Trainieren des Inferenzmodells verwendet haben, aber wenden Sie sie auf eine realitätsnähere Aufgabe an.

Sonya Huang. Ist das Ihre Idee? Josh, wie sind Sie dazu gekommen?

Isa Fulford. Ja, anfangs waren es Yash Patil und ich, ein Kollege von OpenAI, der an einem ähnlichen Projekt arbeitete, das auch irgendwann veröffentlicht werden soll, und wir waren sehr begeistert davon. Wir haben eine erste Demoversion gebaut. Und Thomas Dimson ist ein sehr guter Ingenieur, der sich auf alles einlässt und eine Menge Arbeit leistet. Es war also ein sehr interessanter Prozess.

Josh Tobin. Ja, ich bin etwas später dazugekommen. Ich bin vor etwa sechs Monaten von meinem eigenen Startup zu OpenAI zurückgekehrt. Ich hatte schon früher in meiner Karriere bei OpenAI gearbeitet, und als ich wieder einstieg, hatte ich verschiedene Projekte verfolgt und war sehr an einigen unserer Agent-Projekte interessiert, darunter auch an diesem, und dann habe ich mich beteiligt.

Lauren Reeder. Sehr gut. Bitte erläutern Sie, für welche Benutzergruppen Sie Deep Research entwickeln.

Josh Tobin. Ja, es ist eigentlich für jeden gedacht, der in seiner täglichen Arbeit oder seinem Leben mit Wissen zu tun hat. Wir sehen viele Nutzer, die es für ihre Arbeit nutzen, z. B. für Recherchen bei der Arbeit, um Märkte, Unternehmen und Immobilien zu verstehen ......

Isa Fulford. Ein großer Teil der wissenschaftlichen Forschung, der medizinischen Forschung. Ich denke, wir haben auch viele medizinische Beispiele gesehen.

Josh Tobin. YES. Eines der Dinge, von denen wir wirklich begeistert sind, ist, dass der Stil so ist, dass ich einfach viel Zeit damit verbringen muss, etwas zu tun, ich muss eine Menge Webrecherchen durchführen und eine Menge Informationen zusammenstellen, und das ist nicht nur auf die Arbeit beschränkt, sondern es ist auch beim Einkaufen und auf Reisen nützlich.

Isa Fulford. Wir freuen uns also über die Veröffentlichung der Plus-Version, damit mehr Menschen Deep Research ausprobieren können und wir vielleicht einige neue Anwendungsfälle sehen werden.

Lauren Reeder. Großartig. Dies ist definitiv eines der Produkte, die ich in den letzten Wochen am meisten benutzt habe. Es ist ausgezeichnet.

Isa Fulford. Ich bin so froh, dass Sie das sagen.

Josh Tobin. Verwenden Sie es für die Arbeit?

Lauren Reeder. Arbeit, natürlich. Es gibt auch Unterhaltung.

Sonya Huang. Wofür verwenden Sie es?

Lauren Reeder. Oh, für mich? Oh je. Ich dachte über den Kauf eines neuen Autos nach und fragte mich, wann die nächste Generation dieses Wagens auf den Markt kommen würde. Im Internet gab es viele spekulative Blogeinträge, z. B. über verschiedene Hinweise des Herstellers. Also habe ich Deep Research gefragt, ob sie all die Gerüchte über dieses Auto und alle bisherigen Aktivitäten dieses Autoherstellers analysieren könnten. Deep Research hat einen ausgezeichneten Bericht erstellt und mir gesagt, dass ich vielleicht noch ein paar Monate warten muss, aber dass der Wagen noch in diesem Jahr, innerhalb der nächsten Monate, auf den Markt kommen dürfte.

Josh Tobin. YES. Das Tolle daran ist, dass es nicht nur eine umfassende Sammlung aller Informationen über eine bestimmte Quelle ist, sondern auch sehr gut darin ist, sehr obskure, seltsame Webinformationen zu finden. Wenn man zum Beispiel etwas ganz Spezielles wissen will, das vielleicht nicht auf der ersten Seite der Suchergebnisse auftaucht, ist es auch in dieser Hinsicht ziemlich gut. Das ist cool.

Überraschende Anwendungsfälle

Lauren Reeder. Was sind einige der überraschenden Anwendungsfälle, die Sie gesehen haben?

Josh Tobin. Oh.

Isa Fulford. Am meisten überrascht mich die Zahl der Menschen, die es nutzen, umCode schreiben.

Josh Tobin. Ja.

Isa Fulford. Das ist nicht wirklich ein Anwendungsfall, den ich in Betracht gezogen habe, aber ich habe gesehen, dass viele Leute auf Twitter und in verschiedenen Kanälen, in denen wir Feedback bekommen können, gesagt haben, dass sie es zum Schreiben von Code und zur Suche nach Code benutzen, und sie benutzen es auch, um die neueste Dokumentation zu einem bestimmten Paket zu finden und um ihnen beim Skripting oder was auch immer zu helfen.

Josh Tobin. Ja, es ist mir ein bisschen peinlich, dass wir nicht an diesen Anwendungsfall gedacht haben.

Isa Fulford. [Ja.

Josh Tobin. Für ChatGPT-Benutzer mag das selbstverständlich erscheinen, aber ich weiß, dass es wirklich beeindruckend ist, dass es das so gut kann.

Sonya Huang. Wie wird sich Ihrer Meinung nach das Gleichgewicht zwischen kommerzieller und privater Nutzung im Laufe der Zeit entwickeln? Sie haben zum Beispiel die kommende Plus-Version erwähnt. Glauben Sie, dass diese in ein oder zwei Jahren in erster Linie ein Business-Tool oder ein Consumer-Tool sein wird?

Isa Fulford. Ich hoffe, es ist beides. Ich denke, es ist eine sehr vielseitige Fähigkeit, und ich denke, es ist etwas, das wir alle in unserem Arbeits- und Privatleben tun. Ich hoffe also, dass es beides ist.

Josh Tobin. Ja, ich freue mich auf beides. Ich glaube, der Clou daran ist, dass die Leute wirklich viel Zeit sparen. Wenn man für etwas Stunden braucht - in manchen Fällen haben wir gehört, dass es sogar Tage dauert - kann man es einfach in Deep Research eingeben und erhält seine eigenen Ergebnisse, für die man mit 90% eine Menge Zeit gebraucht hätte. Ja, ich glaube, dass es in der Geschäftswelt mehr solcher Aufgaben gibt als in der privaten Welt. Aber ich meine, ich bin sicher, dass dies ein Teil des Lebens der Menschen sein wird, unabhängig vom Bereich.

Lauren Reeder. Es ist wirklich zu meiner Hauptmethode geworden, ChatGPT zu benutzen. Ich wähle immer Deep Research gegenüber dem normalen Modus.

Isa Fulford. Wirklich?

Lauren Reeder. [Gelächter]

Josh Tobin. Ja, genau. Du bist so geduldig.

Lauren Reeder. Offensichtlich ja.

Lauren Reeder. Welche Anwendungsfälle für Verbraucher sehen Sie? Was reizt Sie?

Isa Fulford. Ich denke, das hat viel mit Einkaufs- und Reisetipps zu tun. Ich persönlich benutze das Modell sehr oft. Ich verwende es schon seit Monaten für diese Dinge. Wir waren zufällig in Japan, als Deep Research veröffentlicht wurde, und es hat mir sehr geholfen, Restaurants zu finden, die bestimmte Anforderungen erfüllen, und auch Dinge, die ich vielleicht nicht finde.

Josh Tobin. YES. Ich finde es nützlich, wenn man etwas Teures kaufen muss, oder wenn man eine besondere Reise plant, oder wenn man viel Zeit damit verbringen will, darüber nachzudenken. Ich könnte Stunden damit verbringen, alle Informationen im Internet über das Produkt, das ich kaufen möchte, zu lesen, also alle Bewertungen, Foren und so weiter durchzugehen. Und Deep Research kann ähnliche Informationen sehr schnell zusammenstellen. Für diese Art von Dingen ist es also wirklich nützlich.

Isa Fulford. Das Modell ist auch sehr gut in folgenden BereichenVerständnis. Wenn Ihre Abfrage also viele verschiedene Teile oder viele verschiedene Fragen enthält, z. B. wenn Sie etwas über das Produkt wissen wollen, es aber auch mit allen anderen Produkten vergleichen wollen und Sie auch Informationen über die Rezensionen auf Reddit usw. haben möchten, gibt es viele verschiedene Anfragen, die Sie stellen können, und das Programm wird all das für Sie tun.

Josh Tobin. Ja. Ein anderer Trick ist, einfach um eine tabellarische Darstellung zu bitten. Das tut es normalerweise auch, aber es hilft wirklich, eine Tabelle mit vielen Zitaten und dergleichen zu haben, in der alle Informationskategorien aufgeführt sind, die Sie recherchieren wollen.

Isa Fulford. JA. Es gibt noch einige Funktionen, die dem Produkt in Zukunft hinzugefügt werden sollen, aber das zugrunde liegende Modell ist in der LageEingebettete Bilderso dass es Bilder des Produkts finden kann. Und es ist auch in der LageDiagramme erstellendie diese Diagramme dann in ihre Antworten einbetten, aber das ist noch kein Anwendungsfall für Verbraucher. Hoffentlich werden diese Funktionen bald auch in ChatGPT implementiert.

Sonya Huang. Anwendungsfälle für Geek-Konsumenten. (Gelächter)

Josh Tobin. Ja, wo wir gerade bei den ausgefallenen Anwendungsfällen für Verbraucher sind.personalisierte BildungEs ist auch ein sehr interessanter Anwendungsfall. Wenn Sie zum Beispiel etwas über ein bestimmtes Thema lernen wollen, wenn Sie eine Auffrischung in Biologie brauchen oder wenn Sie etwas über das Weltgeschehen erfahren wollen, ist es sehr gut darin, all die Informationen zusammenzutragen, von denen Sie das Gefühl haben, dass Sie sie nicht verstehen, und die Aspekte, die Sie untersucht haben möchten, und dann wird es einen schönen Bericht für Sie erstellen.

Isa Fulford. Ich habe einen Freund, der ein Konsumgüterunternehmen gründen will, und er hat Deep Research häufig benutzt, um ähnliche Produkte zu suchen, um zu sehen, ob bestimmte Namen registriert wurden, um Domänen zu belegen und um Schätzungen der Marktgröße vorzunehmen usw. Es war interessant, dass er mir die Berichte zur Verfügung stellte und ich sie las. Es war also wirklich interessant, das zu sehen.

Josh Tobin. Ein weiterer interessanter Anwendungsfall ist, dass es sehr gut InternetIndividuelle, versteckte Fakten. Wenn Sie zum Beispiel eine bestimmte Fernsehsendung suchen, um eine bestimmte Folge zu finden, wird die Suche vertieft und die einzige Referenzinformation darüber im Internet gefunden.

Isa Fulford. Oh, ja. Der Vater des Freundes meines Bruders hatte eine sehr spezifische Frage zu einem Sachverhalt. Die Frage handelte von einem österreichischen General, der an der Macht war, als jemand in einer bestimmten Schlacht starb. Es war eine sehr spitzfindige Frage. Offenbar hatte ChatGPT sie schon einmal falsch beantwortet, und er war sich ziemlich sicher, dass ChatGPTs Antwort falsch war. Also ging er in die öffentliche Bibliothek, fand eine Aufzeichnung und stellte fest, dass ChatGPT tatsächlich falsch lag. Und dann konnte Deep Research die richtige Antwort geben, also schickten wir ihm die Antwort, und er war begeistert. [Gelächter]

Sonya Huang. Was sind Ihre groben mentalen Modelle für die Aufgaben, in denen Deep Research heute sehr gut ist? Für welche Szenarien sollte ich das o-series Modell verwenden? Für welche Szenarien sollte man Deep Research verwenden?

Josh Tobin. Was Deep Research wirklich gut kann, ist, wenn Sie eine Vorstellung davon haben, was Sie wollenausführliche BeschreibungDazu müssen Sie viele Informationen im Internet lesen, um die beste Antwort zu finden. Wenn Ihre Frage vage ist, kann es Ihnen helfenaufklären.Was Sie wollen. Aber es funktioniert am besten, wenn Sie eine bestimmte Menge an Informationen haben, nach denen Sie suchen.

Isa Fulford. Und ich denke, sie ist sehr gut darin.konformEs ist sehr gut darin, spezifische, schwer zu findende Informationen zu finden, aber es ist wahrscheinlich nicht sehr gut darin - und es kann einige neue Erkenntnisse aus den Informationen generieren, auf die es stößt, aber ich denke - esnoch nichtNeue wissenschaftliche Entdeckungen machen. Was die Verwendung des Modells der o-Serie angeht, so kann ich damit dasselbe tun wie mit dem Modell derKodierungenverwandte Dinge, die in der Regel keine Kenntnisse erfordern, die über das hinausgehen, was das Modell beim Vortraining erworben hat. So können für die Codierung oder o3-mini HIGH, ich verwende normalerweise o1 Pro oder o1.

Umfassende Ausbildung

Lauren Reeder. Deep Research ist eine OpenAI Neue ProduktausrichtungDas ist ein hervorragendes Beispiel dafür. Ich bin neugierig, inwieweit Sie uns mitteilen können, wie es funktioniert?

Isa Fulford. Das Modell, das der Tiefenforschung zugrunde liegt, ist Feinabgestimmte Version von o3(math.) Gattungo3 ist unser modernes Inferenzmodell.. Wir sind spezialisiert aufWir haben es mit unserer Sammlung komplexer Browsing-Aufgaben sowie mit anderen logischen Aufgaben trainiert. Als solche hat sie auch Zugang zuBrowser-Toolim Gesang antworten Python-Werkzeuge. Indem es diese Aufgaben durchgängig trainiert, lernt es Strategien zu ihrer Lösung, und die daraus resultierenden Modelle zeichnen sich bei der Online-Suche und -Analyse aus.

Josh Tobin. Intuitiv lässt sich das so verstehen, dass Sie eine Anfrage stellen, vorzugsweise eine detaillierte Anfrage zu dem, was Sie wollen. Das Modell wird intensiv darüber nachdenken, es wird nach Informationen suchen, es wird Informationen extrahieren und lesen, es wird verstehen, wie diese Informationen mit der Anfrage zusammenhängen, und dann wird es entscheiden, wonach es als Nächstes suchen soll, um der endgültigen Antwort näher zu kommen, die Sie wünschen. Und er ist darauf trainiert, all diese Informationen in einem übersichtlichen Bericht zusammenzufassen, mit Verweisen auf die ursprünglich gefundenen Informationen.

Isa Fulford. Ja, ich denke, das Neue an der Tiefenforschung als Agentenfähigkeit ist, dass wirFähig zu einer durchgängigen AusbildungEs gibt also viele Dinge im Forschungsprozess, die man nicht im Voraus vorhersagen kann. Ich glaube also nicht, dass es möglich ist, ein Sprachmodell oder ein Programm oder ein Skript zu schreiben, das so flexibel ist, wie das Modell durch Training lernen kann, wobei das Modell tatsächlich auf Echtzeit-Netzwerkinformationen reagiert und je nachdem, was es sieht, seine Strategie ändern muss und so weiter. Und so sehen wir, dass es tatsächlich sehrKreative Suche. Sie können die Zusammenfassung der Gedankenkette lesen, und ich bin mir sicher, dass Sie manchmal sehen können, dass sie sehr clever ist, wenn es darum geht, herauszufinden, wonach man als Nächstes suchen oder Hindernisse umgehen muss.

Sonya Huang. John Collison hat einen Tweet abgesetzt, der im Internet einen kleinen Feuersturm ausgelöst hat. Wie viel von der Magie von Deep Research kommt vonEchtzeit-Zugang zu Web-InhaltenWie viele davon? Und wie viel von denGedankenketteWas ist hier los? Könnt ihr mir das ein bisschen erklären?

Isa Fulford. Ich denke, es ist absolutHochzeit der beiden. Und ich denke, Sie können das sehen, weil es andere Suchprodukte gibt, die nicht notwendigerweise - nicht durchgängig geschult sind und daher nicht so flexibel auf die Informationen reagieren, auf die sie stoßen, und nicht so kreativ sind, wenn es darum geht, wie man bestimmte Probleme kreativ lösen kann, und nicht Sie sind nicht so kreativ, weil sie nicht speziell für diesen Zweck ausgebildet wurden. Es ist also definitiv eine Kombination aus beidem. Ich meine, es ist eine fein abgestimmte Version von o3. o3 ist ein sehr intelligentes und leistungsfähiges Modell. Ein großer Teil der analytischen Leistung stammt auch aus dem zugrundeliegenden o3-Modelltraining. Ich denke also, es ist definitiv eine Kombination aus beidem.

Josh Tobin. Bevor ich zu OpenAI kam, arbeitete ich bei einem Startup, bei dem wir ebenfalls versuchten, Agenten zu bauen, und die Art und Weise, wie es aufgebaut war, ähnelte der Art und Weise, wie die meisten Leute, die ich im Internet gesehen habe, den Aufbau von Agenten beschreiben, was im Grunde genommen bedeutet, dass man eineBetriebsplanEinige der Knoten in diesem Graphen sind Sprachmodelle. So kann das Sprachmodell entscheiden, was als Nächstes zu tun ist, aber die Gesamtlogik der auftretenden Schritte wird von einem Menschen definiert. Wir haben festgestellt, dass sich auf diese Weise sehr schnell Prototypen erstellen lassen. In der realen Welt scheitert dies jedoch schnell, da es schwierig ist, alle Szenarien vorherzusagen, mit denen ein Modell konfrontiert werden könnte, und die verschiedenen Verzweigungen des Pfades zu berücksichtigen, den man möglicherweise einschlagen möchte.

Hinzu kommt, dass Modelle in der Regel nicht die besten Entscheidungsträger für die Knoten in diesem Graphen sind, weil sie nicht darauf trainiert sind, solche Entscheidungen zu treffen. Sie sind darauf trainiert, Dinge zu tun, die ihnen ähnlich sehen. Ich denke, das wirklich Starke an diesem Modell ist, dass esNach der direkten End-to-End-Ausbildungdie solche Aufgaben lösen können, für die sie von den Nutzern verwendet werden.

Lauren Reeder. Sie müssen also keine Diagramme erstellen oder knotenähnliche architektonische Entscheidungen am Backend treffen?

Isa Fulford. Dies ist ausschließlich auf das Modell selbst zurückzuführen.

Josh Tobin. Ja.

Sonya Huang. Könnt ihr das näher erläutern? Denn es scheint, als hättet ihrSehr klare EntscheidungenEine von ihnen, und offenbar hat es funktioniert. Es gibt viele Unternehmen, die auf Basis Ihrer API Apps entwickeln, die bestimmte Aufgaben für bestimmte Nutzer mit Hinweisen lösen. Glauben Sie, dass diese Anwendungen besser bedient wären, wenn sie von Anfang bis Ende auf ihre spezifischen Arbeitsabläufe geschult würden?

Isa Fulford. Ich denke, wenn Ihr Arbeitsablauf sehrSpezifisch und vorhersehbardann macht der von Josh beschriebene Ansatz sehr viel Sinn. Wenn Sie jedoch mit vielen Dingen zu tun habenGeringfügige Bedingungenoder müssen sehrvielseitigist ein ähnlicher Ansatz wie Deep Research vielleicht die bessere Wahl.

Josh Tobin. Ja, mein Rat an die Menschen ist, dass sieUnerwünschteim ModellErstarrung (Chemie)Die Sache ist die, Sie wissen schon.starre Regel. Wenn Sie eine Datenbank oder etwas Ähnliches haben, mit dem das Modell nicht in Berührung kommen soll, ist es besser, es in einer manuell geschriebenen Logik zu kodieren. Aber ich glaube, das ist eine der Lektionen, die die Leute in diesem Bereich immer wieder lernen, nämlich dass wir glauben, wir könnten intelligentere Dinge tun als Modelle, indem wir unsere eigenen Programme schreiben. Aber in Wirklichkeit finden die Modelle - je weiter das Feld fortschreitet - meist bessere Lösungen als der Mensch.

Sonya Huang. Was waren die größten technischen Herausforderungen bei der Realisierung von Deep Research?

Josh Tobin. Nun, vielleicht kann ich eher als Beobachter sprechen und nicht als jemand, der von Anfang an dabei war, aber es scheint, dass Isa und der Rest des Teams sehr hart gearbeitet haben und erfolgreich zu sein scheinen!Verstecken Sie den SchlüsselEiner der Gründe dafür ist, dass dieDatensätze von sehr hoher Qualität. Das ist eine dieser uralten Lektionen des maschinellen Lernens, die man immer wieder neu lernt. Aber die Qualität der Daten, die Sie in Ihr Modell einspeisen, ist wahrscheinlich der größte Faktor, der die Qualität des Modells bestimmt, das Sie am anderen Ende erhalten.

Isa Fulford. Und dann jemanden wie Edward (Edward Sun) zu haben, der ebenfalls an diesem Projekt beteiligt ist und der jeden Datensatz optimieren kann. Das ist das Rezept für den Erfolg.

Lauren Reeder. Finden Sie Ihren Edward.

Josh Tobin. Großartiger Trainer für maschinelle Lernmodelle.

Lauren Reeder. Wie stellt ihr sicher, dass es richtig ist?

Isa Fulford. Ja, das ist natürlich ein Kernbestandteil des Modells und des Produkts, und wir wollen, dass die Nutzer in der Lage sindVertrauen in die Ausgabeergebnisse. Zum Teil, weil wir habenZitatDer Benutzer kann also die Quelle sehen, aus der das Modell seine Informationen bezieht. Während des Trainings versuchen wir sicherzustellen, dass diese Informationen korrekt sind, aber es ist immer noch möglich, dass das Modell Fehler macht, halluziniert oder Informationsquellen vertraut, die nicht unbedingt vertrauenswürdig sind. Das ist also definitiv ein aktiver Bereich, in dem wir das Modell weiter verbessern wollen.

Deep Research und Operator

Sonya Huang. Wie sollten wir über Deep Research in Bezug auf o3 und Operator und andere verschiedene Veröffentlichungen denken? Verwendet Deep Research zum Beispiel Operator? Sind sie alle aufeinander aufbauend? Oder sind sie alle eine Reihe von verschiedenen Anwendungen von o3?

Josh Tobin. Derzeit sind diese ProdukteFreistehendaber Sie können sich vorstellen, wohin wir uns in der Zukunft bewegen werden, wenn die Menschen irgendwann Zugang zum Internet haben.Ultimativer Agent Er sollte nicht nur in der Lage sein, Internetrecherchen durchzuführen, einen Computer zu bedienen oder jede andere Tätigkeit auszuführen, die Sie sich von einem menschlichen Assistenten wünschen würden, sondern er sollte in der Lage sein, all diese Funktionen auf natürlichere Weise zu kombinieren.

Sonya Huang. Welche anderen Design-Entscheidungen haben Sie getroffen, die auf den ersten Blick vielleicht nicht offensichtlich sind?

Isa Fulford. Ich denke, einer von ihnen istKlärungsprozess. Wenn Sie Deep Research verwendet haben, wird das Modell Ihnen Fragen stellen, bevor Sie mit Ihrer Recherche beginnen, während ChatGPT Ihnen normalerweise Fragen am Ende seiner Antworten stellt, aber nicht am Anfang.von Anfang anZeigen Sie einfach dieses Verhalten. Das istetwas absichtlich tunDenn wenn die Eingabeaufforderung sehr klar und detailliert ist, erhält man die beste Antwort vom Deep Research-Modell. Und ich glaube nicht, dass es das natürliche Verhalten des Nutzers ist, alle Informationen bei der ersten Aufforderung anzugeben. Wir wollen also sicherstellen, dass Ihre Antwort so detailliert und zufriedenstellend wie möglich ist, wenn Sie 5 oder 30 Minuten warten müssen. Wir haben also diese zusätzlichen Schritte eingefügt, um sicherzustellen, dass der Benutzer alle erforderlichen Angaben macht.

Und ich habe auf Twitter gesehen, dass viele Leute sagen, dass sie einen Prozess haben, bei dem sie mit einem o1 oder einem o1 Pro sprechen, um zu helfen.Ihre Aufforderungen detaillierter gestaltenUnd wenn sie mit der Eingabeaufforderung zufrieden sind, senden sie sie an Deep Research. Das ist interessant. Die Leute finden also ihre eigenen Arbeitsabläufe, um Deep Research zu nutzen.

Lauren Reeder. In den letzten Monaten sind drei verschiedene Deep Research-Produkte auf den Markt gekommen. Bitte beschreiben Sie kurz, was Ihr Produkt auszeichnet und was wir davon erwarten können.

Sonya Huang. Und sie heißen beide Deep Research, richtig?

Josh Tobin. Sie heißen beide Deep Research. Ja, dieser Bereich derNicht viel Kreativität bei der Namensgebung. Ich denke, die Leute sollten alle diese Produkte selbst ausprobieren und ein Gefühl für sie bekommen. Ich denke, der Qualitätsunterschied, ich denke, sie haben alle Vor- und Nachteile, aber ich denke, die Unterschiede werden offensichtlich sein. Aber es kommt einfach auf die Art und Weise an, wie dieses Modell konstruiert ist, und auf den Aufwand, der in die Konstruktion des Datensatzes und der Engine fließt, die wir für die Modelle der o-Serie verwenden, die es uns ermöglicht, das Modell zu optimieren und es sehr intelligent und hochwertig zu machen.

Sonya Huang. Letztes Jahr hatten wir das o1-Team im Podcast und wir scherzten, dass OpenAI Ich bin nicht sehr gut im Benennen von Dingen.. Ich würde sagen, dass Deep Research IhrBenennung der erfolgreichstenProdukt. (LACHT)

Josh Tobin. Deep Research, richtig? Zumindest beschreibt es, was es tut, denke ich.

Zukunftsaussichten

Lauren Reeder. Ich würde gerne Ihre Vision für die Zukunft hören. Ihr habt heute Deep Research gestartet. Wie wird es eurer Meinung nach in einem Jahr aussehen? Welche anderen ergänzenden Dinge wollt ihr in diesem Prozess vielleicht noch aufbauen?

Isa Fulford. Wir sind glücklich.Erweiterung der für das Modell zugänglichen Datenquellen. Das von uns trainierte Modell ist in der Regel sehr gut im Umgang mit öffentlichen Informationen, sollte aber auch in der Lage seinSuche nach privaten Daten. Und dann denke ich, es ist nur weiterAusbau ihrer Kapazitäten. Es könnte also besser sein beim Browsen, es könnte besser sein bei der Analyse. Ja, ich denke, kurzfristig wollen wir diese Bereiche verbessern.

Josh Tobin. Ja, das tun wir. Und dann überlegen Sie, wie das in unsere breitere Agent-Roadmap passt. Ich denke, dass das Rezept hier für eine Vielzahl von Anwendungsfällen geeignet ist und die Leute überraschen wird, wie gut es funktioniert. Aber die Idee ist, dass man ein hochmodernes Inferenzmodell nimmt, ihm Zugang zu denselben Werkzeugen gibt, die Menschen für ihre Arbeit oder ihr tägliches Leben nutzen, und es dann direkt für die Art von Ergebnissen optimiert, die der Agent ausführen soll. Bei dieser Art von Rezept steht einer Skalierung auf immer komplexere Aufgaben nichts im Wege, also denke ich, ja.AGI ist jetzt ein operatives Thema. Und ich denke, dass diese universelle Formel noch viel mehr zu bieten hat.

Lauren Reeder. Sam (Sam Altman) hatte ein sehr treffendes Zitat, als er sagte, Deep Research werdeÜbernahme eines einstelligen Prozentsatzes aller wirtschaftlich wertvollen Aufträge weltweit. Wie sollten wir diese Aussage verstehen?

Josh Tobin. Ich denke, es ist verständlich, dass Deep Research Sie können nicht zu Ende bringen, was Sie angefangen haben.Aber es kann für Sie funktionieren.sparsam einsetzenStunden, und in manchen Fällen sogar sparenmehrere Tageder Zeit. Ich denke also, dass wir dem Ziel relativ nahe sind, dass Deep Research und der Agent, den wir als Nächstes bauen, und der Agent, den wir darauf aufbauen, Ihnen Folgendes bieten werdensparsam einsetzen 1%, 5%, 10%, 25%, je nach der Art der Arbeit, die Sie verrichten.

Sonya Huang. Ich meine, ich denke, dass ihr wirklichautomatischMein 80% hat funktioniert, also ......

Lauren Reeder. [Für mich auf jeden Fall höher.

Josh Tobin. Ich denke, wir müssen einfach anfangen.einen Scheck ausstellenJa. Ja, das ist sie.

Sonya Huang. Was meinen Sie?Gesamte BerufsgruppeMehr - "gefährdet" ist nicht das richtige Wort, aber näher an den Bereichen, in denen Deep Research sehr gut ist? Ich denke da zum Beispiel an Beratung, aber welche spezifischen Kategorien sind Ihrer Meinung nach näher dran?

Josh Tobin. Ja, ich war mal Berater. Glaube ich.Keine Arbeitsplätze sind gefährdet. Ich glaube wirklich nicht, dass es eineSubstitution von ArbeitskräftenDer Stoff. Für diese Art von wissensbasierten Jobs müssen Sie jedoch viel Zeit aufwenden, umInformationen durchsuchen und Schlussfolgerungen ziehenIch denke, Deep Research wird die Menschen befähigenübernatürliche Macht.

Isa Fulford. Ja, ich interessiere mich für eine Reihe vonMedizinstudiumDie Anwendungsfälle sind sehr spannend. Allein dieausfindig machen.Es geht um eine Krankheit.Alle DokumentevielleichtAlle aktuellen FälleDie Fähigkeit, das zu tun. Ich glaube, ich habe viele Ärzte gesehen, die online über Deep Research gepostet haben, oder sie haben uns kontaktiert und gesagt: "Oh, wir haben das damit gemacht. Wir haben es benutzt, um eine klinische Studie für diesen Patienten zu finden" oder etwas Ähnliches. Es ist also einfach eine Zeitersparnis für Menschen, die ohnehin schon viel zu tun haben, oder es gibt Dinge, für die sie vorher keine Zeit hatten, und jetzt können sie auf diese Informationen zugreifen.

Josh Tobin. Ja. Und ich denke, dass die Auswirkungen mehr sein könnten, als es auf den ersten Blick scheinttiefgründiger, richtig? Es geht nicht nur darum, 5% Zeit zu sparen, sondern darum, dass Sie das, wofür Sie vielleicht 4 oder 8 Stunden brauchen, jetzt mit einem ChatGPT-Abonnement und 5 Minuten Ihrer Zeit erledigen können. Wenn Sie alsoUnbegrenzte Zeitwas für Dinge tun Sie? Jetzt könnten Sie wahrscheinlich viele, viele Kopien machen?

Sie sollten zum Beispiel alleMögliche Startups, in die man investieren kannanstatt nur nach Unternehmen zu suchen, mit denen Sie Zeit haben, sich zu treffen? Solche Dinge.

Sonya Huang. Auf der Verbraucherseite fällt mir unter anderem Folgendes ein.Berufstätige MütterZu beschäftigt, um sich Zeit zu nehmen fürKleinkindPlanerGeburtstagspartyAls ob es jetzt machbar wäre. Als ob das jetzt machbar wäre. Ich stimme Ihnen also zu. Es ist viel wichtiger, als 5%s Zeit zu sparen.

Josh Tobin. Ja.

Lauren Reeder. Das sind Dinge, die man vorher nicht machen konnte.

Isa Fulford. Das ist richtig.

Sonya Huang. Wie sich dies ändern wirderziehenund unstunWas würden Sie Kindern beibringen, jetzt wo wir in der Welt der Agenten und der Tiefenforschung leben? Was bringen Sie Kindern bei, jetzt, wo wir in der Welt der Agenten und der Tiefenforschung leben?

Josh Tobin. erziehenChatGPT wurde schon immer genutzt vonprimäre VerwendungErstens. Ich denke - und das gilt für ChatGPT im Allgemeinen. Es ist, als würde man Dinge lernen, indem man mit einem KI-System spricht, das Dinge auf der Grundlage dessen lernen kann, was man ihm sagt, oder in Zukunft auf der Grundlage dessen, was es über einen lerntPersonalisierteEs vermittelt Ihnen Informationen, und das ist eine effektivere und ansprechendere Art zu lernen als das Lesen eines Lehrbuchs.

Blitz-Fragestunde

Lauren Reeder. Wir haben einigeBlitzfrageDas Problem mit dem Link.

Josh Tobin. Ja.

Sonya Huang. Richtig. Was sind Ihre bevorzugten Anwendungsfälle für Deep Research?

Josh Tobin. Ich würde zum Beispiel ja sagen.personalisierte Bildung. Ich will einfach alles lernen, was ich lernen will.

Isa Fulford. Ich habe es bereits erwähnt, aber ich denke, dass vieles von dem, was die Leute über dieausfindig machen.Über sie oder ihre FamilienInformationen über erlittene KrankheitenDie persönlichen Geschichten sind allesamt großartig.

Sonya Huang. Das Gute. Wir haben im letzten Jahr einige Bewerbungskategorien gesehenAusbrüche. Zum Beispiel.Kodierungenist ein gutes Beispiel. Welche App-Kategorien werden Ihrer Meinung nach dieses Jahr explodieren?

Josh Tobin. Ich meine.Offensichtlich, Agent..

Isa Fulford. Ich werde auch dies sagen.

Sonya Huang. Ja.2025 ist das Jahr des Agenten.

Josh Tobin. Ich glaube schon.

Lauren Reeder. Was sollte man eurer Meinung nach lesen, um mehr darüber zu erfahren, wohin sich Agent oder KI entwickeln? Es könnten auch Autoren sein.

Sonya Huang. Trainingsdaten-Podcast. (Gelächter)

Josh Tobin. Ich denke, es ist wichtig, mit den neuesten Entwicklungen im Bereich der KI Schritt zu haltenäußerst schwierig. Ich gebe den Menschen dieAllgemeine EmpfehlungenJa, wählen Sie ein oder zwei, die Sie wirklich interessierenUnterthemaUnd dann, Sie wissen schon.PlanerEine Liste von Leuten, die Ihrer Meinung nach interessante Aussagen zu diesem Thema machen, und wie Sie die ein oder zwei Dinge finden, die Sie interessieren. Vielleicht ist dies sogar ein guter Anwendungsfall für Deep Research. Nutzen Sie es, um Dinge zu erforschen, über die Sie mehr wissen wollen.

Isa Fulford. Dieses Buch ist zwar schon etwas älter, aber ich glaube, ich habe es vor ein paar Jahren gelesen - ich glaube, es hieß Stärkung der Grundlagen des Lernens (Foundations of RL) oder so ähnlich, von Pieter Abbeel. Es ist ein bisschen veraltet, aber ich denke, es ist einTolle Einführung in intensives Lernen.

Josh Tobin. Ja, das weiß ich.zustimmen Alles von Pieter Abbeel. Mein Berater für den Studienabschluss.

Isa Fulford. Oh, ja.

Sonya Huang. Ja. Intensives LernenNach einemRushhourUnd dann fühlt es sich an, als würde es wieder in dieAbschwung. Auch hier stellt sich die Frage, ob dies die richtige Interpretation der derzeitigen Dynamik des intensiven Lernens ist.

Josh Tobin. Es ist wieder da.Ja. Ja.

Sonya Huang. Es ist wieder da. Und warum? Warum jetzt?

Josh Tobin. auf Grund vonAlles andere hat funktioniert.. Ich denke, wenn jemand diese Seite schon länger verfolgt, wird er sich an Yann LeCuns Kuchen erinnernGleichnisse?

Sonya Huang. Sprechen Sie darüber.

Josh Tobin. Also, wenn Sie zum BeispielEinen Kuchen backenDer größte Teil des Kuchens besteht aus der Masse, dann kommt noch ein bisschen Zuckerguss und ein paar Kirschen obendrauf. Die Analogie ist, dassunüberwachtes LernenEs ist ein Tortenkörper.Überwachtes LernenDas ist das Sahnehäubchen.Intensives LernenDas ist die Kirsche auf dem Sahnehäubchen.

Ich glaube, als wir 2015, 2016 in diesem Bereich an der Forschung zum Verstärkungslernen arbeiteten, war die Analogie von Yann LeCun, die rückblickend wahrscheinlich richtig ist, dass wir versuchten, an derKeine Kuchenform.gegenwärtige LageKirsche hinzufügen. Aber jetzt, wo wir inPre-Training mit umfangreichen Daten(in Form eines Nominalausdrucks)SprachmodellIhre Fähigkeit zuselten. Wir wissen, wie man diese Sprachen aufFeinabstimmung der AufsichtSie sind gut in dem, was sie tun.Anweisungen befolgenund allgemeinSie tun das, was die Menschen von ihnen erwarten..

Da dies also einesehr wirksamdann ist es jetzt an der Zeit, diese Modelle so zu verfeinern, dass sie zu dem passen, was Sie für ihre Kunden tun können.Definieren Sie die Belohnungsfunktionfür jede Art von Anwendungsfall.

Sonya Huang. Großartig. Nach dieser Blitzbefragung haben wir die beliebtesten KI-Anwendungen von Deep Research. Agenten werden 2025 die bahnbrechende Kategorie sein. Und.Intensives Lernen ist zurück.Ich mag es. Ich liebe es. Vielen Dank, dass Sie sich uns angeschlossen haben. Wir freuen uns über den Dialog. Herzlichen Glückwunsch zur Veröffentlichung eines großartigen Produkts, und wir können es kaum erwarten, zu sehen, was es bringt.

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

o1 ist kein Chat-Modell, das Ihnen beibringt, wie Sie o1-Fähigkeiten richtig motivieren können

AI-Nachrichten

vor 8 Monaten

012.6K

人人都能做数据分析了！Google Colab 推出 AI 神器 Data Science Agent

Google Colab führt Data Science Agent ein, ein KI-Tool!

AI-Nachrichten

vor 7 Monaten

011.9K

Das Open-Source-Modell für traditionelles Chinesisch und das Sprachsynthesemodell für den taiwanesischen Akzent von MediaTek

AI-Nachrichten

vor 7 Monaten

012.4K

Die heißesten KI-Notizen des Jahres wurden aktualisiert, und Wissen gelangt auf magische Weise ins Gehirn

AI-Nachrichten

vor 9 Monaten

011.7K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

OpenAI's Deep Research: Wie End-to-End Training die Zukunft der KI-Agenten anführt

Zusammenfassung des Inhalts