Z Höhepunkte
- Die Intuition funktioniert bei etwa der Hälfte der Stellen. Intuition ist hilfreich, wenn es beispielsweise eine klare Produktausrichtung gibt und es nur noch darum geht, die letzte Feinabstimmung vorzunehmen und zu versuchen, die Zielnutzer und das genaue zu lösende Problem zu verstehen, da diese Situation dem traditionellen Produkteinführungsprozess näher kommt.Aber in der Anfangsphase eines Projekts ist das ganz und gar nicht der Fall. Manchmal haben wir einfach einige unbekannte Fähigkeiten.
- Aber hier sind die Computer alle zwei Monate in der Lage, etwas Neues zu tun, das es in der Geschichte noch nie gegeben hat, und die Sie müssen verstehen, wie sich diese technologischen Veränderungen auf Ihr Produkt auswirken werden, und die Antwort kann lauten, dass sie erhebliche Auswirkungen haben werden Es ist also wirklich interessant zu sehen, wie sich die KI von innen heraus entwickelt.
- Wir haben festgestellt, dass Claude sehr gut darin ist, Beurteilungen zu schreiben und sie zu bewerten. Wir können also einen großen Teil dieses Prozesses für Sie automatisieren, aber nur, wenn Sie uns sagen, was erfolgreich ist, und dann können wir tatsächlich schrittweise Verbesserungen vornehmen.
- Modelle werden immer intelligenter werden, und das ist ein Teil dessen, was all dies möglich macht. Sehr spannend ist auch, dass Modelle in der Lage sein werden, wie wir Menschen zu interagieren.
Neue Rollen und Herausforderungen in der KI: Dialog und Erkundung
Sarah: Hallo zusammen!
Kevin: Sarah, Sie sind die Königin der KI-Investitionen.
Sarah: Das ist ein Satz, den wir nie wieder verwenden werden, aber es ist schön, mit Ihnen beiden hier zu sein. Ich habe zwei verschiedene Ideen für unsere Abschlussdiskussion. Die erste ist das Duell zur Produkteinführung, weil Sie beide die Möglichkeit haben, einfach auf den "Veröffentlichen"-Knopf zu drücken, und ich sage: Kommt schon, lasst uns einfach alles veröffentlichen, was wir in den nächsten 6 bis 12 Monaten auf den Markt bringen werden, und alle internen Richtlinien komplett ignorieren.
Die zweite ist, dass wir Instagram gemeinsam neu gestalten, weil beide eigentlich Instagram betrieben haben, aber diese Pläne sind inzwischen komplett abgesagt worden. Also, lassen Sie uns einfach unsere Erkenntnisse als Freunde teilen. Das hört sich jetzt etwas langweilig an, aber ich freue mich wirklich darauf zu hören, was ihr zu erzählen habt. Wie auch immer, das ist eine relativ neue Rolle für euch alle. Kevin, du hast schon viele verschiedene und interessante Dinge gemacht.
Kevin: Insgesamt ist es aufregend, es ist eine der interessantesten und einflussreichsten Positionen, die es gibt, und es gibt so viel zu entdecken. Ich hatte noch nie eine Produktrolle, die so herausfordernd, interessant und schlaflos war - sie umfasst alle Herausforderungen einer gewöhnlichen Produktrolle, wie z. B. herauszufinden, wer deine Nutzer sind, welche Probleme du lösen kannst und so weiter. Aber wenn man ein Produkt entwickelt, arbeitet man normalerweise von einer relativ festen technischen Basis aus, man weiß, welche Ressourcen zur Verfügung stehen, und dann entwickelt man das bestmögliche Produkt.
Aber hier sind Computer alle zwei Monate in der Lage, neue Dinge zu tun, die in der Geschichte noch nie realisiert wurden, und man muss verstehen, wie sich diese technologischen Veränderungen auf das eigene Produkt auswirken werden, und die Antwort wird wahrscheinlich ziemlich große Auswirkungen haben.
Sarah: Mike, was ist mit Ihnen? Ich weiß noch, wie ich die Nachricht hörte und mir dachte, dass es überraschend war, den Gründer von Instagram dazu zu bringen, an einem Projekt zu arbeiten, das bereits existierte.
Mike: Ja, meine drei Lieblingsreaktionen sind: Leute, die mich kennen, sagen, es macht Sinn und du wirst dort Spaß haben. Dann gibt es Leute, die sagen: "Du brauchst nicht zu arbeiten, warum machst du dir die Mühe? Wenn Sie mich wirklich kennen, wissen Sie, dass ich einfach nicht aufhören kann, ich kann einfach nicht anders. Die dritte Reaktion ist, dass es lustig ist, den Gründer von Instagram zu haben. Es stimmt, dass nicht viele Unternehmen das tun können, was nötig ist, um mich zu interessieren, aber es gibt wahrscheinlich drei, an denen ich interessiert wäre. Je nachdem, wie gut man mich kennt, fällt die Reaktion unterschiedlich aus, vor allem, wenn man mich in diesem Zustand des Halbruhestands erlebt hat, der etwa sechs Wochen andauerte, und dann fragte ich mich: Was mache ich als Nächstes?
Kevin: Wir haben kürzlich mit einer Gruppe von Freunden zu Abend gegessen, und Sie strahlten eine kindliche Begeisterung aus, und mir fiel auf, dass Sie sagten, Sie würden all diese unternehmerischen Aspekte kennenlernen. Das ist etwas anderes als die Art von Nutzerbasis, die wir normalerweise bei Instagram haben, und jetzt geht es darum, andere Kunden zu bedienen oder in einer forschungsorientierten Organisation zu arbeiten. Was war bis jetzt die größte Überraschung?
Mike: Das sind wirklich zwei sehr lohnende Aspekte dieser Arbeit und völlig neue Erfahrungen für mich. Mit 18 Jahren habe ich mir geschworen, dass jedes Jahr anders sein würde und dass ich nicht immer wieder das gleiche Jahr erleben wollte. Aus diesem Grund denke ich manchmal: "Willst du noch ein soziales Produkt machen? Es fühlt sich zu repetitiv an, und erstens verwischen die Standards, und zweitens fühlt es sich auch ein bisschen so an, als würde man immer wieder das Gleiche wiederholen. Daher sind Unternehmensinhalte wirklich erfrischend. Ich bin neugierig, welche Erfahrungen Sie auch damit gemacht haben. Sie erhalten Feedback in Echtzeit, und ich kann mir vorstellen, dass es eher wie eine Investition ist - der Zyklus ist viel länger. Es gibt die erste Kommunikation, und dann hat man das Gefühl: "Die scheinen mich zu mögen", und dann erfährt man, dass das Projekt im Genehmigungsverfahren ist, und dann dauert es etwa sechs Monate, bis man zur eigentlichen Einsatzphase kommt, und dann weiß man, ob es passt oder nicht.Wir müssen uns also an einen anderen Zeitplan gewöhnen.
Ich frage, warum es noch nicht weitergeht, und sie sagen: Mike, du bist erst seit zwei Monaten hier, und die Sache ist schon im Gange, und es wird sich schon einspielen. Man muss sich an dieses andere Tempo gewöhnen. Aber das Interessante ist, dass man, wenn das Produkt erst einmal in Betrieb ist, direkt mit dem Kunden in Kontakt treten kann, und er kann zu dir kommen und über seine Erfahrungen sprechen und die Ergebnisse bestätigen. Bei den Nutzern hingegen kann man sie nur allgemein mit Hilfe der Datenwissenschaft analysieren, und natürlich kann man den einen oder anderen einladen, zu kommen und mit ihm zu sprechen, aber er wird nicht finanziell motiviert genug sein, um Ihnen ein detailliertes Feedback über Ihre Stärken und Schwächen zu geben. Dieser Ansatz ist also anders, aber er ist auch sehr erfüllend.
Sarah: Kevin, du warst schon an so vielen Arten der Produktentwicklung beteiligt, wie sehr spielt deine Intuition bei diesen Projekten eine Rolle?
Kevin: Ja, bevor ich Ihre Frage beantworte, möchte ich noch etwas zur Unternehmensseite sagen. Im Unternehmensbereich liegt der Schwerpunkt nicht unbedingt auf dem Produkt selbst. Es gibt auch einen Käufer, der seine eigenen Ziele hat. Man kann das beste Produkt der Welt bauen, und jeder im Unternehmen mag es gerne benutzen, aber das ist nicht unbedingt wichtig. Ich hatte vorhin ein Treffen mit einem großen Firmenkunden, der sagte: "Das ist großartig, wir sind damit zufrieden usw. Aber wir haben einen Bedarf. Aber wir haben die Vorgabe, dass wir 60 Tage vor der Einführung eines neuen Produkts Bescheid wissen müssen." Ich dachte mir: "Ich würde es auch gerne 60 Tage im Voraus wissen.
Es ist in der Tat sehr unterschiedlich, und es ist interessant, weil wir bei OpenAI gleichzeitig Produkte für Verbraucher, Unternehmen und Entwickler haben, so dass wir an fast allen Fronten experimentieren. Was die Intuition anbelangt, so ist etwa die Hälfte der Arbeitsplätze mit Intuition ausgestattet. Wenn Sie z. B. eine klare Produktausrichtung haben, z. B. wenn Sie kurz vor der Veröffentlichung von Advanced Speech Patterns oder Canvas stehen und die letzten Feinabstimmungen vornehmen und versuchen, den Zielnutzer und das genaue Problem, das gelöst werden soll, zu verstehen, dann ist Intuition hilfreich, weil die Situation näher am traditionellen Produktfreigabeprozess liegt.
immer noch In der Anfangsphase eines Projekts ist das überhaupt nicht der Fall. Manchmal haben wir nur einige unbekannte Fähigkeiten. Sie trainieren zum Beispiel ein neues Modell und glauben, dass es eine bestimmte Fähigkeit hat, aber Sie sind sich nicht sicher, das Forschungsteam ist sich nicht sicher, niemand ist sich sicher. Es könnte funktionieren, wie eine Statue, die langsam aus dem Nebel auftaucht, aber diese Fähigkeit ist eine emergente Eigenschaft des Modells. Man weiß also nicht, ob es tatsächlich funktionieren wird, oder ob es 60% effektiv, 90% effektiv oder 99% effektiv ist. Und für ein Modell, das 60% gültig, 90% oder 99% gültig ist, ist die entsprechende Produktform völlig unterschiedlich. Es gibt so etwas wie eine Warteliste, und ich weiß nicht, ob Sie schon einmal das Gefühl hatten, dass Sie von Zeit zu Zeit zum Forschungsteam gehen und es fragen, wie es läuft, wie es mit der Ausbildung des Modells läuft, ob es neue Erkenntnisse gibt, und sie werden sagen, es ist eine Forschungsstudie, wir arbeiten noch daran, wir sind uns nicht sicher, es ist ein explorativer Prozess. Aber es macht auch Spaß, weil wir alle zusammen neue Dinge entdecken, aber auch mit einem gewissen Maß an Zufälligkeit.
Ungewissheit und Anpassung in der KI-Produktentwicklung: von Prototypen bis zum Nutzerfeedback
Mike: Es erinnert mich am meisten an die Tage von Instagram, wie die Ankündigungen von Apple auf der WWDC, wo man denkt, das könnte entweder sehr gut für uns sein oder es könnte für uns disruptiv sein. Und jetzt ist es ähnlich, nur dass Ihr eigenes Unternehmen Sie intern unterbricht, was sich cool anfühlt, aber gleichzeitig fühlt es sich an, als ob die Produkt-Roadmap komplett unterbrochen wird.
Sarah: Wie sieht dieser Zyklus für Sie aus? Sie beschreiben es als "durch den Nebel schauen", um die nächste Reihe von Merkmalen zu finden. Können Sie also planen, ohne genau zu wissen, was passieren wird? Und wie sieht der iterative Zyklus für die Entdeckung neuer Funktionen und deren Integration in das Produkt aus?
Mike: Was die Intelligenz betrifft, so können Sie einen kurzen Blick darauf werfen, ob sich etwas in diese Richtung bewegt. So können Sie Produkte auf dieser Grundlage entwickeln und entsprechende Entscheidungen treffen. Insgesamt gibt es drei Möglichkeiten, dies anzugehen. Erstens. Der Fortschritt der Intelligenz ist nicht vorhersehbar, aber zumindest lässt sich ein allgemeiner Trend erkennen. Die zweite Aufgabe besteht darin, zu entscheiden, in welche Fähigkeiten aus der Produktperspektive investiert werden soll, und diese dann mit dem Forschungsteam abzustimmen, so wie bei Artifacts, wo wir viel Zeit zwischen Forschung und Produkt investieren. Es ist ein echtes Privileg, in diesem Unternehmen arbeiten zu dürfen, hier am Design beteiligt zu sein. Und dann gibt es da noch den Input an Fähigkeiten, wie den Sprachmodus von OpenAI, also die Arbeit an der Sprachverarbeitung, die wir diese Woche veröffentlicht haben. Sie sagen: "Okay, 60% jetzt, guter Fortschritt, weiter so."
Wir versuchen also, den Designer früh in den Prozess einzubeziehen, aber gleichzeitig zu wissen, dass man keine endgültige Wette eingeht, und wie die experimentelle Diskussion sagt, die Das Ergebnis eines Experiments sollte ein Lernprozess sein, nicht jedes Mal ein perfektes Produkt. Dasselbe gilt für die Zusammenarbeit mit einem Forschungsteam. Das Ergebnis sollte eine Demo oder etwas Inspirierendes sein, das Produktideen auslöst, und nicht ein vorhersehbarer Produktprozess, der Man denkt nicht: "Damit ist das Risiko beseitigt, und das heißt, wenn die Studie kommt, sollte es so sein".
Kevin: Eine weitere Sache, die mir gefällt, ist, dass einige Teile der Forschung zumindest produktorientiert sind, insbesondere in der Nachschulungsphase, wie Mike sagt. Und der andere Teil der Forschung ist eher akademisch. So haben wir manchmal auf Konferenzen von bestimmten Fähigkeiten gehört, und dann wollte man das auch unbedingt machen, und dann hat einer der Forscher im Team gesagt, dass wir das jetzt seit drei Monaten können. Und wir sind überrascht und fragen: "Wirklich? Was ist denn da los? Und sie sagen: Wir haben es nicht für wichtig gehalten, also mache ich jetzt etwas anderes. Aber manchmal gibt es wirklich magische Momente.
Sarah: Einer der Punkte, die wir bei Investitionen häufig berücksichtigen, ist die Frage, was man tun kann, wenn ein Modell bei der Ausführung einer Aufgabe eine Erfolgsquote von 60% statt 99% hat. Im Gegensatz zu vielen Aufgaben, die sich 60% nähern, ist die Aufgabe selbst immer noch sehr wichtig und wertvoll. Wie beurteilen Sie also intern den Missionsfortschritt? Und wie denken Sie darüber nach, Fehler im Produkt zu verkraften oder den Benutzern zu ermöglichen, diesen "Übergang" zu überstehen, nicht so sehr, weil wir warten müssen, bis das Modell besser wird, sondern wie Sie damit umgehen?
Kevin: Mit einer Modellkorrektheit von 60% kann man tatsächlich eine Menge machen, nur muss man speziell dafür entwerfen. Sie müssen erwarten, dass Es wird mehr manuelle Eingriffe in das System geben anstatt sich vollständig auf die Automatisierung zu verlassen. Schauen Sie sich zum Beispiel Github Copilot an. Es war das erste Produkt, das den Menschen wirklich bewusst machte, dass KI nicht nur für Fragen und Antworten, sondern für echte, wirtschaftlich wertvolle Arbeit eingesetzt werden kann. Ich weiß nicht genau, auf welchem Modell es basierte, als es veröffentlicht wurde, aber ich weiß, dass es mehrere Generationen her sein muss. Ich kann also garantieren, dass dieses Modell in Bezug auf die Codierung in keiner Weise perfekt war.
Sarah: Das würde auf GPT2 beruhen, das Modell ist ziemlich klein.
Kevin: Stimmt, aber es ist trotzdem wertvoll, denn es erspart Ihnen viel Mühe beim Schreiben von Code, und auch wenn es kein perfekter Code ist, so erledigt er doch zumindest das meiste für Sie, und Sie müssen ihn nur noch bearbeiten. Eine Erfahrung wie diese ist also durchaus realisierbar. Wir werden etwas Ähnliches sehen, vor allem bei der Umstellung auf AGENT und längere Aufgabenformate, und auch wenn es nicht perfekt ist, ist es doch wertvoll, wenn man damit 5 bis 10 Minuten Zeit spart. Mehr noch: Wenn das Modell versteht, was es nicht weiß, und sich an Sie wendet, um Sie zu fragen: Ich bin mir nicht sicher, können Sie mir helfen? Dann.Die Bindung zwischen Mensch und Modell wird viel höher sein als bei 60%.
Mike: Der Prozentsatz ist wie eine Schwellenlinie für KI, und wie die Mendoza-Linie ist sie normalerweise sehr ungleichmäßig und kann in einigen Tests sehr gut und in anderen weniger gut abschneiden. Es hilft uns auch, wenn wir mit Kunden an Pilotprojekten arbeiten, vor allem, wenn wir Feedback von zwei Unternehmen am selben Tag erhalten, und manchmal sagen die Kunden: "Das löst all unsere Probleme, wir haben das drei Monate lang ausprobiert, danke!
Das heißt aber nicht, dass es besser ist als andere Modelle. Es gibt auch Situationen, in denen es schlechter ist als andere Modelle. Es ist also wichtig, das zu verstehen. Man kann eine Menge interner Evaluierungen durchführen, aber wenn man das Modell dann tatsächlich in realen Anwendungen einsetzt, wird man feststellen, dass man, wie bei einem Design, zunächst denkt, es sei perfekt, aber wenn man es dem Benutzer vorsetzt, wird man feststellen, dass es sich als falsch herausstellt.Modelle fühlen sich ähnlich an, wir versuchen unser Bestes, um vernünftige Urteile zu fällen, aber jeder Kunde hat seinen eigenen maßgeschneiderten Datensatz, seine eigenen internen Bedürfnisse, und sie veranlassen das Modell in irgendeiner Weise. Wenn das Modell dann tatsächlich in die Welt gesetzt wird, zeigt es sich fast wie ein Doppelschlag, der ein anderes Ergebnis liefert.
Kevin: Ich bin neugierig, ob Sie das auch so sehen. Models sind heutzutage nicht durch ihre Intelligenz beschränkt, sondern durch ihre Einschätzung. Modelle sind in der Tat in der Lage, mehr zu tun und in einem breiteren Spektrum von Bereichen genauer zu sein, aber die derzeitige Leistung ist weit davon entfernt, ihr volles Potenzial auszuschöpfen. Der Schlüssel ist, wie man ihnen die Intelligenz beibringt, die man braucht, um etwas über ein bestimmtes Thema zu lernen, die Diese gehören zwar nicht zu ihrem ursprünglichen Trainingsset, aber sie sind dazu in der Lage, wenn Sie sie unterrichten.
Mike: Ja, das sehen wir immer wieder. Vor ein paar Jahren gab es eine Menge aufregender KI-Apps, als sich alle nur darauf konzentrierten, coole KI-Funktionen auf den Markt zu bringen und überhaupt keine Bewertung vornahmen. Jetzt denkt jeder, dass das neue Modell besser sein sollte, aber wir haben keine Evaluierung durchgeführt, weil wir es einfach nur eilig hatten, KI-Funktionen zu veröffentlichen. Am schwierigsten war es, den Leuten klarzumachen, dass wir innehalten und darüber nachdenken müssen, was Erfolg wirklich bedeutet. Welches Problem löst man eigentlich? Oft wechselt der Produktmanager, und der neue Produktmanager übernimmt und beginnt zu fragen: Wie sieht Erfolg aus? Lassen Sie uns ein paar Bewertungen schreiben.
Wir haben festgestellt, dass Claude sehr gut darin ist, Bewertungen zu schreiben und sie zu bewerten. Wir können also einen großen Teil dieses Prozesses für Sie automatisieren, aber nur, wenn Sie uns sagen, was Erfolg ist, bevor Sie tatsächlich schrittweise Verbesserungen vornehmen können. Dieser Prozess ist oft der Schlüssel, um eine Mission von 60% auf 85% zu bringen. Wenn Sie eines Tages zu einem Vorstellungsgespräch zu Anthropic kommen, werden Sie vielleicht einen Teil unseres Vorstellungsgesprächs sehen, in dem Sie aufgefordert werden, eine schlechte Beurteilung in eine gute zu verbessern. Wir wollen sehen, wie Sie denken, und auch wenn dieses Talent vielleicht anderswo nicht vorhanden ist, arbeiten wir hart daran, diese Fähigkeiten zu entwickeln. Wenn wir jemandem eine Sache beibringen können, dann ist es dies.
Kevin: Dies ist wirklich ein wichtiger Punkt. Das Schreiben von E-Mails, um rechtzeitig zu kommunizieren, wird eine der Kernkompetenzen künftiger Produktmanager sein.
Mike: Wir haben das intern besprochen, und vielleicht ist das ein bisschen ein Geheimtipp, aber es ist interessant. Wir haben Produktmanager für die Forschung, die sich auf Modellfunktionen und Modellentwicklung spezialisieren, und Produktmanager, die eher für Produktschnittstellen oder APIs zuständig sind. Dann haben wir festgestellt, dass die Rolle des Produktmanagers, der 2024 und 2025 KI-gesteuerte Funktionen entwickelt, immer mehr dem Ersteren und immer weniger dem Letzteren ähnelt. Wir haben zum Beispiel eine Funktion zur Codeanalyse eingeführt, mit der Claude CSVs analysieren und Code für Sie schreiben kann. Dieser Produktmanager ist dafür verantwortlich, dass der Code 80% gut ist, und übergibt ihn dann an den Produktmanager, der die Auswertung schreiben und die Feinabstimmung und Eingabeaufforderung vornehmen kann. Diese Rolle ist im Grunde dieselbe, und die Qualität der Funktion hängt nun von der Arbeit ab, die Sie an den Bewertungen und Hinweisen leisten. Die beiden Rollen des Produktmanagers verschmelzen also allmählich.
Kevin: Ja, das ist richtig. Wir haben ein Bootcamp eingerichtet, in dem jeder Produktmanager durch das Schreiben von E-Mails den Unterschied zwischen guten und schlechten Bewertungen lernte. Wir sind zwar noch nicht fertig mit diesem Prozess und müssen weiter iterieren und verbessern, aber er ist wirklich ein wichtiger Bestandteil der Entwicklung großartiger KI-Produkte.
Sarah: Als Teil dieser Einstellung können wir, die wir in Zukunft gut in der Entwicklung von KI-Produkten oder in der Produktforschung sein wollen, nicht an Ihrem Bootcamp teilnehmen, Kevin. Wie können wir also die Intuition entwickeln, um gut in der Bewertung und Iteration des Zyklus zu werden?
Kevin: Dazu können Sie das Modell selbst verwenden. Wenn Sie das Modell zum Beispiel direkt fragen: "Welche Art von Bewertung ist gut" oder "Nennen Sie mir einige Bewertungsbeispiele", wird das Modell eine gute Antwort geben.
Mike: Das ist sehr wichtig, und wenn man Leuten wie Andrea Karpati und anderen zuhört, die viel Zeit in diesem Bereich verbracht haben, werden sie alle sagen, dass es nichts Besseres gibt, als sich die Daten anzusehen. Oft geraten die Leute in das Dilemma, dass wir ein Bewertungsinstrument haben, das neue Modell wird von dem Bewertungsinstrument als 80% ausgezeichnet bewertet, aber wir haben Angst, das neue Modell zu veröffentlichen, weil wir denken, dass es nicht perfekt ist. Wenn wir aber einige frühere Fälle heranziehen, werden wir feststellen, dass das Modell gut genug ist, nur dass die Bewertungsinstrumente nicht standardisiert genug sind.
Es ist sogar interessant, dass es für jede Modellveröffentlichung eine Modellkarte gibt, und es gibt einige Bewertungen, bei denen wir sogar die goldene Antwort sehen, und ich bin mir nicht sicher, ob ein Mensch das sagen würde, oder ob diese Mathefrage tatsächlich ein bisschen falsch ist. Die 100%-Perfektion zu erreichen ist sehr schwierig, denn schon die Bewertung selbst ist sehr anspruchsvoll. Daher würde ich vorschlagen, dass Sie Ihre Intuition entwickeln, indem Sie sich die tatsächlichen Antworten ansehen oder sogar Stichproben machen, um zu sehen, "vielleicht sollten wir die Bewertungsmethodik weiterentwickeln, oder vielleicht ist die allgemeine Stimmung gut, auch wenn die Bewertungsergebnisse hart sind."Deshalb ist es so wichtig, sich mit den Daten zu befassen und sie wirklich anzufassen.
Kevin: Ich denke auch, dass es interessant sein wird, zu sehen, wie sich dieser Prozess entwickelt, wenn wir uns zu längeren Aufgaben oder agentenbasierten Aufgaben bewegen. Denn bei einer Aufgabe wie "Ich gebe dir diese Matheaufgabe, und du kannst vier Ziffern addieren und erhältst die richtige Antwort", weiß man, was gut ist, und es ist sehr einfach zu beurteilen. Wenn das Modell anfängt, komplexere Aufgaben zu lösen, wie z. B. die Suche nach einem Hotel in New York City, weiß man, was richtig ist, aber das erfordert oft eine Personalisierung. Wenn Sie zwei absolut fähige Menschen fragen, treffen sie vielleicht eine völlig andere Entscheidung. Sie werden also auf einer sehr viel lockereren Basis beurteilt werden. Das wird ein interessanter Prozess für uns sein. Wir werden uns weiterentwickeln und die Bewertungskriterien neu definieren müssen, so wie wir auch ständig Dinge neu erfinden.
Mike: Wenn man darüber nachdenkt, gibt es auf beiden Seiten des Labors eine gewisse Vorstellung davon, "wie es aussieht, wenn man seine Kapazitäten nach und nach ausbaut". Es sieht ein bisschen aus wie eine Karriereleiter, auf der man sich mit größeren, längerfristigen Aufgaben beschäftigt. Vielleicht werden die Beurteilungen mehr und mehr wie Leistungsbeurteilungen aussehen. Ich befinde mich gerade in der Zeit der Leistungsbeurteilung, daher habe ich diese Metapher im Hinterkopf. Entspricht das Modell Ihren Erwartungen an die Leistung einer kompetenten Person? Hat es die Erwartungen übertroffen? War es schneller oder hat es ein Restaurant entdeckt, von dem Sie nicht wussten, dass es existiert? In diesem Fall ist es komplexer und subtiler als die üblichen Kriterien von richtig und falsch.
Kevin: Ganz zu schweigen von der Tatsache, dass diese Beurteilungen immer noch von Menschen geschrieben werden und die Modelle bei bestimmten Aufgaben an die menschliche Leistung heranreichen oder sie sogar übertreffen. Manchmal werden die Antworten des Modells sogar den Antworten des Menschen vorgezogen. Was bedeutet das also, wenn Sie Ihre Beurteilungen von Menschen schreiben lassen?
Sarah: Beurteilungen sind natürlich der Schlüssel. Wir werden viel Zeit mit diesen Modellen verbringen und uns beibringen, wie man Bewertungen schreibt. Welche Fähigkeiten sollte ein Produktmanager also erlernen? Im Moment befinden Sie sich beide auf diesem Lernpfad.
Mike: Das Prototyping mit diesen Modellen ist eine unterschätzte Fähigkeit. Unsere besten Produktmanager machen das, und wenn wir darüber diskutieren, ob die Benutzeroberfläche so oder so aussehen soll, sagen unser Produktmanager oder manchmal auch unsere Ingenieure, bevor der Designer überhaupt ein Figma in die Hand nimmt: "OK, ich habe einen A/B-Test mit Claude gemacht, um zu sehen, wie jede dieser beiden Benutzeroberflächen aussehen würde. " Und das finde ich einfach cool, denn so können wir in kürzerer Zeit mehr Optionen prototypisieren und sie schneller bewerten. Die Fähigkeit, mit diesen Tools Prototypen zu erstellen, ist also sehr nützlich.
Kevin: Das ist ein hervorragender Punkt. Ich stimme Ihnen auch zu, dass dies die Produktmanager dazu zwingen wird, tiefer in den Technologie-Stack einzutauchen, und vielleicht wird sich diese Anforderung im Laufe der Zeit ändern. Wenn Sie sich beispielsweise 2005 mit Datenbanktechnologie befasst haben, mussten Sie vielleicht auf ganz andere Weise in die Tiefe gehen, wohingegen die Beherrschung aller Grundlagen heute nicht mehr erforderlich ist, weil es so viele Abstraktionsebenen gibt, die eingebaut worden sind. Das soll nicht heißen, dass jeder Produktmanager ein Forscher sein muss; ein Verständnis für diese Technologien zu haben, sich die Zeit zu nehmen, ihre Sprache zu lernen, und ein Gespür dafür zu entwickeln, wie diese Dinge funktionieren, ist für Produktmanager von großem Vorteil.
Mike: Der andere Aspekt ist, dass man es mit einem stochastischen, nicht-deterministischen System zu tun hat, und wie bei der E-Mail versuchen wir unser Bestes, aber beim Produktdesign in einer Welt, in der man die Ergebnisse seiner Modelle nicht kontrollieren kann, kann man nur sein Bestes tun. Welche Art von Feedback-Mechanismen braucht man also, um den Kreislauf zu schließen? Wie entscheiden Sie, wann das Modell nicht auf dem richtigen Weg ist? Wie sammeln Sie schnell Feedback? Welche Sicherheitsvorkehrungen wollen Sie treffen? Woher wissen Sie, wie sich das Modell bei großen Outputs verhalten wird? Diese Fragen setzen voraus, dass wir den Output des Modells verstehen, und zwar nicht nur für einen einzelnen Nutzer, sondern in großem Maßstab für eine große Zahl von Nutzern pro Tag.Dies erfordert eine ganz andere Denkweise: Früher konnte eine Fehlermeldung darin bestehen, dass eine Benutzeraktion nicht ausgeführt wurde, wenn eine Schaltfläche angeklickt wurde, und diese Art von Problem war leichter zu erkennen und zu lösen.
Kevin: Vielleicht wird sich das in fünf Jahren ändern, wenn sich die Menschen an alles gewöhnt haben. Aber wir sind immer noch in der Phase, in der wir uns an diese nicht-deterministische Benutzeroberfläche gewöhnen, insbesondere für Menschen, die keine Techniker sind und die es nicht gewohnt sind, technische Produkte zu benutzen. Diese Situation widerspricht völlig unserer Intuition aus den letzten 25 Jahren der Nutzung von Computern, die bei gleichen Eingaben immer das gleiche Ergebnis ausgaben, aber das stimmt nicht mehr. Und nicht nur, dass wir uns bei der Entwicklung unserer Produkte auf diesen Wandel einstellen müssen, wir müssen uns auch in die Lage der Nutzer versetzen, die unsere Produkte verwenden und was das für sie bedeutet. Das bringt einige Nachteile mit sich, aber auch einige wirklich tolle Vorteile. Es ist also wirklich interessant, darüber nachzudenken, wie wir dies auf verschiedene Weise zu unserem Vorteil nutzen können.
Mike: Ich erinnere mich, dass wir bei Instagram eine Menge rollierender Nutzerforschung betrieben haben. Die Forscher brachten jede Woche andere Leute mit und testeten jedes Mal Prototypen, und wir haben bei Anthropic etwas Ähnliches gemacht. Aber interessanterweise ist das, was mich bei diesen Sitzungen oft überrascht, die Art und Weise, wie die Nutzer Instagram nutzen. Es ist immer interessant zu sehen, wie die Nutzer auf neue Funktionen oder ihre Anwendungsfälle reagieren. Und nun geht es bei dieser Forschung zur Hälfte darum, wie die Nutzer reagieren, und zur anderen Hälfte darum, wie sich das Modell in diesem Kontext verhält. Und Sie werden sehen, dass das sehr gut gelungen ist.
Es erfüllt einen also mit Stolz, wenn das Modell in einer Benutzerforschungsumgebung gut reagiert. Es ist aber auch frustrierend, wenn das Modell die Absicht falsch versteht und man feststellt, dass es auf Seite 10 der Antwort steht. In gewisser Weise muss man also lernen, mit der Ungewissheit in dieser Umgebung gelassen umzugehen, das Gefühl der Kontrolle loszulassen und zu akzeptieren, was passieren wird.
Rasche Anpassung und Aufklärung über KI-Technologien: von Verbrauchern zu geschäftlichen Nutzern
Sarah: Sie waren beide an der Entwicklung dieser Verbrauchererfahrungen beteiligt und haben in kurzer Zeit Hunderten von Millionen von Menschen neue Verhaltensweisen beigebracht. Wie denken Sie über die Ausbildung der Endnutzer, jetzt, wo diese KI-Produkte noch allgegenwärtiger werden als damals, und wenn die Produktmanager und Techniker selbst nicht viel Intuition für die Nutzung dieser Technologien haben? Das Ausmaß, mit dem Sie es zu tun haben, ist so gewaltig und diese Technologien sind so kontraintuitiv.
Kevin: Es ist erstaunlich, wie schnell wir uns anpassen. Ich habe neulich mit jemandem über seine Erfahrungen bei seiner ersten Fahrt in einem Waymo (fahrerloses Auto) gesprochen. Wer ist schon in einem Waymo-Auto gefahren? Wenn Sie noch nicht in einem Waymo gefahren sind, sollten Sie, wenn Sie hier wegfahren, in San Francisco einen Waymo nehmen und dorthin fahren, wohin Sie wollen. Es ist eine erstaunliche Erfahrung. Aber sie sagen, dass ich in den ersten 30 Sekunden denke: "Oh mein Gott, pass auf den Radfahrer auf", und dann fünf Minuten später denke ich: "Oh mein Gott, ich lebe in der Zukunft." Aber dann, zehn Minuten später, ist mir langweilig und ich bin an meinem Mobiltelefon.
Wie schnell haben wir uns an diese absolute Magie gewöhnt. Dieses Phänomen tritt auch bei ChatGPT auf, das vor weniger als zwei Jahren herauskam und damals ein echter Schocker war. Wenn wir jetzt zurückgehen und die ursprüngliche GPT-Version 3.5 verwenden, wird sich jeder schrecklich fühlen.
Sarah: Alle werden sagen, das sei dumm.
Kevin: Wie hätten wir vorher denken können, dass das, was wir heute tun, und das, was Sie tun, sich wie Magie anfühlt. In 12 Monaten werden wir nicht glauben, dass wir jemals irgendetwas davon benutzt haben, weil sich das Feld einfach so schnell weiterentwickelt. Was mich noch mehr erstaunt, ist, wie schnell sich die Leute anpassen, denn trotz unserer Bemühungen, die Leute zu drängen, Schritt zu halten, ist die Aufregung groß.Die Menschen verstehen, dass sich die Welt in diese Richtung bewegt, und wir müssen tun, was wir können, damit sie sich in die bestmögliche Richtung bewegt. Es passiert, und es geht sehr schnell.
Mike: Eines der Dinge, die wir derzeit zu verbessern versuchen, ist, das Produkt buchstäblich zu einem pädagogischen Werkzeug zu machen, was wir anfangs nicht getan haben, und die Richtung, die wir jetzt einschlagen, ist, dass Claude mehr über sich selbst lernt. Früher haben wir nur gesagt, dass es sich um KI handelt, die von Anthropic entwickelt wurde, was das Trainingsset enthält usw., aber jetzt sagen wir buchstäblich: "Hier ist, wie man diese Funktion benutzt." Denn Nutzerstudien haben gezeigt, dass die Leute fragen: "Wie benutze ich das?" Und dann antwortet Claude vielleicht: "Ich weiß es nicht, haben Sie versucht, es online nachzuschlagen?" Man könnte meinen, dass diese Antwort überhaupt nicht weiterhilft.
Jetzt versuchen wir also, sie in realen Anwendungen zu verankern. Was wir jetzt tun können, ist: "Hier ist der Link zur Dokumentation, und hier sind die Schritte. Ich kann Ihnen helfen." Diese Modelle sind tatsächlich sehr effektiv bei der Lösung von UI-Problemen und der Verwirrung der Benutzer, und wir sollten sie verstärkt zur Lösung dieser Probleme einsetzen.
Sarah: Die Dinge müssen anders sein, wenn es um das Veränderungsmanagement in einer Organisation geht, nicht wahr? Denn damals gab es bereits bestehende Vorgehensweisen und organisatorische Abläufe. Wie kann man also die gesamte Organisation schulen und ihr helfen, die Produktivität zu verbessern oder andere Veränderungen vorzunehmen, die sich ergeben könnten?
Mike: Die Unternehmensseite ist wirklich interessant, weil diese Produkte zwar Millionen von Nutzern haben, die meisten Kernnutzer aber immer noch Early Adopters und technikbegeisterte Menschen sind, und dann gibt es einen langen Schwanz von Nutzern. Und wenn man in das Unternehmen kommt, wird das Produkt in einer Organisation eingesetzt, und da gibt es normalerweise einige Leute, die nicht sehr technikaffin sind. Es ist toll zu sehen, wie einige dieser nicht-technischen Benutzer zum ersten Mal mit dem chatgesteuerten LLM in Berührung kommen und wie sie darauf reagieren. Sie haben also die Möglichkeit, einige Schulungen durchzuführen, ihnen die Nutzung beizubringen und Lehrmaterial bereitzustellen. Wir müssen aus diesen Praktiken lernen und dann zu dem Schluss kommen, wie wir die nächsten 100 Millionen Menschen in der Nutzung dieser Technologien unterrichten können.
Kevin: Diese Benutzeroberflächen haben in der Regel einige Hauptnutzer, die begeistert sind, anderen ihre Verwendung beizubringen. OpenAI hat zum Beispiel benutzerdefinierte GPTs und Organisationen erstellen in der Regel Tausende davon. Dies bietet Kernnutzern die Möglichkeit, etwas zu schaffen, das KI einfacher und für Menschen, die nicht wissen, wie man sie nutzt, unmittelbar wertvoller macht. Das ist ein cooler Ort, an dem Sie einige Hauptnutzergruppen finden können, die tatsächlich zu Evangelisten werden.
Sarah: Ich muss Sie das fragen, weil Ihre Organisation im Grunde genommen ein Kernnutzer ist, Sie leben also in Ihrer eigenen kleinen Welt der Zukunft. Ich habe eine Frage, aber Sie können mich gerne weiterleiten, wenn Sie sie nicht beantworten wollen.Mike, was tue ich mit einem Computer? Was macht ihr alle?
Mike: Aus interner Sicht gab es, wie Kevin bereits erwähnte, eine Zeit, in der wir sehr zuversichtlich waren, dass das Produkt gut genug war, auch wenn es noch sehr früh war, und dass es Fehler geben würde, aber wie machen wir es so gut, wie es sein kann?
Einer der interessantesten Anwendungsfälle war, als wir einen Test durchführten und jemand ausprobieren wollte, ob die KI eine Pizza für uns bestellen könnte. Am Ende hat sie sie tatsächlich bestellt und alles lief reibungslos und die Pizza wurde ins Büro geliefert. Das war ein cooler Moment, ein ikonischer Moment sozusagen, auch wenn es Domino's war (keine besonders hochwertige Pizza), aber im Großen und Ganzen hat es die KI geschafft. Solche Momente sind in der Tat sehr interessant. Natürlich war die Pizza ein bisschen zu viel bestellt, und ich war wahrscheinlich hungrig, um sie zu probieren.
Jetzt sehen wir einige wirklich interessante frühe Anwendungsfälle, und einer davon sind UI-Tests. Bei Instagram hatten wir so gut wie keine UI-Tests, weil sie schwer zu schreiben und anfällig waren und oft fehlschlugen, weil sich z. B. die Position von Schaltflächen änderte, so dass man vieles neu schreiben musste. Heute sind Computer sehr effektiv bei der Durchführung von UI-Tests, d. h. bei der Frage, ob die Anwendung das tut, was man von ihr erwartet. Das ist sehr interessant.
Eine weitere Richtung, in die wir uns zu bewegen beginnen, sind die intelligenten Agentenanwendungen, die eine Menge Datenverarbeitung erfordern. In unseren Support- und Finanzteams zum Beispiel waren viele der PR-Formulare ursprünglich sehr mühsam und repetitiv und erforderten viel manuelle Zeit, um Daten aus einer Datenquelle zu ziehen und sie in eine andere einzugeben. Wann immer ich über den Einsatz von Computern spreche, verwende ich den Begriff "Schwerstarbeit". Wir wollen diese mühsamen Aufgaben automatisieren, damit die Mitarbeiter sich auf kreativere Dinge konzentrieren können, anstatt bei jedem Vorgang 30 Mal zu klicken.
Sarah: Kevin, wir haben eine Reihe von Teams, die mit dem GPT o1-Modell experimentieren. Offensichtlich kann es komplexere Dinge tun. Aber wenn Sie bereits ein Modell wie GPT-4 in Ihrer Anwendung verwenden, können Sie es nicht einfach als Eins-zu-Eins-Ersatz verwenden. Können Sie uns diesbezüglich einige Hinweise geben? Wie verwenden Sie es intern?
Kevin: Was viele wahrscheinlich nicht wissen, ist, dass einige unserer fortschrittlichsten Kunden und auch wir intern nicht wirklich ein Modell für etwas verwenden.Am Ende kombiniert man Modelle, um Arbeitsabläufe und Koordinationsmechanismen zu bilden. Das Modell GPT o1 ist sehr gut in der Argumentation, aber es braucht auch einige Zeit, um darüber nachzudenken, und es ist nicht multimodal und hat natürlich einige andere Einschränkungen.
Sarah: Mir ist klar, dass Vernunft ein grundlegendes Problem für diese Gruppe ist.
Kevin: Ja, Sie sollten mit dem Konzept des "erweiterten Vortrainings" vertraut sein. Sie beginnen mit Versionen von GPT2, 3, 4, 5 usw. und führen ein immer größeres Pre-Training durch. Die Modelle werden "schlauer" - oder besser gesagt, sie wissen mehr und mehr, aber sie denken eher wie System 1, bei dem man eine Frage stellt und es einem sofort die Antwort gibt, wie bei der Textvervollständigung.
Sarah: Ja, wenn ich Ihnen jetzt Fragen stelle, werden Sie die Ergebnisse nacheinander ausgeben und weitermachen.
Kevin: Meinen Sie nicht, dass die menschliche Intuition über die Arbeitsweise anderer Menschen Ihnen oft helfen kann, zu erahnen, wie viele Modelle funktionieren? Wenn Sie mir eine Frage stellen, kann es sein, dass ich vom Thema abschweife und einen falschen Satz sage, und dann ist es schwer, sich wieder zu fangen. Das kann bei Modellen durchaus passieren. Sie haben also diese Art von wachsendem Pre-Training. gpt o1-Modelle sind eigentlich eine andere Art, die Intelligenz zu erweitern, und das geschieht zur Abfragezeit. Im Gegensatz zu System 1, das denkt: "Stell mir eine Frage und ich gebe dir sofort die Antwort", macht es eine Pause, wie wenn ich dir eine Frage stelle.
Wenn ich Sie bitten würde, ein Sudoku zu lösen und ein Punktespiel der New York Times zu machen, würden Sie darüber nachdenken, wie diese Wörter gruppiert sind, und diese vier könnten richtig sein oder auch nicht, sie könnten diese sein ...... Man bildet Hypothesen auf der Grundlage dessen, was man bereits weiß, und dann, indem man diese Hypothesen falsifiziert oder bestätigt, denkt man weiter. Das ist genau die Art und Weise, wie wissenschaftliche Durchbrüche entstehen und wie wir schwierige Fragen beantworten, und genau das lehren Modelle, was zu tun ist. Im Moment denken sie 30 bis 60 Sekunden lang nach und antworten dann. Stellen Sie sich vor, was passieren würde, wenn sie fünf Stunden oder sogar fünf Tage lang nachdenken könnten.
Es handelt sich also um eine ganz neue Art, die Intelligenz zu erweitern, und wir haben das Gefühl, dass wir gerade erst anfangen. Wir befinden uns jetzt in der GPT1-Phase dieser neuen Art der Argumentation. Aber wie immer werden Modelle nicht für alles verwendet, richtig? Manchmal, wenn Sie mir eine Frage stellen, wollen Sie nicht, dass ich 60 Sekunden mit der Antwort warte, sondern dass ich sie sofort gebe. Also verwenden wir unsere Modelle auf viele verschiedene Arten.
Die Cybersicherheit ist zum Beispiel ein Bereich, in dem man die Modelle für nicht anwendbar hält. Sie erzeugen vielleicht Halluzinationen, was ein ungeeigneter Bereich für Halluzinationen zu sein scheint, aber man kann die Modelle so abstimmen, dass sie für bestimmte Aufgaben geeignet sind. Dann kann man die Modelle so abstimmen, dass sie sehr präzise sind, was die Art der Eingaben und Ausgaben angeht, und dann können diese Modelle anfangen, zusammenzuarbeiten. Die Modelle überprüfen die Ergebnisse anderer Modelle, stellen fest, dass etwas nicht stimmt, und fordern sie auf, es erneut zu versuchen.Letztendlich geht es also darum, wie wir einen großen Nutzen aus den Modellen ziehen, indem wir sie gemeinsam betreiben und bei bestimmten Aufgaben zusammenarbeiten. So wie Menschen komplexe Aufgaben erledigen, haben wir normalerweise Menschen mit unterschiedlichen Fähigkeiten, die zusammenarbeiten, um eine schwierige Aufgabe zu bewältigen.
Die Zukunft der KI antizipieren: Proaktivität, asynchrone Interaktionen und personalisierte Erfahrungen
Sarah: Ihr müsst uns etwas über die Zukunft und das, was kommt, erzählen. Ihr müsst kein Veröffentlichungsdatum nennen, ich verstehe, dass ihr es nicht wisst, aber wenn ihr weit in die Zukunft blickt, ist das KI-Feld im Moment wahrscheinlich am weitesten entfernt: ...... Wenn ihr in die Zukunft sehen könnt, lasst es mich wissen. Aber sagen wir, es sind sechs oder 12 Monate, wie stellen Sie sich eine Erfahrung vor, welche Art von Erfahrung wird möglich oder alltäglich werden?
Mike: Ich denke die ganze Zeit darüber nach, und es gibt zwei Worte, die wahrscheinlich bei jedem die Saat in den Kopf setzen. Das erste ist "Proaktivität", d. h. wie können Modelle proaktiver werden? Wenn sie Sie erst einmal kennen gelernt haben und beginnen, einige Ihrer Daten zu überwachen (vorausgesetzt, Sie erteilen ihnen die Erlaubnis dazu), könnten sie beispielsweise Ihre E-Mails auf eine Weise lesen, die nicht zu sehr stört und nützlich ist, und einige interessante Trends erkennen. Oder das Modell könnte Ihnen zu Beginn Ihres Tages unaufgefordert eine Zusammenfassung geben: was heute passiert ist und an welchen Unterhaltungen Sie möglicherweise beteiligt sind. Ich habe einige Nachforschungen für Sie angestellt, und da Ihr nächstes Treffen ansteht, möchten Sie vielleicht über Folgendes sprechen. Wie ich sehe, steht Ihnen eine Präsentation bevor, und dies ist die erste Fassung des Entwurfs, den ich für Sie vorbereitet habe. Initiativen wie diese werden in Zukunft sehr wirkungsvoll sein.
Der andere Aspekt ist, "asynchroner" zu sein. Das o1-Modell ist derzeit die anfängliche Schnittstelle für diese Erkundungsphase, obwohl es eine Menge Dinge tun kann und Ihnen sagen wird, was es tun wird, während es weitergeht. Sie können hier darauf warten, aber Sie können auch wählen: "Es wird eine Weile darüber nachdenken, ich werde etwas anderes tun und vielleicht später darauf zurückkommen, oder es wird mir sagen, wenn es fertig ist". Das ist wie eine Erweiterung der Zeitdimension, es ist nicht nur so, dass Sie ihm keine Frage gestellt haben, es sagt Ihnen aktiv etwas, was interessant wäre. Und wenn Sie eine Frage stellen, könnte es auch sagen: "Okay, ich werde darüber nachdenken, ein paar Nachforschungen anstellen, vielleicht muss ich einer anderen Person ein paar Fragen stellen, und dann werde ich eine erste Antwort geben, und ich werde diese Antwort noch einmal überprüfen, und Sie werden in einer Stunde von mir zurück hören."
Der Zwang, sofort eine Antwort zu erhalten, wird aufgehoben. Damit können Sie viele Dinge tun, wie z. B. "Ich habe einen ganzen kleinen Projektplan, um ihn zu erweitern" oder "Ich möchte nicht nur, dass Sie eine Stelle auf dem Bildschirm ändern, sondern ich möchte diesen Fehler beheben, z. B. die PRD für mich für eine neue Marktbedingung optimieren oder Anpassungen auf der Grundlage dieser drei neuen Marktbedingungen Anpassungen vorzunehmen".Die Möglichkeit, Veränderungen in diesen Bereichen voranzutreiben, ist das, was mich persönlich in Bezug auf das Produkt am meisten begeistert.
Kevin: Ja, ich stimme Ihnen in allen Punkten vollkommen zu. Modelle werden immer intelligenter werden, die Das ist ein Teil dessen, was all dies möglich macht. Es ist auch sehr spannend zu sehen, dass die Modelle in der Lage sind, wie wir Menschen zu interagieren. Derzeit interagiert man mit diesen Modellen die meiste Zeit durch Tippen, und ich kommuniziere mit vielen meiner Freunde auf WhatsApp und anderen Plattformen oft durch Tippen. Aber ich kann auch sprechen und Dinge sehen. Wir haben kürzlich ein fortschrittliches Sprachmodell eingeführt. Ich habe mich mit Leuten in Korea und Japan unterhalten, und oft war ich mit jemandem zusammen, der meine Sprache überhaupt nicht verstand. Vorher konnten wir überhaupt nicht miteinander kommunizieren. Aber jetzt sagte ich: "ChatGPT, ich möchte, dass du als Übersetzer fungierst, und wenn ich auf Englisch spreche, übersetze es bitte ins Koreanische; und wenn du Koreanisch hörst, sag es mir bitte auf Englisch." Plötzlich hatte ich einen universellen Übersetzer für geschäftliche Unterhaltungen untereinander. Es fühlte sich wie Magie an.
Stellen Sie sich vor, was diese Technologie bewirken könnte, nicht nur in geschäftlichen Situationen, sondern stellen Sie sich vor, wie viel mehr Menschen bereit wären, an neue Orte zu reisen, wenn man sich keine Sorgen mehr darüber machen müsste, dass man nicht dieselbe Sprache spricht, und man einen Universalübersetzer wie den in Star Trek Universal direkt in der Tasche hätte. Solche Erfahrungen werden in Zukunft alltäglich werden, aber es ist immer noch magisch, und ich bin sehr gespannt auf diese Technologie in Verbindung mit all dem, was Mike gerade gesagt hat.
Sarah: Eine meiner Lieblingsbeschäftigungen ist derzeit das Anschauen von TikTok-Videos, d. h. Videos von jungen Menschen, die mit Sprachmodi sprechen, ihr Herz ausschütten und dabei alle möglichen Methoden anwenden, und ich fühle mich einfach großartig, wenn ich sie ansehe, und es erinnert mich an einen alten Begriff namens "digital natives" oder "mobile natives". Es erinnert mich an den alten Begriff "digital natives" oder "mobile natives". Ich bin selbst ein großer Anhänger der KI, aber ich hätte nie gedacht, dass ich einmal auf diese Weise interagieren würde. Aber 14-Jährige werden denken, dass ich das mit KI machen kann.
Kevin: Haben Sie dies jemals bei Ihren Kindern verwendet?
Sarah: Das habe ich noch nicht, meine Kinder sind jetzt 5 und 7.
Kevin: Wir werden es aber auf jeden Fall ausprobieren. Meine Kinder sind 8 und 10 und fragen während der Fahrt oft: "Kann ich mit ChatGPT sprechen?" Dann stellen sie die seltsamsten Fragen und führen verrückte Gespräche mit der KI, aber es macht ihnen überhaupt nichts aus, mit der KI zu sprechen.
Sarah: Eine meiner Lieblingserfahrungen ist, und vielleicht können wir hier mit der Frage enden, welches das erstaunlichste Verhalten ist, das Sie in letzter Zeit beobachtet haben (sei es von einem Kind oder jemand anderem), dass ich Glück habe, wenn meine Eltern mir vorlesen. Es ist toll, wenn ich mir die Bücher aussuchen darf, sonst sagt mein Vater: "Wir lesen jetzt diese Physikstudie, die mich interessiert." Meine Kinder, ich weiß nicht, ob das die Art der Erziehung in der Bay Area ist, aber meine Kinder würden sagen: "Okay, Mama, mach das richtige Bild. Ich möchte eine Geschichte über einen Drachen und ein Einhorn erzählen, und in diesem Zusammenhang erzähle ich dir, wie es dazu kommt." Und dann würde diese Geschichte in Echtzeit entstehen. Ich denke, das ist eine große Herausforderung, und ich bin froh, dass sie daran glauben und wissen, dass es möglich ist, aber es ist wirklich verrückt, seine eigenen Unterhaltungsinhalte auf diese Weise zu erstellen. Was ist das überraschendste Verhalten, das Sie in letzter Zeit bei Ihren Produkten beobachtet haben?
Mike: Es ist ein Verhalten und eine Beziehung. Die Menschen beginnen wirklich, die Nuancen von Claude oder dem neuen Modell, das gerade beschrieben wurde, zu verstehen. Sie verstehen die Nuancen. Die Verhaltensweisen sind fast so, als würde man sich mit ihnen anfreunden oder ein gegenseitiges Einfühlungsvermögen in das Geschehen entwickeln. Und dann dachte ich: "Das neue Modell wirkt intelligenter, aber vielleicht auch ein wenig distanziert." Es ist diese Nuance. Als Produkt habe ich dadurch mehr Verständnis für die Denkweise der Menschen entwickelt, die unsere Produkte benutzen. Man bringt nicht nur ein Produkt auf den Markt, sondern auch Weisheit und Einfühlungsvermögen, und das ist es, was Beziehungen ausmacht. Wenn jemand zu uns kommt und sagt: "Ich habe aufgerüstet und meine Mathematiknote um 2% verbessert", aber ich bin in mancher Hinsicht anders geworden, dann sollte man meinen, dass ich mich ein bisschen anpassen muss und mir wahrscheinlich ein bisschen Sorgen mache. Es war eine interessante Reise für mich, die Denkweise der Menschen zu verstehen, wenn sie unsere Produkte nutzen.
Kevin: Ja. Das Verhalten des Modells ist definitiv Teil der Produktpersona. Die Persönlichkeit des Modells ist entscheidend, und es gibt einige interessante Themen, die wie sehr sie angepasst werden sollte. Oder sollte OpenAI eine einheitliche Persönlichkeit haben und Claude seine eigene, einzigartige Persönlichkeit, benutzen Menschen ein Modell, weil sie eine bestimmte Persönlichkeit mögen? Das ist eigentlich ein sehr menschliches Phänomen, wir freunden uns mit verschiedenen Menschen an, weil wir verschiedene Menschen bevorzugen. Das ist ein interessantes Thema, über das man nachdenken kann. Wir haben kürzlich etwas gemacht, das sich auf Twitter schnell verbreitete. Die Leute fragten das Modell: "Wie würdest du mich beschreiben, basierend auf dem, was du über mich weißt, basierend auf all unseren früheren Interaktionen?" Und dann hat das Modell geantwortet und eine Beschreibung gegeben, die es auf der Grundlage aller bisherigen Interaktionen für richtig hielt. Es ist, als würde man mit dem Modell interagieren, fast so, als wäre es eine Person oder ein Wesen. Es ist sehr interessant zu sehen, wie die Menschen darauf reagieren.