Wie man es richtig macht o1: Schreiben Sie keine Aufforderungen, sondern Kurzbeschreibungen, konzentrieren Sie sich auf die Ziele: Beschreiben Sie, was Sie erreichen wollennichtsNicht das, was Sie wollen.auf welche WeiseHolen Sie es sich und seien Sie sich der Vor- und Nachteile von o1 bewusst!
Seit der Veröffentlichung des o1 im Oktober und der Ankündigung des o1 pro/o3 im Dezember haben viele Menschen damit zu kämpfen, ihre Wahrnehmungen, sowohl positive als auch negative, einzuordnen. Auf dem Tiefpunkt der o1 Pro-Stimmung haben wir eine sehr positive Haltung eingenommen und dargelegt, was es braucht, damit OpenAI ein Proxy-Produkt im Wert von 2.000 Dollar pro Monat auf den Markt bringen kann (Gerüchten zufolge soll dies in den nächsten Wochen geschehen). Seitdem ist o1 fest auf Platz 1 aller LMArena-Charts.
Seitdem hat er Dawn Analytics ins Leben gerufen und postet weiterhin ungefilterte Gedanken über o1 - anfangs als lautstarker Skeptiker und langsam als alltäglicher Nutzer. Wir lieben die verschiedenen Bedeutungen von Menschen, die ihre Meinung ändern, und denken, dass derselbe Dialog überall auf der Welt stattfindet, während die Menschen darum kämpfen, vom Chat-Modus in die neue Welt des Denkens und der Hunderte von Dollar pro Monat für professionelle KI-Produkte, jetzt GA))), überzugehen. Hier sind unsere Gedanken.
Wie kam es dazu, dass ich o1 nicht mehr hasse, sondern es täglich benutze, um meine wichtigsten Probleme zu lösen?
Ich habe gelernt, wie man es benutzt.
Als das o1 pro herauskam, habe ich nicht gezögert, es zu abonnieren.Um den Preis von 200 Dollar pro Monat zu rechtfertigen, müssen nur 1-2 Ingenieursstunden pro Monat geleistet werden.
Aber am Ende des Tages, an dem ich versuchte, das Modell zum Laufen zu bringen, kam ich zu dem Schluss, dassDas ist Blödsinn..
Jedes Mal, wenn ich eine Frage stelle, muss ich 5 Minuten warten und werde mit einer Menge widersprüchlichem Kauderwelsch mit unaufgeforderten Architekturdiagrammen + einer Liste von Vor- und Nachteilen begrüßt.
Natürlich sind die Leute nach der Veröffentlichung oft sehr fanatisch über OpenAI (was nach negativen Kritiken die zweitbeste Strategie ist, um viral zu werden).
Aber das hier fühlt sich anders an - diese Wahrnehmungen stammen von Menschen in schwierigen Situationen.
Je mehr ich mich mit Leuten unterhielt, die anderer Meinung waren als ich, desto mehr wurde mir klar, dass ich völlig falsch lag:
Ich benutze o1 wie ein Chat-Modell - aber o1 ist kein Chat-Modell.
Wie man o1 richtig verwendet
Wenn o1 kein Chatmodell ist, was ist es dann?
Ich betrachte es als einen "Berichtsgenerator". Wenn man ihm genügend Kontext gibt und ihm sagt, was man ausgeben möchte, löst es das Problem in der Regel ein für alle Mal.
Anmerkung von swyx: OpenAI hat zwar einen Vorschlag für das Prompting von o1 veröffentlicht, aber wir halten ihn für unvollständig, und in gewisser Weise kann man diesen Artikel als das "fehlende Handbuch" für praktische Erfahrungen mit o1 und o1 pro in der Praxis betrachten.
1. schreiben Sie keine Aufforderungen, sondern Schriftsätze
Geben Sie viel Kontext an. Was immer Sie denken, was ich mit "viel" meine - multiplizieren Sie es mit 10.
Wenn Sie eine Anwendung wie Claude Wenn man einen Chat wie 3.5 Sonnet oder 4o modelliert, beginnt man normalerweise mit einer einfachen Frage und etwas Kontext. Wenn das Modell mehr Kontext benötigt, wird es Sie normalerweise danach fragen (oder es wird aus der Ausgabe ersichtlich sein).
Man arbeitet mit dem Modell hin und her, korrigiert es und erweitert die Anforderungen, bis man das gewünschte Ergebnis erhält. Es ist fast wie beim Töpfern.Das Chat-Modell extrahiert im Wesentlichen Kontext von Ihnen durch dieses Hin und Her. Mit der Zeit wurden unsere Probleme immer schneller und träger - so träge wie möglich, aber immer noch mit gutem Ergebnis.
o1 wird nur faule Fragen wörtlich nehmen und nicht versuchen, den Kontext aus Ihnen herauszuholen. Stattdessen müssen SieSo viel Kontext wie möglich nach o1 schieben.
Selbst wenn Sie nur eine einfache technische Frage stellen:
- Erklären Sie, was Sie alles versucht haben, was nicht funktioniert hat.
- Hinzufügen eines vollständigen Dumps aller Datenbankschemata
- Erklären Sie, was Ihr Unternehmen macht und wie groß es ist (und definieren Sie unternehmensspezifische Begriffe)
Kurz gesagt, behandeln Sie o1 wie eine neue Einstellung. Beachten Sie, dass zu den Fehlern in *o1 auch das Denken darüber gehört, wie viel es denken sollte. *Manchmal stimmt die Varianz nicht mit der Schwierigkeit der Aufgabe überein. Wenn die Aufgabe z.B. sehr, sehr einfach ist, geht es in der Regel ohne ersichtlichen Grund in ein Kaninchenloch der Argumentation.Hinweis: Die o1-API erlaubt die Angabe von low/medium/high reasoning_effort, aber die ChatGPT Für Benutzer nicht verfügbar.
Erleichtern Sie es o1, kontextbezogene Hinweise zu erhalten
- Ich schlage vor, dass Sie Ihren Mac/Ihr Telefon auf dem Sprachmemos-AppIch beschreibe einfach 1-2 Minuten lang den gesamten Problembereich und füge dann den Text ein. Ich beschreibe einfach den gesamten Problembereich 1-2 Minuten lang und füge dann den Text ein.
- Ich habe sogar einen Zettel, auf dem ich lange Kontextabschnitte zur Wiederverwendung festhalte.
- swyx: Ich benutze Saravs Careless im LS Discord. Flüstern
- KI-Assistenten, die innerhalb des Produkts auftauchen, können diese Extraktion oft erleichtern. Wenn Sie z. B. Supabase verwenden, können Sie den Supabase-Assistenten bitten, alle relevanten Tabellen/RPCs usw. zu dumpen/beschreiben.
2. konzentrieren Sie sich auf das Ziel: beschreiben Sie, was Sie wollennichtsNicht das, was Sie wollen.auf welche WeiseHolen Sie es.
Sobald Sie das Modell mit so viel Kontext wie möglich gefüllt haben -Konzentrieren Sie sich darauf, zu erklären, was das Ergebnis sein soll.
Bei den meisten Modellen sind wir es gewohnt, dem Modell mitzuteilen, dass wir wollen, dass esauf welche WeiseAntworten Sie uns. Zum Beispiel: "Sie sind ein professioneller Software-Ingenieur. Denken Sie langsam und sorgfältig"
Dies ist das Gegenteil von dem, was ich o1 erfolgreich gefunden habe. Ich trainiere es nicht.auf welche WeiseDo - nur anweisennichts. Dann überlässt man o1 die Planung und Lösung seiner eigenen Schritte. Dies ist der Zweck des autonomen Denkens und kann tatsächlich viel schneller sein, als wenn Sie manuell überprüfen und als "Mensch in der Schleife" chatten würden.
Sie erfordert, dass SieSie müssen wirklich genau wissen, was Sie wollen.(Und Sie sollten wirklich bei jeder Eingabeaufforderung nach einem bestimmten Ergebnis fragen - es kann nur zu Beginn überlegt werden!)
Klingt einfacher als es ist! Möchte ich, dass o1 eine bestimmte Architektur in der Produktion implementiert, eine minimale Testanwendung erstellt oder nur Optionen untersucht und Vor- und Nachteile auflistet? Das sind völlig unterschiedliche Anforderungen.
o1 erklärt Konzepte in der Regel standardmäßig in der Syntax eines Berichts - mit vollständig nummerierten Überschriften und Zwischenüberschriften. Wenn Sie die Erklärung überspringen und das vollständige Dokument ausgeben möchten, müssen Sie dies nur explizit angeben.
- Profi-Tipps von swyxDie Festlegung von wirklich guten Kriterien für "gut" und "schlecht" hilft IhnenGeben Sie dem Modell die Möglichkeit, seine eigene Leistung zu bewerten und seine eigenen Fehler selbst zu verbessern/zu beheben.
Ein zusätzlicher Vorteil ist, dass Sie auf diese Weise LLM als Evaluierungsinstrument erhalten, das Sie für eine intensive Feinabstimmung während der GA verwenden können.
Seit ich gelernt habe, o1 zu benutzen, bin ich von seiner Fähigkeit, gleich beim ersten Mal die richtige Antwort zu geben, überwältigt. Es ist tatsächlich in fast jeder Hinsicht besser (außer Kosten/Latenzzeit).
Hier sind einige der Momente, die besonders hervorstechen:
3. die Vor- und Nachteile von o1 zu verstehen
o1 Vorteile:
- Perfekt für die Erstellung ganzer/mehrerer Dateien auf einmalBislang ist dies die beeindruckendste Fähigkeit von o1. Ich kopiere/einfüge eine Menge Code und eine Menge Kontext darüber, was ich baue, und es generiert die gesamte Datei (oder mehrere Dateien!) in einem einzigen Durchgang vollständig ), in der Regel ohne Fehler und nach bestehenden Mustern in meiner Codebasis.
- Weniger HalluzinationenIm Allgemeinen scheint er weniger durcheinander zu kommen. Zum Beispiel ist o1 wirklich gut bei der Anpassung von Abfragesprachen (z. B. ClickHouse und New Relic), während Claude oft die Syntax von Postgres durcheinanderbringt.
- **MEDIZINISCHE DIAGNOSE:** Meine Freundin ist Dermatologin - wenn also ein Freund oder ein Mitglied meiner Großfamilie ein Hautproblem hat, schicken sie ihr ein Foto! Zum Spaß habe ich angefangen, gleichzeitig o1 zu fragen. Normalerweise kommt man der richtigen Antwort ziemlich nahe - in etwa 3/5 der Fälle. Nützlicher für medizinische Fachkräfte -Sie liefert fast immer eine äußerst genaue Differenzialdiagnose.
- **Erklärung von Konzepten:** Ich fand es sehr gut, um sehr schwierige technische Konzepte mit Beispielen zu erklären. Es ist fast so, als würde man einen ganzen Artikel erstellen. Wenn ich mit schwierigen architektonischen Entscheidungen zu tun habe, lasse ich oft mehrere Pläne von o1 erstellen, jeweils mit Vor- und Nachteilen, und vergleiche diese Pläne sogar. Ich kopiere und füge die Antworten als PDF-Dateien ein und vergleiche sie - fast so, als ob ich Vorschläge prüfen würde.
- **Belohnung: Bewertung. **Ich war immer skeptisch, LLM als Jury für die Bewertung zu verwenden, weil Jury-Modelle grundsätzlich auf die gleichen Fehlermodi stoßen wie das Modell, das die Ausgabe ursprünglich erzeugt hat. Allerdings ist o1 sehr vielversprechend - es ist in der Regel in der Lage zu beurteilen, ob die Generierung korrekt ist oder nicht, und das bei sehr wenig Kontext.
Nachteile von o1 (im Moment):
- **Schreiben in einer bestimmten Stimme/einem bestimmten Stil:** Nein, ich habe nicht o1 für diesen Beitrag verwendet 🙂 .
Ich finde sie sehr schlecht, wenn es darum geht, irgendetwas zu schreiben, vor allem, wenn es um eine bestimmte Stimme oder einen bestimmten Stil geht. Sie hat einen sehr akademischen/korporativen Berichtsstil, dem sie folgen will. Ich denke, es gibt einfach eine Menge Argumente, die ich nicht verstehe. Token Wenn man den Ton in diese Richtung lenkt, ist es schwer, ihn wieder loszuwerden.
Hier ist ein Beispiel dafür, wie ich versucht habe, das Programm dazu zu bringen, diesen Artikel zu schreiben - nach langem Hin und Her - es versucht einfach nur, einen langweiligen Schulbericht zu erstellen.
Erstellen Sie die gesamte Anwendung:o1 ist sehr gut darin, ganze Dateien auf einmal zu erzeugen. Dennoch, trotz einiger optimistischer ...... Demos, die Sie auf Twitter sehen können - o1 wird nicht das gesamte SaaS für Sie erstellen, zumindest nicht nach demgroßmütigvon Iterationen. Aber esmöglich** Generierung fast ganzer Funktionen auf einmal, insbesondere von Front-End- oder einfachen Back-End-Funktionen.