o1 n'est pas un modèle de chat, il vous enseigne comment motiver correctement les capacités d'o1

Nouvelles de l'IAPosté il y a 8 mois Cercle de partage de l'IA

8.8K 00

Comment réussir o1 : ne pas rédiger d'incitations ; rédiger des mémoires, se concentrer sur les objectifs : décrire ce que l'on veut faire.rienCe n'est pas ce que vous voulez.de quelle manièreAchetez-le et soyez conscient des avantages et des inconvénients de l'o1 !

Depuis la sortie de l'o1 en octobre et l'annonce de l'o1 pro/o3 en décembre, de nombreuses personnes se sont efforcées de donner un sens à leurs perceptions, qu'elles soient positives ou négatives. Nous avons adopté une position très positive au moment où l'opinion sur l'o1 Pro était au plus bas et nous avons expliqué ce qu'il faudrait pour qu'OpenAI lance un produit de proxy à 2 000 $ par mois (qui, d'après les rumeurs, devrait arriver dans les prochaines semaines). Depuis lors, o1 a été sur tous les LMArena Le classement est resté stable à la première place.

Depuis, il a lancé Dawn Analytics et continue de publier des réflexions non filtrées sur o1 - d'abord en tant que sceptique bruyant, puis en devenant peu à peu un utilisateur quotidien. Nous aimons les différentes significations des personnes qui changent d'avis, et nous pensons que le même dialogue se produit dans le monde entier, alors que les gens s'efforcent de passer du mode "chat" au nouveau monde du raisonnement et des centaines de dollars par mois pour des produits d'IA professionnels, maintenant GA))). Voici ce que nous en pensons.

Comment suis-je passé de la détestation d'o1 à son utilisation quotidienne pour résoudre mes problèmes les plus importants ?

J'ai appris à l'utiliser.

Lorsque l'o1 pro est sorti, je n'ai pas hésité à m'abonner.Pour justifier le prix de 200 dollars par mois, il suffit de fournir 1 à 2 heures de travail d'ingénieur par mois.

Mais à la fin de la journée passée à essayer de faire fonctionner le modèle, j'ai conclu queC'est n'importe quoi..

Chaque fois que je pose une question, je dois attendre 5 minutes et je suis accueilli par un charabia contradictoire avec des diagrammes d'architecture non sollicités + une liste d'avantages et d'inconvénients.

o1 Répondez à ma question et contredisez vous plusieurs fois.

Bien sûr, les gens sont souvent très fanatiques de l'OpenAI après sa sortie (ce qui est la deuxième meilleure stratégie pour devenir viral, après les critiques négatives).

Mais ce n'est pas le cas ici : ces perceptions proviennent de personnes en situation difficile.

Plus je discutais avec des personnes qui n'étaient pas d'accord avec moi, plus je me rendais compte que j'avais complètement tort :

J'utilise o1 comme un modèle de chat - mais o1 n'est pas un modèle de chat.

Comment utiliser correctement o1

Si o1 n'est pas un modèle de chat, qu'est-ce que c'est ?

Je le considère comme un "générateur de rapports". Si vous lui donnez suffisamment de contexte et que vous lui dites ce que vous voulez produire, il résoudra généralement le problème une fois pour toutes.

Note de swyx : OpenAI a publié une proposition pour l'incitation o1, mais nous pensons qu'elle est incomplète, et dans un sens, vous pouvez considérer cet article comme le "manuel manquant" pour l'expérience pratique avec o1 et o1 pro dans la pratique.

1. ne pas rédiger de prompts ; rédiger des mémoires

Fournissez beaucoup de contexte. Quoi que vous pensiez que j'entende par "beaucoup", multipliez-le par 10.

Lorsque vous utilisez une application telle que Claude Lorsque vous modélisez un chat comme 3.5 Sonnet ou 4o, vous commencez généralement par une question simple et un peu de contexte. Si le modèle a besoin de plus de contexte, il vous le demandera généralement (ou cela sera évident d'après le résultat).

Vous itérez avec le modèle, en le corrigeant et en élargissant les exigences jusqu'à ce que vous obteniez le résultat souhaité. C'est presque comme de la poterie.Le modèle de chat permet essentiellement d'extraire le contexte par le biais de ce va-et-vient. Au fil du temps, nos problèmes sont devenus plus rapides et plus paresseux - aussi paresseux que possible tout en obtenant de bons résultats.

o1 ne prendra que les questions paresseuses au pied de la lettre et n'essaiera pas d'en extraire le contexte. Au lieu de cela, vous devezEnvoyer le plus de contexte possible à o1.

Même s'il s'agit d'une simple question d'ingénierie :

Expliquez tous les moyens que vous avez essayés et qui n'ont pas fonctionné.
Ajouter un vidage complet de tous les schémas de la base de données
Expliquez ce que fait votre entreprise et quelle est sa taille (et définissez les termes spécifiques à l'entreprise).

En bref, traitez o1 comme une nouvelle embauche. Notez que les erreurs de *o1 incluent le raisonnement sur la quantité qu'il devrait raisonner. *Parfois, la variance ne correspond pas exactement à la difficulté de la tâche. Par exemple, si la tâche est très, très facile, il s'enfonce généralement dans un trou de lapin de raisonnement sans raison apparente.Note : L'API o1 vous permet de spécifier un effort de raisonnement faible/moyen/élevé, mais l'API o1 vous permet de spécifier un effort de raisonnement faible/moyen/élevé. ChatGPT Non disponible pour les utilisateurs.

Faciliter l'obtention d'indications contextuelles par o1

Je suggère d'utiliser votre mac/téléphone sur le Mémos vocauxJe décris l'ensemble du problème pendant 1 à 2 minutes, puis je colle le texte. Je décris l'ensemble du problème pendant 1 à 2 minutes, puis je colle le texte.
- En fait, j'ai une note dans laquelle je conserve de longs segments de contexte à réutiliser.
- swyx : J'utilise Careless de Sarav dans LS Discord. Chuchotement
Les assistants IA qui apparaissent dans le produit peuvent souvent faciliter cette extraction. Par exemple, si vous utilisez Supabase, essayez de demander à l'assistant Supabase d'extraire/décrire toutes les tables/RPC pertinentes, etc.

swyx : Je changerais le début en "Passez 10 fois plus de temps sur l'invite".

2. se concentrer sur l'objectif : décrire ce que l'on veutrienCe n'est pas ce que vous voulez.de quelle manièreObtenez-le.

Une fois que vous avez rempli le modèle avec autant de contexte que possible -Concentrez-vous sur l'explication de ce que vous attendez du résultat.

Pour la plupart des modèles, nous avons l'habitude de dire au modèle que nous voulons qu'ilde quelle manièreRépondez-nous. Par exemple, "Vous êtes un ingénieur logiciel professionnel. Réfléchissez lentement et soigneusement"

C'est le contraire de ce que j'ai constaté avec succès. Je ne la dirige pas.de quelle manièreFaire - seulement instruirerien. Laissez ensuite o1 prendre le relais et planifier et résoudre ses propres étapes. C'est l'objectif du raisonnement autonome, et il peut en fait être beaucoup plus rapide que si vous révisiez manuellement et discutiez en tant qu'"humain dans la boucle".

La piètre tentative d'illustration de swyx

Elle exige que vousSachez vraiment ce que vous voulez.(Et vous devriez vraiment demander un résultat spécifique pour chaque demande - on ne peut raisonner qu'au début !)

Cela semble plus facile que ça ne l'est ! Est-ce que je veux qu'o1 mette en œuvre une architecture spécifique en production, crée une application de test minimale, ou explore simplement les options et liste les avantages et les inconvénients ? Il s'agit d'exigences complètement différentes.

o1 explique généralement les concepts par défaut en utilisant une syntaxe de type rapport - des titres et sous-titres entièrement numérotés. Si vous souhaitez ignorer l'explication et produire le document complet, il vous suffit de l'indiquer explicitement.

Conseils professionnels de swyxLa définition de critères précis pour les notions de "bon" et de "mauvais" vous aide àDonner au modèle un moyen d'évaluer ses propres résultats et d'améliorer ou de corriger ses propres erreurs..

En outre, cela vous permettra d'obtenir le LLM en tant qu'outil d'évaluation que vous pourrez utiliser pour une mise au point intensive au cours de l'AG.

Depuis que j'ai appris à utiliser o1, j'ai été époustouflé par sa capacité à générer la bonne réponse du premier coup. Il est en fait meilleur à presque tous les égards (sauf en termes de coût et de latence).

Voici quelques-uns des moments les plus marquants :

3. comprendre les avantages et les inconvénients d'o1

o1 Avantages :

Parfait pour générer des fichiers entiers ou multiples en une seule foisLa capacité de génération de fichiers : Jusqu'à présent, c'est la capacité la plus impressionnante d'o1. Je copie/colle beaucoup de code, et beaucoup de contexte sur ce que je construis, et il génère le fichier entier (ou plusieurs fichiers !) en une seule passe complètement ), généralement sans erreurs, et en suivant les modèles existants dans ma base de code.
Moins d'hallucinationsEn général, il semble moins confondre les choses. Par exemple, o1 est très bon pour personnaliser les langages de requête (par exemple ClickHouse et New Relic), alors que Claude confond souvent la syntaxe de Postgres.
**Ma petite amie est dermatologue. Chaque fois qu'un ami ou un membre de ma famille élargie a un problème de peau, il lui envoie une photo ! Pour m'amuser, j'ai commencé à poser la question o1 en même temps. La réponse est généralement assez proche de la bonne - environ 3/5 des cas. Plus utile pour les professionnels de la santé -Il permet presque toujours d'établir un diagnostic différentiel extrêmement précis.
**Explication des concepts:** J'ai trouvé qu'il expliquait très bien des concepts d'ingénierie très difficiles à l'aide d'exemples. C'est presque comme si l'on générait un article entier. Lorsque je suis confronté à des décisions architecturales difficiles, je demande souvent à o1 de générer plusieurs plans, chacun avec des avantages et des inconvénients, et même de comparer ces plans. Je copie/colle les réponses sous forme de PDF et je les compare - comme si j'examinais des propositions.
**Récompense : évaluation. **J'ai toujours été sceptique quant à l'utilisation de LLM comme jury pour l'évaluation, parce que fondamentalement, les modèles de jury rencontrent habituellement les mêmes modes d'échec que le modèle qui a initialement généré la sortie. Cependant, o1 est très prometteur - il est généralement capable de juger si la génération est correcte ou non dans un contexte très restreint.

Inconvénients de o1 (pour l'instant) :

**Écrire dans une voix/un style spécifique:** Non, je n'ai pas utilisé o1 pour ce billet 🙂 .
Je trouve qu'il est très mauvais pour écrire quoi que ce soit, surtout en termes de voix ou de style particulier. Il a un style de reportage très académique et corporatif qu'il veut suivre. Je pense qu'il y a juste beaucoup de raisonnement Jeton Si le ton penche dans cette direction, il est difficile de s'en débarrasser.
Voici un exemple de ce que j'ai essayé de faire pour qu'il écrive cet article - après de nombreuses discussions - il essaie simplement de produire un rapport scolaire insipide.

Construire l'ensemble de l'application :o1 est très bon pour générer des fichiers entiers en une seule fois. Cependant, malgré les démonstrations optimistes de ...... que vous pouvez voir sur Twitter, o1 ne construira pas l'ensemble du SaaS pour vous, du moins pas après la fin de l'année.magnanimed'itérations. Mais ilpossible** Générer des fonctions presque entières en une seule fois, en particulier des fonctions frontales ou des fonctions back-end simples.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

Nouvelles de l'IA

Il y a 7 mois

012.2K

LiblibAI-API supporte maintenant l'appel au workflow de ComfyUI !

Nouvelles de l'IA

Il y a 8 mois

013K

哈佛 CS197课程：人工智能研究体验 (AI Research Experiences)PDF下载

Harvard CS197 : AI Research Experiences PDF Download

Nouvelles de l'IA

Il y a 8 mois

09.6K

Problèmes difficiles de niveau olympique : examen de 7 critères de performance en mathématiques chinoises pour le LLM

Nouvelles de l'IA

il y a 5 mois

08.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

o1 n'est pas un modèle de chat, il vous enseigne comment motiver correctement les capacités d'o1

Comment utiliser correctement o1

1. ne pas rédiger de prompts ; rédiger des mémoires

2. se concentrer sur l'objectif : décrire ce que l'on veutrienCe n'est pas ce que vous voulez.de quelle manièreObtenez-le.

3. comprendre les avantages et les inconvénients d'o1

450 pour former un "o1-preview" ? Le modèle d'inférence 32B Sky-T1 de l'UC Berkeley est en libre accès et la communauté de l'IA s'en émeut.

L'université de Chongqing se dote d'un conseiller en ligne exclusif, qui a été utilisé par plus de 10 000 étudiants.

Articles connexes

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

LiblibAI-API supporte maintenant l'appel au workflow de ComfyUI !

Harvard CS197 : AI Research Experiences PDF Download

Problèmes difficiles de niveau olympique : examen de 7 critères de performance en mathématiques chinoises pour le LLM

Pas de commentaires

Dernières collections

Derniers articles

o1 n'est pas un modèle de chat, il vous enseigne comment motiver correctement les capacités d'o1

Comment utiliser correctement o1

1. ne pas rédiger de prompts ; rédiger des mémoires

2. se concentrer sur l'objectif : décrire ce que l'on veutrienCe n'est pas ce que vous voulez.de quelle manièreObtenez-le.

3. comprendre les avantages et les inconvénients d'o1

450 pour former un "o1-preview" ? Le modèle d'inférence 32B Sky-T1 de l'UC Berkeley est en libre accès et la communauté de l'IA s'en émeut.

L'université de Chongqing se dote d'un conseiller en ligne exclusif, qui a été utilisé par plus de 10 000 étudiants.

Articles connexes

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

LiblibAI-API supporte maintenant l'appel au workflow de ComfyUI !

Harvard CS197 : AI Research Experiences PDF Download

Problèmes difficiles de niveau olympique : examen de 7 critères de performance en mathématiques chinoises pour le LLM

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles