o1 no es un modelo de chat, te enseña a motivar correctamente las capacidades de o1

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

46.7K 00

Cómo hacerlo bien o1: no escribas prompts; escribe briefs, céntrate en los objetivos: describe lo que quieresnadaNo es lo que quieres.de qué manera¡Consíguelo y conoce los pros y los contras de o1!

Desde el lanzamiento del o1 en octubre y el anuncio del o1 pro/o3 en diciembre, mucha gente ha luchado por dar sentido a sus percepciones, tanto positivas como negativas. Adoptamos una postura fuertemente positiva en el punto más bajo del sentimiento del o1 Pro y trazamos un mapa de lo que podría costar a OpenAI lanzar un producto proxy de 2.000 dólares al mes (se rumorea que llegará en las próximas semanas). Desde entonces, o1 ha estado en todas LMArena Las listas se han mantenido estables en el número uno.

Desde entonces, ha lanzado Dawn Analytics y sigue publicando pensamientos sin filtro sobre o1, al principio como un escéptico ruidoso y poco a poco convirtiéndose en un usuario cotidiano. Nos encantan los distintos significados de las personas que cambian de opinión, y creemos que el mismo diálogo se está produciendo en todo el mundo a medida que la gente lucha por pasar del modo chat al nuevo mundo del razonamiento y de los cientos de dólares al mes por productos profesionales de IA, ahora GA))). He aquí nuestras reflexiones.

¿Cómo pasé de odiar o1 a utilizarlo a diario para resolver mis problemas más importantes?

Aprendí a usarlo.

Cuando salió el o1 pro no dudé en suscribirme.Para justificar el precio de 200 dólares al mes, sólo tiene que proporcionar 1-2 horas de ingeniero al mes.

Pero al final del día de intentar que el modelo funcionara, llegué a la conclusión de queEs basura..

Cada vez que hago una pregunta, tengo que esperar 5 minutos y me reciben con un montón de galimatías contradictorios con diagramas de arquitectura no solicitados + una lista de pros y contras.

o1 Responde a mi pregunta y te contradices muchas veces.

Por supuesto, la gente suele ser muy fanática de OpenAI después del lanzamiento (que es la segunda mejor estrategia para hacerse viral, después de las críticas negativas).

Pero esto parece diferente: estas percepciones proceden de personas en situaciones difíciles.

Cuando empecé a hablar con gente que no estaba de acuerdo conmigo, más me di cuenta de que estaba completamente equivocado:

Utilizo o1 como un modelo de chat - pero o1 no es un modelo de chat.

Cómo utilizar correctamente o1

Si o1 no es un modelo de chat, ¿qué es?

Yo lo veo como un "generador de informes". Si le das el contexto suficiente y le dices lo que quieres, suele resolver el problema de una vez por todas.

Nota de swyx: OpenAI sí publicó una propuesta para el prompting o1, pero creemos que está incompleta, y en cierto sentido, puedes pensar en este artículo como el "manual que faltaba" para la experiencia práctica con o1 y o1 pro en la práctica.

1. No escriba prompts; escriba briefs

Proporcione mucho contexto. Lo que creas que quiero decir con "mucho", multiplícalo por 10.

Cuando se utiliza una aplicación como Claude Cuando se modela un chat como 3.5 Sonnet o 4o, se suele empezar con una pregunta sencilla y algo de contexto. Si el modelo necesita más contexto, normalmente te lo pedirá (o será obvio en el resultado).

Se itera una y otra vez con el modelo, corrigiéndolo y ampliando los requisitos hasta obtener el resultado deseado. Es casi como la cerámica.El modelo de chat básicamente extrae contexto de ti a través de este ir y venir. Con el tiempo, nuestros problemas se hicieron más rápidos y más perezosos, lo más perezosos posible sin dejar de obtener buenos resultados.

o1 sólo tomará literalmente las preguntas perezosas y no intentará sonsacarte el contexto. En su lugar, deberáPasa todo el contexto posible a o1.

Aunque sólo sea una simple pregunta de ingeniería:

Explica todas las formas que has probado que no han funcionado
Añadir un volcado completo de todos los esquemas de base de datos
Explique a qué se dedica su empresa y cuál es su tamaño (y defina términos específicos de la empresa).

En resumen, trata a *o1 como a una nueva contratación. Tenga en cuenta que los errores en *o1 incluyen el razonamiento sobre cuánto debe razonar. *A veces la varianza no se corresponde exactamente con la dificultad de la tarea. Por ejemplo, si la tarea es muy, muy fácil, por lo general se va por un agujero de conejo de razonamiento sin razón aparente.Nota: La API de o1 permite especificar reasoning_effort bajo/medio/alto, pero la función ChatGPT No disponible para los usuarios.

Facilitar a o1 la obtención de pistas contextuales

Sugiero usar tu mac/teléfono en el Aplicación Notas de vozMe limito a describir todo el espacio del problema durante 1-2 minutos y luego pego el texto. Me limito a describir todo el espacio del problema durante 1-2 minutos y luego pego ese texto.
- De hecho, tengo una nota donde guardo segmentos largos de contexto para reutilizarlos.
- swyx: Yo uso Careless de Sarav en LS Discord. Susurro
Los asistentes de IA que aparecen dentro del producto a menudo pueden facilitar esta extracción. Por ejemplo, si utiliza Supabase, intente pedirle al asistente de Supabase que vuelque/describa todas las tablas/RPC relevantes, etc.

swyx: Yo cambiaría el principio por "Dedica 10 veces más tiempo a las indicaciones".

2. Céntrate en el objetivo: describe lo que quieresnadaNo es lo que quieres.de qué maneraConsíguelo.

Una vez que hayas rellenado el modelo con todo el contexto posible -Céntrese en explicar cuál quiere que sea el resultado.

Para la mayoría de los modelos, estamos acostumbrados a decirle al modelo que queremos quede qué maneraRespóndenos. Por ejemplo: "Usted es un ingeniero de software profesional. Piensa despacio y con cuidado".

Esto es lo contrario de lo que he encontrado o1 éxito. Yo no lo entreno.de qué maneraDo - sólo instrúyalonada. Entonces deja que o1 se haga cargo y planifique y resuelva sus propios pasos. Este es el propósito del razonamiento autónomo, y en realidad puede ser mucho más rápido que si revisas manualmente y chateas como un "humano en el bucle".

pobre intento de ilustración de swyx

Requiere queSaber exactamente lo que quieres.(Y realmente debería pedir un resultado concreto en cada consulta: ¡sólo se puede razonar al principio!).

Parece más fácil de lo que es. ¿Quiero que o1 implemente una arquitectura específica en producción, cree una aplicación de prueba mínima o simplemente explore opciones y haga una lista de pros y contras? Son requisitos completamente diferentes.

o1 suele explicar los conceptos por defecto utilizando una sintaxis de tipo informe: encabezados y subencabezados completamente numerados. Si desea omitir la explicación y obtener el documento completo, sólo tiene que indicarlo explícitamente.

Consejos profesionales de swyxEstablecer buenos criterios para "bueno" y "malo" le ayuda aDar al modelo una forma de evaluar sus propios resultados y mejorar/corregir sus propios errores por sí mismo..

Como beneficio añadido, esto le proporcionará con el tiempo LLM como una herramienta de evaluación que puede utilizar para un ajuste fino intensivo durante GA.

Desde que aprendí a utilizar o1, me ha sorprendido su capacidad para generar la respuesta correcta a la primera. De hecho, es mejor en casi todos los aspectos (excepto en coste/latencia).

He aquí algunos de los momentos más destacados:

3. Comprender las ventajas e inconvenientes de o1

o1 Ventajas:

Perfecto para generar archivos enteros/múltiples a la vezHasta ahora, ésta es la capacidad más impresionante de o1. Copio/pego un montón de código, y un montón de contexto sobre lo que estoy construyendo, y genera todo el archivo (¡o múltiples archivos!) en una sola pasada completamente ), normalmente sin errores, y siguiendo los patrones existentes en mi código base.
Menos alucinaciones: En general, parece confundir menos las cosas. Por ejemplo, o1 es realmente bueno en la personalización de lenguajes de consulta (por ejemplo, ClickHouse y New Relic), mientras que Claude a menudo confunde la sintaxis de Postgres.
**DIAGNÓSTICO MÉDICO:** Mi novia es dermatóloga, así que siempre que algún amigo o algún miembro de mi familia tiene algún problema de piel, le envía una foto. Para divertirme, he empezado a preguntar al mismo tiempo a o1. suele estar bastante cerca de la respuesta correcta - alrededor de 3/5 de las veces. Más útil para los profesionales de la medicina -Casi siempre proporciona un diagnóstico diferencial extremadamente preciso.
**Explicación de conceptos:** Me pareció muy bueno para explicar conceptos de ingeniería muy difíciles con ejemplos. Es casi como generar un artículo entero. Cuando estoy tratando con decisiones arquitectónicas difíciles, a menudo tengo o1 generar varios planes, cada uno con pros / contras, e incluso comparar los planes. Copio y pego las respuestas en PDF y las comparo, casi como si estuviera estudiando propuestas.
**Recompensa: evaluación. **Siempre he sido escéptico sobre el uso de LLM como jurado para la evaluación, porque fundamentalmente, los modelos de jurado suelen encontrar los mismos modos de fallo que el modelo que inicialmente generó la salida. Sin embargo, o1 se muestra muy prometedor: suele ser capaz de juzgar si la generación es correcta o no en muy poco contexto.

Desventajas de o1 (por ahora):

**Escribir con una voz/estilo específico:** No, no he usado o1 para este post 🙂 .
Me parece muy malo para escribir cualquier cosa, especialmente en términos de una voz o estilo particular. Tiene un estilo informativo muy académico/corporativo que quiere seguir. Creo que hay mucho razonamiento Ficha Inclina el tono en esa dirección y es difícil deshacerse de él.
He aquí un ejemplo en el que intento que escriba este artículo -después de muchas idas y venidas-, sólo intenta producir un informe escolar anodino.

Construye toda la aplicación:o1 es muy bueno generando archivos enteros a la vez. Aún así, a pesar de algunas de las demos más optimistas de ...... que puedes ver en Twitter, o1 no construirá todo el SaaS por ti, al menos no después de que elmagnánimode iteraciones. Peroposible** Generar funciones casi enteras de una sola vez, especialmente funciones front-end o back-end sencillas..

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Baidu Cozy Pod: una nueva generación de herramientas de marketing para la captación precisa de clientes mediante el cuerpo inteligente Wenxin

Noticias AI

hace 2 años

043.7K

Mando R7B: recuperación y razonamiento mejorados, soporte multilingüe, IA generativa rápida y eficiente

Noticias AI

hace 1 año

044.3K

为中国市场定制的 RTX 5090D 具有 AI 和加密货币挖矿限制 — 多 GPU 配置也被锁定

RTX 5090D personalizada para China con restricciones de IA y minería de criptomonedas - las configuraciones multi-GPU también están bloqueadas.

Noticias AI

hace 1 año

049.4K

Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Noticias AI

hace 1 año

064.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

o1 no es un modelo de chat, te enseña a motivar correctamente las capacidades de o1

Cómo utilizar correctamente o1

1. No escriba prompts; escriba briefs

2. Céntrate en el objetivo: describe lo que quieresnadaNo es lo que quieres.de qué maneraConsíguelo.

3. Comprender las ventajas e inconvenientes de o1

¿450 para entrenar un "o1-preview"? UC Berkeley abre el modelo de inferencia de 32B Sky-T1, la comunidad de IA en ebullición

La Universidad de Chongqing se conecta totalmente a Internet con un asesor exclusivo de inteligencia artificial que ya han utilizado más de 10.000 estudiantes.

Artículos relacionados

Baidu Cozy Pod: una nueva generación de herramientas de marketing para la captación precisa de clientes mediante el cuerpo inteligente Wenxin

Mando R7B: recuperación y razonamiento mejorados, soporte multilingüe, IA generativa rápida y eficiente

RTX 5090D personalizada para China con restricciones de IA y minería de criptomonedas - las configuraciones multi-GPU también están bloqueadas.

Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Sin comentarios

Últimas colecciones

Últimos artículos

o1 no es un modelo de chat, te enseña a motivar correctamente las capacidades de o1

Cómo utilizar correctamente o1

1. No escriba prompts; escriba briefs

2. Céntrate en el objetivo: describe lo que quieresnadaNo es lo que quieres.de qué maneraConsíguelo.

3. Comprender las ventajas e inconvenientes de o1

¿450 para entrenar un "o1-preview"? UC Berkeley abre el modelo de inferencia de 32B Sky-T1, la comunidad de IA en ebullición

La Universidad de Chongqing se conecta totalmente a Internet con un asesor exclusivo de inteligencia artificial que ya han utilizado más de 10.000 estudiantes.

Artículos relacionados

Baidu Cozy Pod: una nueva generación de herramientas de marketing para la captación precisa de clientes mediante el cuerpo inteligente Wenxin

Mando R7B: recuperación y razonamiento mejorados, soporte multilingüe, IA generativa rápida y eficiente

RTX 5090D personalizada para China con restricciones de IA y minería de criptomonedas - las configuraciones multi-GPU también están bloqueadas.

Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos