Ingeniería de sugerencias para los modelos de inferencia O1 y O3-mini de OpenAI

Tutoriales prácticos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

37.4K 00

Introducción: O1 de OpenAI y O3-mini son modelos avanzados de "razonamiento" que difieren del GPT-4 básico (comúnmente conocido como GPT-4o) en la forma en que procesan las preguntas y generan las respuestas. Estos modelos están diseñados para dedicar más tiempo a "pensar" sobre problemas complejos, imitando el análisis humano.
En este documento se examina en profundidad la tecnología de OpenAI. O1 responder cantando O3-mini Técnicas de ingeniería Prompt para modelos de razonamiento. Sin embargo, las ideas sobre la estructura de entrada, las capacidades de razonamiento, las características de respuesta y las mejores prácticas de Prompt expuestas en el documento, la No se limita a los modelos de OpenAI . Con el auge de las técnicas de modelización de la inferencia, se ha producido una afluencia de como DeepSeek-R1 y muchos otros modelos con capacidades de razonamiento superiores. Los principios y técnicas fundamentales de este documento pueden servir igualmente como una valiosa referencia para ayudar a los lectores a utilizar el DeepSeek-R1 y otros modelos de inferencia similares a la hora de maximizar su potencial. Por lo tanto, tras conocer los modelos O1 y O3-mini Ingeniería PromptLos detalles van acompañados de una invitación a los lectores para que piensen cómo pueden integrarse y aplicarse estas lecciones al campo más amplio de la modelización de la inferencia para desbloquear capacidades de aplicación de la IA más potentes.

O1/O3-mini frente a GPT-4o

Estructura de entrada y tratamiento del contexto

Razonamiento incorporado frente a razonamiento guiado por pistas: Los modelos de la serie O1 tienenCapacidad de razonamiento en cadenaEsto significa que razonan internamente, sin la guía adicional de palabras clave. En cambio, GPT-4o suele necesitar instrucciones externas como "pensemos paso a paso" para guiarse a la hora de resolver problemas complejos, porque no realiza automáticamente el mismo nivel de razonamiento multipaso. Con O1/O3-mini, basta con plantear la pregunta; el modelo la analizará en profundidad por sí solo.
Necesidad de información externa: GPT-4o tiene una amplia base de conocimientos y acceso a herramientas (por ejemplo, navegación, plug-ins, visión) en algunos despliegues, lo que le ayuda a tratar una gran variedad de temas. En cambio, el modelo O1 está fuera del foco de formación delBase de conocimientos más reducida. Esto significa que cuando se utiliza el O1/O3-mini, si la tarea va más allá del sentido común, elEn las indicaciones debe incluirse información de fondo o contexto importante.--gpt-4o puede que ya conozca algún precedente legal o detalle oscuro, mientras que O1 puede necesitar que usted le proporcione ese texto o esos datos.Ejemplo de consejo:
- GPT-4o: "Un análisis de la reciente decisión del Tribunal Supremo de EE.UU. sobre el derecho al aborto". (GPT-4o ya puede tener conocimiento)
- O1: "Analizar el impacto de la sentencia sobre el derecho al aborto en la sociedad estadounidense a la luz de la siguiente información de referencia: [pegar resúmenes de noticias y documentos jurídicos relevantes]." (O1 puede necesitar información de fondo más detallada)
Longitud del contexto: El modelo de inferencia tiene una ventana de contexto muy grande.O1 soporta hasta 128k tokens de entrada y O3-mini acepta hasta 200k tokens (hasta 100k tokens de salida), superando la longitud de contexto de GPT-4o. Esto permite introducir archivos de casos o conjuntos de datos de gran tamaño directamente en O1/O3.Organización clara de las grandes aportaciones para impulsar proyectos(Tanto GPT-4o como O1 son capaces de manejar entradas largas, pero la mayor capacidad de O1/O3 permite incluir un contexto más detallado en una sola entrada, lo que resulta muy útil en análisis complejos.Ejemplo de consejo:
- "Resuma los principales puntos de controversia del caso y la sentencia final del tribunal basándose en este extenso documento jurídico pegado a continuación. [Pegar decenas de miles de palabras de documentos legales]" (O1/O3-mini puede manejar eficientemente una entrada tan larga)

Capacidad de razonamiento y deducción lógica

Profundidad de razonamiento: O1 y O3-mini paraRazonamiento sistemático en varios pasosOptimizan. En efecto, "piensan más" antes de responder, lo que produce soluciones más precisas en tareas complejas. Por ejemplo, O1-preview resolvió 831 TP3T en un exigente examen de matemáticas (AIME), mientras que GPT-4o tuvo una tasa de solución de 131 TP3T, lo que demuestra su superior capacidad de deducción lógica en el mundo profesional. Estos modelos realizan cadenas de pensamiento internamente e incluso autocomprueban su trabajo.El GPT-4o también es potente pero tiende a ser más directo a la hora de generar respuestas; sin indicaciones explícitas puede que no realice análisis exhaustivos, lo que puede llevar a errores en situaciones muy complejas que sí puede captar el O1.
Gestión de tareas complejas frente a tareas sencillas: Dado que la familia de modelos O1 utiliza por defecto el razonamiento profundo, funcionan bien en problemas complejos con muchos pasos de inferencia (por ejemplo, análisis multifacéticos, pruebas largas). De hecho, en tareas que requieren cinco o más pasos de inferencia, los modelos de inferencia como O1-mini u O3 superan en precisión a GPT-4 en más de 161 TP3T. Sin embargo, esto también significa queEn consultas muy sencillas, O1 puede "pensar demasiado". Se observó que en tareas sencillas (menos de 3 pasos de razonamiento), los procesos analíticos adicionales de O1 pueden ser una desventaja: en muchos de estos casos, no obtuvo tan buenos resultados como GPT-4 debido al exceso de razonamiento. GPT-4o puede responder a una pregunta sencilla de forma más directa y rápida, mientras que O1 puede generar análisis innecesarios. innecesarios. La diferencia clave es que O1 está calibrado para la complejidadpor lo que puede ser menos eficiente para cuestionarios triviales.Ejemplo de consejo:
- Tareas complejas (adecuadas para O1): "Analizar y resumir las repercusiones a largo plazo del cambio climático en la economía mundial, incluidos los posibles riesgos y oportunidades para las distintas industrias, el mercado laboral y el comercio internacional".
- Tareas sencillas (aptas para GPT-4o): "¿Qué tiempo hace hoy?"
Estilo de deducción lógica: Cuando se trata de rompecabezas, razonamiento deductivo o problemas paso a paso, el GPT-4o normalmente necesita insinuar los trabajos para avanzar por ellos (de lo contrario, puede saltar a la respuesta).Los O1/O3-mini tratan la deducción lógica de un modo diferente: simulan diálogos internos o borradores. Para el usuario, esto significa que el O1Las respuestas finales suelen estar bien razonadas y son menos propensas a las lagunas lógicasDe hecho, completa la "cadena de pensamiento" internamente para volver a comprobar la coherencia. De hecho, completa la "cadena de pensamiento" internamente para volver a comprobar la coherencia. Desde el punto de vista de las señales, normalmenteNo hay necesidad de decirle a O1 que explique o compruebe su lógica--Hace esto automáticamente antes de presentar la respuesta. Para GPT-4o, podrías incluir instrucciones como "primero enumera hipótesis, luego saca conclusiones" para asegurar el rigor lógico; para O1, tales instrucciones son a menudo redundantes o incluso contraproducentes.Ejemplo de consejo:
- GPT-4o: "Resuelve este puzzle de lógica: [contenido del puzzle]. Muestra tu solución paso a paso y explica el razonamiento que hay detrás de cada paso".
- O1: "Resuelve este puzzle lógico: [contenido del puzzle]". (O1 razonará automáticamente de forma lógica y dará una respuesta bien razonada)

Caracterización de la respuesta y optimización del rendimiento

Detalles y redundancia: Debido a su profundo razonamiento, O1 y O3-mini suelen generarse para consultas complejasRespuestas detalladas y estructuradas. Por ejemplo, O1 puede desglosar una solución matemática en varios pasos o justificar cada parte de un plan estratégico. Por otra parte, GPT-4o puede dar por defecto respuestas más concisas o resúmenes de alto nivel a menos que se le pida una descripción detallada. En términos de ingeniería, esto significaLas respuestas O1 pueden ser más largas o más técnicas. Puedes controlar mejor esta redundancia con directivas. Si quieres que O1 sea conciso, tienes que decírselo explícitamente (como hiciste con GPT-4) - de lo contrario, puede tender a ser exhaustivo. Por el contrario, si quiere que la salida seaexplicar paso a pasoEn el caso de GPT-4o, es posible que haya que decirle que incluya uno, mientras que O1 estará encantado de proporcionarlo si se le pide (y puede que haya hecho el razonamiento internamente de todos modos).Ejemplo de consejo:
- Solicitud de explicación detallada (GPT-4o): "Explica detalladamente cómo funciona el modelo Transformer, incluidas las funciones específicas de cada componente, y utiliza terminología técnica siempre que sea posible".
- Se requieren respuestas sucintas (O1): "Resuma la idea central del modelo Transformer en tres frases".
Precisión y autocontrol: El modelo de inferencia presenta unAutocomprobación de hechosOpenAI señala que O1 es mejor a la hora de detectar sus propios errores durante la generación de respuestas, lo que mejora la precisión de los hechos en respuestas complejas. GPT-4o suele ser preciso, pero sin orientación, en ocasiones puede equivocarse con seguridad o alucinar. La arquitectura de O1 reduce este riesgo al validar los detalles mientras "piensa". De hecho, los usuarios han observado que O1 produce menos respuestas incorrectas o sin sentido a preguntas complicadas, mientras que GPT-4o puede requerir técnicas de orientación (por ejemplo, pedirle que critique o valide sus respuestas) para alcanzar el mismo nivel de confianza. Esto significa que normalmente se puede confiar en que O1/O3-mini responda correctamente a preguntas complejas con una indicación directa, mientras que con GPT-4 puede ser necesario añadir instrucciones como "comprueba que tu respuesta es coherente con los hechos anteriores". No obstante, ningún modelo es absolutamente fiable, por lo que siempre deben revisarse los resultados de los hechos clave.Ejemplo de consejo:
- GPT-4o (énfasis en la precisión): "Analiza las cifras de este informe financiero y calcula el margen de beneficio neto de la empresa. Asegúrate de comprobar dos veces las cifras para comprobar que los cálculos son exactos."
- O1 (confianza por defecto): "Analiza los datos de este informe financiero y calcula el margen de beneficio neto de la empresa".
Rapidez y coste: Una diferencia notable es que el modelo O1 es más lento y más caro para razonamientos más profundos.O1 Pro incluye incluso una barra de progreso para consultas largas.GPT-4o tiende a ser más sensible para consultas típicas.O3-mini se introdujo para proporcionar unModelos de razonamiento más rápidos y rentables--es mucho más barato por token que O1 o GPT-4o y tiene menor latencia. Sin embargo, O3-mini es un modelo más pequeño, por lo que, aunque es potente para el razonamiento STEM, puede que no esté a la altura de O1 o GPT-4 para el conocimiento general o el razonamiento extremadamente complejo. Para ofrecer el mejorcapacidad de respuestaSi la latencia es un problema y la tarea no es de máxima complejidad, entonces O3-mini (o incluso GPT-4o) puede ser la mejor opción. Si la latencia es un problema y la tarea no es de máxima complejidad, entonces O3-mini (o incluso GPT-4o) puede ser una mejor opción. problemas realmente difíciles. En resumen, utilice la herramienta adecuada para cada tarea: si utiliza O1, prevea tiempos de respuesta más largos y prevea una salida más lenta (posiblemente avisando al usuario o ajustando el tiempo de espera del sistema).Ejemplo de consejo:
- Prioridad de velocidad (apto para GPT-4o u O3-mini): "Resuma rápidamente los puntos principales de este artículo, cuanto más rápido mejor".
- Prioridad de profundidad (adecuado para O1):"Analiza en profundidad la lógica y las pruebas de la argumentación de este artículo y valora la credibilidad de sus argumentos".

Consejos para maximizar las técnicas de ingeniería de rendimiento

El uso eficaz de O1 y O3-mini requiere un enfoque ligeramente diferente al de GPT-4o. A continuación se describen las principales técnicas y buenas prácticas para obtener resultados óptimos con estos modelos de inferencia:

Mantenga las puntas despejadas y reducidas al mínimo

Haga su petición de forma sucinta y clara. Como O1 y O3 realizan un razonamiento interno intensivo, no les interesan las preguntas centradas ni las instrucciones sin textos extrañosResponder a los mejores. openAI e investigaciones recientes sugieren que debe evitarse el uso de claves demasiado complejas o bootstrapping para estos modelos. En la práctica, esto significa que deberíasExponga el problema o la tarea con claridad y proporcione sólo los detalles necesarios.No es necesario añadir "modificadores" ni reformular la consulta múltiples veces. No es necesario añadir "modificadores" ni reformular la pregunta varias veces. Por ejemplo, en lugar de escribir: "En este desafiante rompecabezas, quiero que razones cuidadosamente cada paso para llegar a la solución correcta. Vamos a desglosarlo paso a paso ......", sería mejor preguntar simplemente: "Resuelve el siguiente puzzle [incluyendo los detalles del puzzle]. Explica tu razonamiento". De forma natural, el modelo pensará internamente paso a paso y dará una explicación. Demasiadas instrucciones puedencomplicar-Según un estudio, añadir demasiadas pistas o demasiados ejemplos puedeRendimiento reducido de O1que esencialmente abruma su proceso de razonamiento.Consejo: Para tareas complejas, comience con cero pistas de muestra (sólo descripciones de tareas) y añada más instrucciones sólo cuando vea que el resultado no satisface sus necesidades. A menudo, minimizar las pistas produce los mejores resultados para estos modelos de inferencia.

Ejemplo de consejo:

Consejos simples (O1/O3-mini): "Analice este informe de investigación de mercado para identificar las tres tendencias más importantes del mercado".
Consejo de redundancia (no recomendado): "Tengo aquí un informe de investigación de mercado muy importante, con mucho contenido e información, y me gustaría que lo leyera con atención y detenimiento, que pensara profundamente en él y que luego lo analizara, ¿cuáles son las tendencias de mercado más importantes de este informe? Lo mejor sería que enumerara las tres tendencias más importantes y explicara por qué cree que son las más importantes".

Evitar muestras innecesariamente pequeñas

Los trabajos tradicionales de cueing GPT-3/4 suelen utilizar menos ejemplos de muestra o demostraciones para guiar al modelo. Sin embargo, para O1/O3, menos es más: la serie O1 está específicamente entrenada para no incluir pistas con un gran número de ejemplos. De hecho, el uso de múltiples ejemplossocavarRendimiento. La investigación sobre O1-preview y O1-mini sugiere que las pistas con menos muestras degradan sistemáticamente su rendimiento: incluso los ejemplos bien elegidos pueden hacer que sean peores que las pistas simples en muchos casos. El razonamiento interno parece distraerse o verse limitado por los ejemplos.Las propias directrices de OpenAI están en línea con esto: recomiendan limitar el modelo de inferencia a otros contextos o ejemplos para evitar confundir su lógica interna. La mejor práctica: utilizar cero ejemplos o, como mucho, un ejemplo absolutamente necesario. Si incluye un ejemplo, que sea muy pertinente y sencillo. Por ejemplo, en las preguntas de análisis jurídico, normalmenteno (actuará, sucederá, etc.)Añada el ejemplo completo del caso práctico por adelantado; en su lugar, pida directamente el nuevo caso. El único caso en el que podrías usar una demostración es si el formato de la tarea es muy específico y el modelo no sigue las instrucciones - entonces muestra un ejemplo corto del formato deseado. De lo contrario, confía en que el modelo lo deduzca a partir de la consulta directa.

Ejemplo de consejo:

Cero puntas de muestra (óptimo): "Basándose en la siguiente información de la historia clínica, diagnostique una enfermedad que pueda tener el paciente. [pegar información de la historia clínica]"
Menos puntas de muestra (no recomendado): "He aquí algunos ejemplos de diagnóstico de enfermedades: [Ejemplo 1], [Ejemplo 2] Ahora, por favor, diagnostique una enfermedad que pueda tener el paciente basándose en la siguiente información de la historia clínica. [pegar información de la historia clínica]" (para O1/O3-mini, las indicaciones de muestra cero suelen funcionar mejor)

Establecimiento de funciones y formatos mediante comandos de sistema/desarrollador

explícitocontexto de mandoAyuda a guiar la respuesta del modelo. Utilice las API (o los mensajes del sistema en los diálogos) para definir sucintamente el papel o el estilo del modelo. Por ejemplo, un mensaje del sistema podría ser: "Eres un investigador científico profesional especializado en explicar soluciones paso a paso". O1 y O3-mini responden bien a estas directivas de rol y las incorporan a su razonamiento. Sin embargo, tenga en cuenta que ya son buenos comprendiendo tareas complejas, por lo que sus instrucciones deben centrarse enEl tipo de salida que desea** en lugar delCómo pensar. Los buenos usos de la Directiva Sistema/Desarrollador incluyen:**

Definir el alcance de la tarea o función: Por ejemplo, "actuar como un analista jurídico" o "resolver problemas como un profesor de matemáticas explica a un alumno". Esto afecta al tono y al nivel de detalle.
Especifica el formato de salida: Si necesita la respuesta en forma estructurada (viñetas, tabla, JSON, etc.), especifíquelo explícitamente.O1, y especialmente O3-mini, admiten modos de salida estructurados y cumplirán las peticiones de formato. Por ejemplo, "Presente sus conclusiones en forma de lista de viñetas clave". Dada su naturaleza lógica, tienden a seguir exactamente las instrucciones de formato, lo que ayuda a mantener la coherencia de las respuestas.
Establecer los límites: Si quiere controlar la redundancia o el enfoque, puede incluir cosas como "proporcione conclusiones breves tras análisis detallados" o "utilice sólo la información proporcionada y no haga suposiciones externas". Los modelos de razonamiento se ceñirán a estos límites y se podrá evitar que se salgan del tema o creen ilusiones. Esto es importante porque O1 puede producir análisis muy detallados, lo que suele estar bien, pero no si se necesita explícitamente un resumen.

Asegúrese de incluir siempre cualquier orientación sobre el tono, la caracterización y el formato.

Ejemplo de prompt (mensaje del sistema):

Mensaje del sistema: "Es usted un asesor jurídico con experiencia, especializado en analizar casos jurídicos complejos y en ofrecer un asesoramiento jurídico profesional y riguroso."
Consejo para el usuario: "Analice el caso 'Smith contra Jones' y determine si Jones debe ser considerado responsable". (El modelo se analizará en el papel y el tono de un asesor jurídico)

Control de la redundancia y la profundidad mediante comandos

Aunque O1 y O3-mini razonan en profundidad de forma natural, puede controlar ese razonamiento en la funciónexportacionesEl grado en que se refleja en la Si deseaPara una explicación detallada**, indúzcalo (por ejemplo, "Muestre su razonamiento paso a paso en su respuesta"). No es necesario insistirAdelanterazonamiento, pero si quieresver quede ello, sí necesitan estar informados. En cambio, si considera que la respuesta del modelo es demasiado larga o técnica para sus propósitos, indíquele que sea más conciso o que se centre sólo en determinados aspectos. Por ejemplo: "Resuma el análisis en 2-3 párrafos, incluyendo sólo los puntos más críticos". Los modelos suelen seguir estas instrucciones en cuanto a extensión o enfoque. Recuerde que el comportamiento por defecto de O1 es la minuciosidad -está optimizado para la corrección más que para la brevedad-, por lo que puede tender a proporcionar más detalles. En la mayoría de los casos, un requisito directo de brevedad anulará esta tendencia. **

con respecto aO3-mini**, OpenAI proporciona una herramienta adicional para gestionar la profundidad:"Parámetro "Fuerza del razonamiento(Bajo, Medio, Alto). Este ajuste permite al modelo saber lo difícil que es "pensar". En términos de pistas, si utilizas una API o un sistema que exponga esta funcionalidad, puedes subirla para tareas muy complejas (asegurando el máximo razonamiento a costa de respuestas más largas y retrasos) o bajarla para tareas más sencillas (respuestas más rápidas y ágiles). En esencia, se trata de otra forma de controlar la redundancia y el rigor. Si no tienes acceso directo a este parámetro, puedes simularlo indicando explícitamente "dar una respuesta rápida, no se requiere un análisis en profundidad".baja intensidadpara situaciones en las que la velocidad es más importante que la precisión perfecta. En cambio, para simularalta intensidadPuede decir "Tome todas las medidas necesarias para llegar a la respuesta correcta, aunque la explicación sea larga". Estas pistas son coherentes con el funcionamiento de los ajustes internos del modelo. **

Ejemplo de consejo:

Control de la redundancia: "Resuma los puntos principales de este artículo, con un límite de 200 palabras".
Profundidad de control: "Analiza en profundidad la estructura argumentativa de este ensayo y valora si es lógicamente sólida y está bien argumentada."

Garantizar la precisión en tareas complejas

Para obtener la respuesta más precisa sobre cuestiones difíciles, por favorAproveche el modelo de inferencia de la pregunta**. Dado que O1 puede autocomprobarse e incluso detectar contradicciones, puedes pedirle que aproveche esta ventaja: por ejemplo, "Analiza todos los hechos y comprueba dos veces la coherencia de tus conclusiones".Normalmente lo hace sin preguntar.Jamahiriya Árabe LibiaaumentarEste comando pide al modelo que sea más cuidadoso. Curiosamente, dado que O1 ya realiza una autocomprobación de los hechos, rara vez es necesario pedirle que "valide cada paso" (lo que es más útil para GPT-4o). En su lugar, céntrate en proporcionar información completa y clara. Si hay ambigüedades potenciales en la pregunta o la tarea, aclárelas en la instrucción o pida al modelo que enumere las suposiciones. Esto evita que el modelo adivine incorrectamente. **

Tratamiento de fuentes y datos: Si la tarea consiste en analizar datos dados (por ejemplo, resumir un documento o calcular una respuesta a partir de las cifras facilitadas), asegúrate de presentar los datos con claridad. Puedes incluso desglosar los datos en viñetas o tablas para mejorar la claridad. Si el modelo no debe crear ilusiones (por ejemplo, en un contexto jurídico, no debe inventarse leyes), deja claro que "tu respuesta se basa únicamente en la información proporcionada y en el sentido común; no te inventes ningún detalle". Los modelos de razonamiento suelen ser buenos a la hora de ceñirse a los hechos conocidos, y este tipo de instrucciones reducen aún más la probabilidad de alucinaciones.Iteración y validación: Si la tarea es crítica (por ejemplo, razonamiento jurídico complejo o cálculos de ingeniería de alto riesgo), las técnicas de ingeniería rápida sonintegrado (como en circuito integrado)La respuesta del modelo. No se trata de una única pregunta, sino de una estrategia: puede ejecutar la consulta (o pedir al modelo que considere soluciones alternativas) varias veces y luego comparar las respuestas. la aleatoriedad de O1 significa que puede explorar un camino de razonamiento diferente cada vez. Si se comparan los resultados o se pide al modelo que "reflexione sobre la existencia de explicaciones alternativas" en preguntas posteriores, se puede aumentar la confianza en los resultados. Aunque GPT-4o también se beneficia de este enfoque, es especialmente útil para O1 cuando la precisión absoluta es crítica, ya que básicamente explota la profundidad del propio modelo a través de la validación cruzada.

Por último, recuerde que la selección del modelo forma parte de la ingeniería de señalización: si el problema no requiere realmente un razonamiento de nivel O1, puede ser más eficaz e igual de preciso utilizar GPT-4o. openAI recomienda reservar O1 para los casos difíciles y utilizar GPT-4o para el resto. así que un meta-consejo: evalúe primero la complejidad de la tarea. Si es sencilla, o bien se le da a O1 una señal muy directa para evitar que piense demasiado, o bien se cambia a GPT-4o. Si es compleja, se utilizan las técnicas anteriores para aprovechar las capacidades de O1.

Ejemplo de consejo:

Énfasis en las fuentes de datos: "Analice las categorías de productos con mayor crecimiento de ventas en el último trimestre basándose en la siguiente tabla de datos de ventas. [pegar tabla de datos de ventas] Asegúrese de utilizar únicamente los datos de la tabla para su análisis y no haga referencia a otras fuentes."
Validación iterativa: "Analice el caso 'Smith contra Jones' y determine si Jones debe ser considerado responsable. Indique los resultados de su análisis inicial. A continuación, revise su análisis y considere si existen otras posibles explicaciones o lagunas. Por último, combine los resultados de ambos análisis y emita su opinión jurídica final". (Mejora de la fiabilidad de los análisis jurídicos mediante la iteración y la reflexión)

Cómo gestiona O1/O3-mini la deducción lógica frente a GPT-4o

Estos modelos de razonamiento tratan los problemas lógicos de una forma fundamentalmente diferente a la del GPT-4o, y su estrategia de estímulo debe ajustarse en consecuencia:

Cadena interna de pensamiento: O1 y O3-mini realizan eficazmente el diálogo interno o las soluciones paso a paso porque interpretan las respuestas. A menos que se le indique explícitamente, es posible que el GPT-4o no siga cada paso de forma rigurosa. Por ejemplo, en rompecabezas lógicos o problemas matemáticos, el GPT-4o puede dar una respuesta rápida que suene plausible, pero omitiendo parte del razonamiento, lo que aumenta el riesgo de error.El O1 desglosará automáticamente el problema, considerando todos los ángulos, antes de dar la respuesta, razón por la cual obtiene puntuaciones significativamente más altas en las evaluaciones con mucha lógica.Pista de diferencia: no pida a O1 que "muestre la deducción" a menos que realmente quiera verla. Para GPT-4o, utilizará la indicación CoT ("Primero, considere ...... y luego ......") para mejorar la deducción, pero para O1, ¡está incorporado indicarlo externamente! Hacerlo puede ser redundante o incluso confuso. En su lugar, asegúrese de plantear el problema con claridad y deje que O1 lo razone deductivamente.Ejemplo de consejo:
- GPT-4o (necesidad de dirigir la cadena de pensamiento): "Resuelve el siguiente problema de aplicación matemática: [TEMA DE APLICACIÓN]. Sigue estos pasos para resolver el problema: 1. comprende el significado del problema; 2. analiza las condiciones conocidas y desconocidas; 3. enumera los pasos para resolver el problema; y 4. calcula la respuesta."
- O1 (sin arranque): "Resolver el siguiente problema de aplicación de matemáticas: [Título de la aplicación]". (O1 razonará automáticamente de forma lógica y dará la respuesta)
Abordar la ambigüedad: En una tarea de deducción lógica, el GPT-4o puede hacer suposiciones inmediatas si hay falta de información o ambigüedad. Debido a su enfoque reflexivo, es más probable que el O1 marque las ambigüedades o considere múltiples posibilidades. Para aprovechar esto, su indicación al O1 podría ser preguntarle directamente: "Si hay alguna incertidumbre, por favor indique sus suposiciones antes de resolverlas." El GPT-4 puede necesitar más este tipo de empujón. El o1 puede hacerlo de forma natural, o al menos es menos probable que asuma hechos no dados. Así pues, al comparar los dosLa interpretación de O1 es cuidadosa y minuciosay la interpretación de GPT-4o es rápida y extensa. Ajuste sus indicaciones en consecuencia: con GPT-4o, guíelo discretamente; con O1, lo más importante es proporcionarle información y dejar que haga lo suyo.Ejemplo de consejo:
- O1 (tratamiento de la ambigüedad): "Analice este contrato y determine si es válido. Si, en el curso de su análisis, encuentra ambigüedades en alguna de las cláusulas, identifíquelas claramente y exponga su comprensión y sus suposiciones sobre dichas ambigüedades."
Exportación progresiva: A veces realmente quieres estar enexportacionesVea los pasos lógicos en (para la enseñanza o la transparencia). Con GPT-4o, debe solicitarlo explícitamente ("Por favor, muestre su trabajo"). Si la pregunta es suficientemente compleja, O1 puede incluir razonamiento estructurado por defecto, pero normalmente proporcionará una respuesta bien razonada sin tener que enumerar explícitamente cada paso a menos que se le pida. Si desea que O1 produzca una cadena lógica, sólo tiene que pedírselo; lo hará sin dificultad. De hecho, se ha observado que O1-mini es capaz de proporcionar descomposiciones paso a paso cuando se le pide (por ejemplo, en problemas de codificación). Además, si(prefijo negativo)Si quieres que O1 proporcione una larga exposición de la lógica (tal vez sólo quieres la respuesta final), debes decir "dar la respuesta final directamente" para saltarte la explicación detallada.Ejemplo de consejo:
- Requiere salida paso a paso (O1): "Resuelve este problema de programación: [descripción del problema de programación]. Muestra tu solución paso a paso, incluyendo cada línea de código que escribiste, y explica qué hace el código."
- Requiere salida directa (O1): "Resuelva este problema de programación: [descripción del problema de programación]. Indique directamente el código final del programa sin explicaciones".
Rigor lógico frente a creatividad: Otra diferencia: GPT-4 (y 4o) se caracteriza por la creatividad y la generatividad. A veces, en los problemas de lógica, esto puede llevarle a "imaginar" escenarios o analogías, lo que no siempre es necesario. o1 es más riguroso y se ceñirá al análisis lógico. Si su pregunta incluye un escenario que requiere tanto deducción como un poco de creatividad (por ejemplo, uniendo pistas), entonces puede utilizarlo como ejemplo.responder cantandoañadir narración para resolver un misterio), GPT-4 puede ser mejor en el manejo de la narración, mientras que O1 se centrará estrictamente en la deducción. En el proyecto de preguntas, puede combinar sus puntos fuertes: utilice O1 para obtener una solución lógica y, a continuación, utilice GPT-4 para embellecer la presentación. Si te quedas sólo con O1/O3-mini, ten en cuenta que puede que tengas que pedirle explícitamente toques creativos o respuestas más imaginativas: están diseñados para dar prioridad a la lógica y la corrección.Ejemplo de consejo:
- Énfasis en la creatividad (GPT-4o): "Se le pide que desempeñe el papel de detective y razone una historia policíaca convincente basándose en las siguientes pistas, incluyendo la causa, el curso y el desenlace del caso, así como los motivos y el modus operandi del asesino. [proporcione pistas]"
- Énfasis en el rigor lógico (O1): "Se le pide que desempeñe el papel de un lógico que, basándose en las siguientes pistas, deduce rigurosamente la verdad del caso y explica la base lógica de cada paso del razonamiento. [proporcione pistas]"

Ajustes clave: En resumen, para aprovechar la lógica de O1/O3-mini, proporcióneles las tareas de razonamiento más exigentes en forma de instrucciones individuales bien definidas. Deje que completen la lógica internamente (están construidos para este fin) sin tener que microgestionar sus procesos de pensamiento. Para la GPT-4o, siga utilizando la ingeniería de instrucciones clásica (descomponiendo el problema, exigiendo un razonamiento por pasos, etc.) para inducir el mismo nivel de deducción. Lo que puede confundir al GPT-4o puede ser adecuado para el O1 y viceversa, debido a sus diferentes métodos de razonamiento.

Consejos eficaces: resumen de buenas prácticas

Para consolidar lo anterior en una guía práctica, he aquí una lista de las mejores prácticas a la hora de incitar al O1 o al O3-mini:

Utilice instrucciones claras y específicas: Explique claramente lo que quiere que haga o responda el modelo. Evite los detalles irrelevantes. Para preguntas complejas, suele bastar con un interrogatorio directo (no es necesario recurrir a juegos de rol complejos ni a preguntas múltiples).
Proporcione el contexto necesario y omita el resto: Incluya cualquier información de dominio que el modelo vaya a necesitar (hechos sobre el caso, datos sobre el problema matemático, etc.), ya que es posible que el modelo no tenga conocimientos actualizados o de nicho. Sin embargo, no incluya texto irrelevante ni demasiados ejemplos en la pregunta: el contenido adicional inútil puededebilitamientoModelización de la atención.
Ejemplos de submuestreo mínimos o inexistentes: Por defecto, comience con cero indicaciones de muestra. Si el modelo no entiende la tarea o el formato, añada una muestra sencilla como guía, pero no añada largas cadenas de muestras para O1/O3-mini. No lo necesitan e incluso pueden degradar el rendimiento.
Establezca el carácter o el tono de voz si es necesario: Utiliza mensajes del sistema o prefijos breves para situar al modelo en el estado de ánimo adecuado (por ejemplo, "Eres un asistente jurídico senior analizando casos"). . Esto ayuda especialmente con el tono (formal frente a informal) y garantiza un lenguaje apropiado para el dominio.
Especifica el formato de salida: Si desea que la respuesta tenga una estructura específica (lista, esquema, JSON, etc.), informe explícitamente al modelo. El modelo de inferencia seguirá de forma fiable las instrucciones de formato. Por ejemplo: "Dé su respuesta en una lista ordenada de pasos".
Controle la longitud y los detalles por descripción: Si quiere una respuesta breve, hágalo explícito ("responda en un párrafo" o "responda sólo sí/no y explíquelo en una frase"). Si quiere un análisis en profundidad, anímelo ("proporcione una explicación detallada"). No des por sentado que el modelo conoce por defecto el nivel de detalle que deseas: indícaselo.
Utilizando el ajuste de fuerza de inferencia de O3-mini: Cuando utilice O3-mini a través de la API, seleccione la intensidad de razonamiento adecuada (baja/media/alta) para la tarea. Alto proporciona respuestas más exhaustivas (para razonamientos jurídicos complejos o preguntas difíciles) y bajo proporciona respuestas más rápidas y breves (para comprobaciones rápidas o consultas más sencillas). Se trata de una forma única de ajustar el comportamiento de las preguntas de O3-mini.
Evite las indicaciones "paso a paso" redundantes: no añada frases u órdenes de cadena de pensamiento como "vamos a pensarlo bien" para O1/O3-mini; el modelo ya lo hace internamente. Guarde estos tokens y utilice estas sugerencias sólo en GPT-4o, donde tienen un impacto. Una excepción podría ser si desea explícitamente que el modelo de salida de cada paso para la transparencia - entonces usted puede utilizar esto en elexportacionesEstá obligado a hacerlo, pero aún así no es necesario que le digas queAplicación prácticaRazonamiento.
Pruebas e iteración: Dado que estos modelos pueden ser sensibles a la redacción, si no obtiene una buena respuesta, intente reformular la pregunta o reforzar las instrucciones. Puede que pequeños cambios (por ejemplo, hacer preguntas directas en lugar de abiertas) produzcan respuestas significativamente mejores. Afortunadamente, los O1/O3-mini requieren menos iteraciones que los modelos anteriores (suelen realizar correctamente tareas complejas en una sola sesión), pero los ajustes de las instrucciones pueden ayudar a optimizar la claridad o el formato.
Valida los resultados importantes: Para casos de uso críticos, no confíe en un único ciclo de pregunta-respuesta. Utilice preguntas de seguimiento para pedir al modelo que valide o justifique su respuesta ("¿Está seguro de esa conclusión? Explique por qué"). o repita la pregunta para comprobar si se obtienen resultados coherentes. Las respuestas coherentes y bien razonadas indican que el razonamiento del modelo es fiable.

Siguiendo estas técnicas, podrás aprovechar todas las capacidades de la O1 y la O3-mini con una respuesta muy optimizada.

Aplicación de las mejores prácticas a los casos jurídicos

Por último, consideremos cómo podemos traducir estas directrices de ingeniería de sugerencias enEscenario de análisis de un caso jurídico** (como se ha descrito anteriormente). Los análisis jurídicos son ejemplos perfectos de tareas de razonamiento complejas en las que O1 puede ser muy eficaz, siempre y cuando elaboremos el prompt:**.

Entrada construida: Comience por exponer claramente los hechos clave del caso y las cuestiones jurídicas que deben responderse. Por ejemplo, enumere los antecedentes como viñetas o párrafos breves y, a continuación, formule explícitamente la pregunta jurídica: "A la luz de los hechos anteriores, determine si la Parte A es responsable de incumplimiento de contrato en virtud de la legislación estadounidense". Construir la pregunta de esta manera permite al modelo analizar el escenario más fácilmente. También garantiza que no se pase por alto ningún detalle crítico.
Proporcione el contexto o la legislación pertinente: O1 no tiene una función de búsqueda y puede que no sea capaz de recordar de memoria nichos de leyes, por lo que si sus análisis dependen del texto de una ley específica, proporciónelo al modelo. Por ejemplo, "Basándose en [extracto de la ley X], [proporcione el texto] ...... aplica esta ley al caso". De este modo, el modelo dispone de las herramientas necesarias para realizar inferencias precisas.
Configuración de roles en los mensajes del sistema: Instrucciones del sistema como "Usted es un analista jurídico que explica la aplicación de la ley a los hechos de forma clara y paso a paso". incitarán al modelo a producir un análisis formal y razonado. Aunque O1 ha intentado un razonamiento cuidadoso, la instrucción ajusta su tono y estructura a lo que cabría esperar en el discurso jurídico (por ejemplo, citar hechos, aplicar la ley, extraer conclusiones).
No hace falta poner varios ejemplos: No proporcione un ejemplo completo de estudio de caso como guía (puede considerar utilizar GPT-4o para esto).O1 no necesita seguir el ejemplo - puede realizar el análisis desde cero. Sin embargo, podría mencionar brevemente el formato requerido: "Proporcione su respuesta en formato IRAC (pregunta, regla, análisis, conclusión)". Esta nota de formato proporciona una plantilla sin necesidad de mostrar largos ejemplos, y O1 organizará la salida en consecuencia.
Controle la redundancia según sea necesario: Si necesita un análisis exhaustivo del caso, pida a O1 que emita su razonamiento completo. El resultado pueden ser varios párrafos que cubran cada asunto en profundidad. Si considera que el resultado es demasiado extenso, o si necesita específicamente un resumen sucinto (por ejemplo, una opinión consultiva rápida), indique al modelo que "limite el análisis a unos pocos párrafos clave, centrándose en las cuestiones fundamentales". De este modo se asegurará de que sólo se recogen los puntos principales. Por otro lado, si la respuesta inicial le parece demasiado breve o superficial, vuelva a preguntarle: "Explique con más detalle, especialmente cómo aplica la ley a los hechos". El O1 estará encantado de dar más detalles, puesto que ya ha realizado internamente el razonamiento pesado.
Precisión y coherencia lógica: El análisis jurídico requiere precisión a la hora de aplicar reglas a los hechos. Con O1, puedes confiar en que resuelva los problemas de forma lógica, pero es aconsejable volver a comprobar cualquier referencia legal o afirmación específica que haga (ya que sus datos de entrenamiento pueden no tener todos los detalles). Incluso puedes añadir una pista al final, como "Comprueba dos veces que se han resuelto todos los hechos y que las conclusiones se ajustan a la ley". Dada la tendencia de O1 a la autocomprobación, puede que él mismo señale si algo no se sostiene o si se necesitan otros supuestos. Se trata de una red de seguridad útil en áreas en las que los matices son importantes.
Utilice consultas de seguimiento: En los escenarios jurídicos es habitual hacer preguntas de seguimiento. Por ejemplo, si O1 hace un análisis, puedes preguntarle: "¿Y si el contrato tuviera otras condiciones de rescisión? ¿Cómo cambiaría eso el análisis?". O1 puede manejar estas preguntas iterativas muy bien con el razonamiento. Ten en cuenta que si estás trabajando en un proyecto, la interfaz no tiene memoria a largo plazo más allá del contexto de diálogo actual (y no se navega por ella), y cada pieza de contenido posterior debe basarse en el contexto proporcionado o incluir cualquier información nueva necesaria. Mantén el diálogo centrado en los hechos del caso en cuestión para evitar confusiones.

Aplicando estas buenas prácticas, sus consejos guiarán al O1 o al O3-mini en la realización de análisis jurídicos de alta calidad. En resumen, presente los casos con claridad, asigne tareas y deje que los modelos de razonamiento hagan el trabajo pesado.El resultado debe ser una discusión jurídica bien razonada, paso a paso, que haga uso de las capacidades lógicas de O1, todo ello optimizado por una construcción eficaz del prompt.

Utilizar los modelos de inferencia de OpenAI de este modo permite aprovechar sus puntos fuertes en la resolución de problemas complejos, al tiempo que se mantiene el control sobre el estilo y la claridad del resultado. Como señala la propia documentación de OpenAI, la serie O1 destaca en tareas de razonamiento profundo en ámbitos como la investigación y la estrategia; el análisis jurídico también se beneficia de esta característica. Si comprende las diferencias con GPT-4o y adapta sus métodos de guiado en consecuencia, podrá maximizar el rendimiento de O1 y O3-mini y obtener respuestas precisas y bien estructuradas, incluso en las tareas de razonamiento más complejas.