Explicación de las palabras clave COT y las variantes avanzadas de las mismas

Base de conocimientos de IA2年前更新 Círculo de intercambio de inteligencia artificial

50.2K 00

Descargo de responsabilidad: Aunque las técnicas básicas de pistas (por ejemplo, cero o pocos ejemplos de muestra o pistas imperativas) son muy eficaces, las pistas más sofisticadas pueden ser más efectivas cuando nos enfrentamos a algunos rompecabezas complejos (por ejemplo, problemas matemáticos/de programación o problemas que requieren un razonamiento lógico de varios pasos). Dado que los Modelos de Lenguaje Extensos (LLM) tienen dificultades naturales para enfrentarse a este tipo de problemas (su capacidad de razonamiento no aumenta monotónicamente con el tamaño del modelo), la mayor parte de la investigación sobre el diseño de pistas se ha centrado en cómo mejorar el razonamiento y la capacidad de resolver problemas complejos. Para la mayoría de los demás problemas bastan indicaciones sencillas.

Cadena de pensamiento (CdT)Hints [1] activa las capacidades de razonamiento de LLM añadiendo una cadena de pasos intermedios de razonamiento a las pistas del modelo. Al añadir una cadena de pensamientos para cada ejemplo, el modelo aprende (a través del aprendizaje contextual) a generar automáticamente cadenas de pensamientos similares antes de dar una respuesta. El estudio de [1] muestra que explicar explícitamente el proceso de razonamiento para resolver un problema puede ser realmente eficaz para mejorar la capacidad de razonamiento de un modelo.

Entrada:
Los números impares de este conjunto suman un número par: 4, 8, 9, 15, 12, 2, 1.
R: Suma todos los números impares (9, 15, 1) para obtener 25. la respuesta es Falsa.
Los números impares de este grupo suman un número par: 17, 10, 19, 4, 8, 12, 24.
R: Suma todos los números impares (17, 19) para obtener 36. la respuesta es Verdadero.
Los números impares de este conjunto suman un número par: 16, 11, 14, 4, 8, 13, 24.
R: Suma todos los números impares (11, 13) para obtener 24. la respuesta es Verdadero.
Los números impares de este conjunto suman un número par: 17, 9, 10, 12, 13, 4, 2.
R: Suma todos los números impares (17, 9, 13) para obtener 39. la respuesta es Falsa.
Los números impares de este conjunto suman un número par: 15, 32, 5, 13, 82, 7, 1.
A:
Salida:
Suma todos los números impares (15, 5, 13, 7, 1) para obtener 41. la respuesta es Falso.

Cadena de pensamiento automatizada (Auto-CoT)[8]: Cuando se utilizan indicaciones de cadena de pensamiento, el proceso requiere la producción manual de ejemplos válidos y diversos. Este trabajo manual puede dar lugar a soluciones subóptimas. [8] propone una forma de eliminar el esfuerzo manual utilizando LLMs "Pensemos paso a paso" prompts para generar cadenas de razonamiento una tras otra. Este proceso automatizado puede cometer errores en las cadenas generadas. Para mitigar los efectos de los errores, es importante la variedad en la presentación. Este trabajo propone Auto-CoT, que muestra problemas con diversidad y genera cadenas de razonamiento para construir demostraciones.

Auto-CoT consta de dos fases principales:

Etapa 1: Agrupación de problemas: división del problema dado en varios grupos
Etapa 2: Muestreo de demostración: seleccionar un problema representativo de cada matriz y generar su cadena de inferencia utilizando Zero-Shot-CoT con una heurística simple.
Algunos heurísticos sencillos pueden ser la longitud del problema (por ejemplo, 60 tokens) y el número de pasos del razonamiento (por ejemplo, 5 pasos de inferencia). Esto anima a los modelos a utilizar presentaciones sencillas y precisas.

A continuación se muestra el proceso:

Variante CoTEl objetivo: dada la validez de las indicaciones de TdT y su popularidad, se han propuesto múltiples técnicas derivadas:

Cero ejemplos de muestra CoT [2]: elimina algunos ejemplos y motiva al modelo a generar razonamientos lógicos para resolver el problema añadiendo "Pensemos paso a paso." al final de la indicación. para motivar al modelo a generar razonamientos lógicos para resolver el problema.

Entrada:
He ido al mercado y he comprado 10 manzanas. Le di 2 manzanas a mi vecino y 2 manzanas al reparador. Después he ido a comprar 5 manzanas y me he comido 1. ¿Cuántas manzanas me han sobrado?
Pensemos paso a paso.
Salida:
Primero, empiezas con 10 manzanas.
Has dado 2 manzanas a cada uno de tus vecinos y al reparador, así que te quedan 6 manzanas.
Entonces compras 5 manzanas, por lo que ahora tienes 11 manzanas.
Al final, te comes 1 manzana, por lo que te quedan 10 manzanas.

Autoconsistencia (SC) [3]: mejora la robustez del proceso de razonamiento generando de forma independiente múltiples soluciones y votando por mayoría la respuesta final.

Entrada:
P: Hay 15 árboles en el bosque. Los trabajadores forestales plantarán hoy árboles en el bosque. Cuando terminen, habrá 21 árboles. ¿Cuántos árboles han plantado hoy los trabajadores forestales?
R: Empezamos con 15 árboles. Más tarde tuvimos 21 árboles. La diferencia debe ser el número de árboles que plantaron. Por lo tanto, deben haber plantado 21-15 = 6 árboles. La respuesta es 6.
P: Había 3 coches en el aparcamiento y llegaron 2 coches más, ¿cuántos coches había en el aparcamiento?
R: Ya hay 3 coches en el aparcamiento. Han entrado otros 2 coches. Ahora hay 3 + 2 = 5 coches. La respuesta es 5.
P: Leah tiene 32 trozos de chocolate y su hermana 42 trozos. Si se han comido 35 trozos, ¿cuántos trozos les quedan en total?
R: Leah tiene 32 bombones y la hermana de Leah tiene 42 bombones. Esto significa que inicialmente había 32 + 42 = 74 bombones. Ya se han comido 35. Por lo tanto, les queda un total de 74 - 35 = 39 bombones. La respuesta es 39.
P: Jason tiene 20 piruletas. Le da a Denny algunas piruletas. Ahora Jason sólo tiene 12 piruletas. ¿Cuántas piruletas le dio Jason a Denny?
A: Jason tiene 20 piruletas. Como ahora sólo tiene 12, debe darle el resto a Denny. El número de piruletas que le da a Denny debe ser 20 - 12 = 8 piruletas. La respuesta es 8.
P: Shawn tiene cinco juguetes. En Navidad, sus padres le regalaron dos juguetes. ¿Cuántos juguetes tiene ahora?
R: Tiene 5 juguetes. Recibió 2 de su madre, así que en total tiene 5 + 2 = 7 juguetes. Luego recibió 2 de su padre, así que en total tiene 7 + 2 = 9 juguetes. La respuesta es 9.
P: En la sala de servidores hay 9 ordenadores. De lunes a jueves, se instalan 5 ordenadores cada día. ¿Cuántos ordenadores hay ahora en la sala de servidores?
R: Fueron 4 días de lunes a jueves. Cada día se añadieron 5 ordenadores. Esto significa que un total de 4 * 5 =
20 ordenadores. Al principio había 9 ordenadores, así que ahora hay 9 + 20 = 29 ordenadores. La respuesta es 29.
P: Michael tiene 58 pelotas de golf. El martes perdió 23 pelotas. El miércoles perdió 2 más. ¿Cuántas pelotas de golf le quedaban al final del miércoles?
R: Michael tenía inicialmente 58 bolas. El martes perdió 23, así que después tenía 58-23 = 35 bolas. El miércoles perdió 2 más, por lo que ahora tiene 35-2 = 33 bolas. La respuesta es 33.
P: Olivia tiene 23 dólares. Ha comprado cinco bagels por 3 $ cada uno. ¿Cuánto dinero le queda?
R: Compró 5 bagels por 3 $ cada uno. Esto significa que se ha gastado 15 $. Le sobran 8 $.
P: Cuando yo tenía 6 años, mi hermana tenía la mitad de mi edad. Ahora que tengo 70, ¿qué edad tiene mi hermana?
A:
Salida 1:
Cuando yo tenía 6 años, mi hermana tenía la mitad de mi edad, es decir, 3 años. Ahora tengo 70, así que ella tiene 70-3 = 67. La respuesta es 67.
Salida 2:
Cuando el narrador tenía 6 años, su hermana tenía la mitad de su edad, es decir, 3 años. Ahora que el narrador tiene 70 años, su hermana tendría 70-3 = 67. La respuesta es 67.
Salida 3:
Cuando yo tenía 6 años, mi hermana tenía la mitad de mi edad, es decir, 3 años. Ahora tengo 70, así que ella tiene 70/2 = 35. La respuesta es 35.

De menor a mayor [4]: descomponer el problema en varias partes, resolverlas una a una y utilizar la respuesta a cada subproblema como contexto para resolver el siguiente.

Entrada:
Consulta del cliente.
El 1 de marzo compré una camiseta de su colección Arnold. Vi que estaba en oferta así que compré una camiseta que originalmente tenía un descuento de 30$. Me he dado cuenta de que ahora tenéis un nuevo descuento en camisetas, 50% de descuento. me preguntaba si puedo devolverla y seguir teniendo suficiente crédito en la tienda para comprar dos de vuestras camisetas.
Comando.
Usted es un representante del servicio de atención al cliente responsable de responder a las consultas de los clientes de forma amable. Se admiten devoluciones en un plazo de 30 días. Hoy es 29 de marzo. Todas las camisas tienen actualmente un descuento 50%. Los precios de sus camisas en tienda oscilan entre 18 y 100 $. Por favor, no invente ninguna información sobre la política de descuentos.
¿Qué subpreguntas deben abordarse antes de poder responder a esta pregunta?
Salida:
1. La fecha en que el cliente compró la camiseta;
2. Actividad actual de descuento;
3. gama de precios de las camisas de la tienda;
4. si el cliente dispone de crédito suficiente en la tienda;
5. Política de devoluciones de los clientes.
Entrada:
Consulta del cliente.
El 1 de marzo compré una camiseta de su colección Arnold. Vi que estaba en oferta así que compré una camiseta que originalmente tenía un descuento de 30$. Me he dado cuenta de que ahora tenéis un nuevo descuento en camisetas, 50% de descuento. me preguntaba si puedo devolverla y seguir teniendo suficiente crédito en la tienda para comprar dos de vuestras camisetas.
Comando.
Usted es un representante del servicio de atención al cliente responsable de responder a las consultas de los clientes de forma amable. Se admiten devoluciones en un plazo de 30 días. Hoy es 29 de marzo. Todas las camisas tienen actualmente un descuento 50%. Los precios de sus camisas en tienda oscilan entre 18 y 100 $. Por favor, no invente ninguna información sobre la política de descuentos.
Determine si el cliente se encuentra dentro del plazo de devolución de 30 días. Vayamos paso a paso.
Salida:
Estimado cliente, ¡muchas gracias por su apoyo a la gama Arnold! Nos complace poder ofrecerle nuestros servicios. Nuestra política de devoluciones es que los clientes pueden devolver los artículos dentro de los 30 días siguientes a la compra. Dado que compró su artículo el 1 de marzo, todavía está dentro del plazo de devolución y puede devolverlo.
Además, actualmente estamos celebrando una venta 50% en la que puedes utilizar tu crédito de la tienda para comprar dos camisetas de la colección Arnold. Nuestras camisetas oscilan entre los 18 $ y los 100 $, para que puedas elegir la que mejor se adapte a tus necesidades.
Si tiene alguna otra pregunta, no dude en ponerse en contacto con nosotros. Estaremos encantados de atenderle.

Árbol de los pensamientos [ToT].Consejo [5]: Los consejos CoT no resuelven problemas que requieran planificación, previsión estratégica, retroceso y exploración de múltiples soluciones en paralelo. Los consejos toT dividen los problemas complejos en una serie de problemas más simples (o "pensamientos"). lLM genera numerosos "pensamientos" y evalúa continuamente su progreso hacia una solución final a través del lenguaje natural. lLM genera numerosos "Pensamientos" y evalúa continuamente su progreso hacia la solución final a través del lenguaje natural. Utilizando la autoevaluación del modelo sobre el progreso de la solución, podemos aplicar algoritmos de búsqueda ampliamente utilizados (por ejemplo, búsqueda de amplitud-primera o de profundidad-primera) para facilitar el proceso de exploración y permitir la previsión/seguimiento al resolver problemas.

Supongamos que tres expertos diferentes responden a esta pregunta.
Todos los expertos escribieron sus primeros pasos en la reflexión sobre el tema y luego los compartieron con el grupo.
A continuación, todos los expertos escriben los siguientes pasos de su reflexión y los ponen en común.
Y así sucesivamente hasta que todos los expertos hayan escrito sobre todos los pasos de su pensamiento.
En cuanto la gente se da cuenta de que los pasos de un experto son erróneos, deja marchar a ese experto.
Disculpe...

Gráfico de pensamientos (GoT)Sugerencias [6, 7]: investigaciones posteriores han ampliado el trabajo sobre las sugerencias ToT a estrategias de razonamiento basadas en grafos. Estas técnicas son similares a las pistas ToT, pero no asumen que el camino del pensamiento que genera una solución sea lineal. Podemos reutilizar pensamientos e incluso aplicarlos recursivamente a una serie de pensamientos al derivar una solución. Aunque se han propuesto diversas estrategias de pistas basadas en grafos, estas técnicas, al igual que las pistas ToT, han sido criticadas por su falta de utilidad. Resolver un problema de razonamiento utilizando sugerencias ToT puede requerir que el LLM realice un gran número de pasos de razonamiento.

A continuación encontrará enlaces a todos los documentos citados.

[1] https://arxiv.org/abs/2201.11903
[2] https://arxiv.org/abs/2205.11916
[3] https://arxiv.org/abs/2203.11171
[4] https://arxiv.org/abs/2205.10625
[5] https://arxiv.org/abs/2305.10601
[6] https://arxiv.org/abs/2308.09687
[7] https://arxiv.org/abs/2305.16582

[8] https://arxiv.org/abs/2201.11903