Isenção de responsabilidade: embora as técnicas básicas de dicas (por exemplo, zero/poucos exemplos de amostra ou dicas imperativas) sejam muito eficientes, dicas mais sofisticadas podem ser mais eficazes quando se trata de alguns quebra-cabeças complexos (por exemplo, matemática/programação ou problemas que exigem raciocínio lógico em várias etapas). Como os modelos de linguagem grande (LLMs) naturalmente têm dificuldades para lidar com esses problemas (seu poder de raciocínio não aumenta monotonicamente com o tamanho do modelo), a maior parte das pesquisas sobre o design de dicas se concentrou em como melhorar o raciocínio e a capacidade de resolver problemas complexos. As dicas simples são suficientes para a maioria dos outros problemas.
Cadeia de pensamento (CoT)O Hints [1] ativa os recursos de raciocínio do LLM adicionando uma cadeia de etapas intermediárias de raciocínio às dicas do modelo. Ao adicionar uma cadeia de pensamentos para cada exemplo, o modelo aprende (por meio da aprendizagem contextual) a gerar automaticamente cadeias de pensamentos semelhantes antes de dar uma resposta. O estudo em [1] mostra que a explicação explícita do processo de raciocínio para resolver um problema pode, de fato, ser eficaz para melhorar a capacidade de raciocínio do modelo.
Entrada:
Os números ímpares desse conjunto resultam em um número par: 4, 8, 9, 15, 12, 2, 1.
A: Some todos os números ímpares (9, 15, 1) para obter 25. A resposta é Falso.Os números ímpares desse conjunto somam um número par: 17, 10, 19, 4, 8, 12, 24.
A: Some todos os números ímpares (17, 19) para obter 36. A resposta é Verdadeira.Os números ímpares desse conjunto somam um número par: 16, 11, 14, 4, 8, 13, 24.
A: Some todos os números ímpares (11, 13) para obter 24. A resposta é Verdadeira.Os números ímpares desse conjunto resultam em um número par: 17, 9, 10, 12, 13, 4, 2.
A: Some todos os números ímpares (17, 9, 13) para obter 39. A resposta é Falso.Os números ímpares desse conjunto somam um número par: 15, 32, 5, 13, 82, 7, 1.
A:Saída:
Some todos os números ímpares (15, 5, 13, 7, 1) para obter 41. A resposta é Falso.
Cadeia de pensamento automatizada (Auto-CoT)[8]: Ao usar prompts de cadeia de pensamento, o processo exige a produção manual de exemplos válidos e diversos. Esse trabalho manual pode levar a soluções abaixo do ideal. [8] propõe uma maneira de eliminar o esforço manual usando os prompts "Vamos pensar passo a passo" dos LLMs para gerar cadeias de raciocínio uma após a outra. Esse processo automatizado ainda pode cometer erros nas cadeias geradas. Para atenuar os efeitos dos erros, é importante que haja variedade na apresentação. Este trabalho propõe o Auto-CoT, que apresenta amostras de problemas com diversidade e gera cadeias de raciocínio para construir demonstrações.
O Auto-CoT consiste em duas fases principais:
Estágio 1: Agrupamento de problemas: divisão do problema em vários agrupamentos
Etapa 2: Amostragem de demonstração: selecione um problema representativo de cada matriz e gere sua cadeia de inferência usando o Zero-Shot-CoT com uma heurística simples
A heurística simples pode ser o tamanho do problema (por exemplo, 60 tokens) e o número de etapas no raciocínio (por exemplo, 5 etapas de inferência). Isso incentiva os modelos a usar apresentações simples e precisas.
O processo é mostrado a seguir:
Variante CoTO que é: Dada a validade dos prompts de CoT e sua popularidade, várias técnicas derivadas foram propostas:
- Zero exemplos de amostra CoT [2]: remove alguns exemplos e motiva o modelo a gerar raciocínio lógico para resolver o problema adicionando "Let's think step by step." (Vamos pensar passo a passo) no final do prompt. para motivar o modelo a gerar um raciocínio lógico para resolver o problema.
Entrada:
Fui ao mercado e comprei 10 maçãs. Dei 2 maçãs para o meu vizinho e 2 maçãs para o técnico. Depois fui comprar 5 maçãs e comi 1. Quantas maçãs me restaram?
Vamos pensar passo a passo.
Saída:
Primeiro, você começa com 10 maçãs.
Você deu 2 maçãs para o seu vizinho e para o técnico, portanto, restam 6 maçãs.
Em seguida, você compra 5 maçãs, de modo que agora tem 11 maçãs.
No final, você comeu 1 maçã, portanto, restam 10 maçãs.
- Autoconsistência (SC) [3]: aumenta a robustez do processo de raciocínio ao gerar de forma independente várias soluções e votar por maioria na resposta final.
Entrada:
P: Há 15 árvores na floresta. Os trabalhadores florestais plantarão árvores na floresta hoje. Quando terminarem, haverá 21 árvores. Quantas árvores os trabalhadores florestais plantaram hoje?
R: Começamos com 15 árvores. Mais tarde, tínhamos 21 árvores. A diferença deve ser o número de árvores que eles plantaram. Portanto, eles devem ter plantado 21-15 = 6 árvores. A resposta é 6.
Q: Havia 3 carros no estacionamento e mais 2 carros chegaram, quantos carros havia no estacionamento?
R: Já há 3 carros no estacionamento. Outros 2 carros chegaram. Agora há 3 + 2 = 5 carros. A resposta é 5.
P: Léia tem 32 pedaços de chocolate e sua irmã tem 42 pedaços. Se elas comeram 35 pedaços, quantos pedaços sobraram no total?
R: Léia tem 32 chocolates e a irmã de Léia tem 42. Isso significa que inicialmente havia 32 + 42 = 74 chocolates. 35 pedaços já foram comidos. Portanto, elas têm um total de 74 - 35 = 39 chocolates restantes. A resposta é 39.
P: Jason tem 20 pirulitos. Ele dá alguns pirulitos ao Denny. Agora Jason tem apenas 12 pirulitos. Quantos pirulitos Jason deu a Denny?
R: Jason tem 20 pirulitos. Como ele só tem 12 agora, deve dar o restante para Denny. O número de pirulitos que ele dá para Denny deve ser 20 - 12 = 8 pirulitos. A resposta é 8.
P: Shawn tem cinco brinquedos. No Natal, ele ganhou dois brinquedos de seus pais. Quantos brinquedos ele tem agora?
R: Ele tem 5 brinquedos. Ele ganhou 2 de sua mãe, portanto, depois disso, ele tinha 5 + 2 = 7 brinquedos. Depois, ganhou 2 de seu pai, portanto, no total, ele tem 7 + 2 = 9 brinquedos. A resposta é 9.
P: Há 9 computadores na sala do servidor. De segunda a quinta-feira, são instalados 5 computadores por dia. Quantos computadores há na sala do servidor agora?
R: Foram quatro dias, de segunda a quinta-feira. A cada dia, foram adicionados 5 computadores. Isso significa que um total de 4 * 5 =
20 computadores. Havia 9 computadores no início, portanto, agora há 9 + 20 = 29 computadores. A resposta é 29.
P: Michael tem 58 bolas de golfe. Na terça-feira, ele perdeu 23 bolas de golfe. Na quarta-feira, ele perdeu mais 2. Quantas bolas de golfe restaram a ele no final da quarta-feira?
R: Inicialmente, Michael tinha 58 bolas. Na terça-feira, ele perdeu 23, portanto, depois disso, tinha 58-23 = 35 bolas. Na quarta-feira, ele perdeu mais 2, então agora ele tem 35-2 = 33 bolas. A resposta é 33.
P: Olívia tem US$ 23. Ela comprou cinco bagels por US$ 3 cada. Quanto dinheiro ela ainda tem?
R: Ela comprou 5 bagels por US$ 3 cada. Isso significa que ela gastou US$ 15. Sobraram US$ 8 para ela.
P: Quando eu tinha 6 anos de idade, minha irmã tinha metade da minha idade. Agora que tenho 70 anos, quantos anos minha irmã tem?
A:Saída 1:
Quando eu tinha 6 anos de idade, minha irmã tinha metade da minha idade, ou seja, 3 anos. Agora eu tenho 70 anos, então ela tem 70-3 = 67. A resposta é 67.
Saída 2:
Quando o narrador tinha 6 anos de idade, sua irmã tinha metade da idade dele, ou seja, 3 anos. Agora que o narrador tem 70 anos, sua irmã teria 70-3 = 67. A resposta é 67.
Saída 3:
Quando eu tinha 6 anos, minha irmã tinha metade da minha idade, ou seja, 3 anos. Agora eu tenho 70 anos, então ela tem 70/2 = 35. A resposta é 35.
- Least-to-Most [4]: dividir o problema em várias partes, resolvê-las uma a uma e usar a resposta de cada subproblema como contexto para resolver o próximo.
Entrada:
Consulta do cliente.
Comprei uma camiseta da sua coleção Arnold no dia 1º de março. Vi que ela estava em promoção, então comprei uma camiseta que originalmente tinha um desconto de US$ 30. Notei que agora vocês têm um novo desconto para camisetas, 50% de desconto. Gostaria de saber se posso devolvê-la e ainda ter crédito suficiente na loja para comprar duas de suas camisetas?Comando.
Você é um representante de atendimento ao cliente responsável por responder às perguntas dos clientes de forma amigável. As devoluções são permitidas em até 30 dias. Hoje é dia 29 de março. Todas as camisas estão atualmente com desconto 50%. Os preços de suas camisas na loja variam de US$ 18 a US$ 100. Por favor, não invente nenhuma informação sobre a política de descontos.
Quais subperguntas devem ser abordadas antes que essa pergunta possa ser respondida?Saída:
1. a data em que o cliente comprou a camiseta;
2) Atividade de desconto atual;
3. a faixa de preço das camisetas na loja;
4. se o cliente tem crédito suficiente na loja;
5) Política sobre devoluções de clientes.Entrada:
Consulta do cliente.
Comprei uma camiseta da sua coleção Arnold no dia 1º de março. Vi que ela estava em promoção, então comprei uma camiseta que originalmente tinha um desconto de US$ 30. Notei que agora vocês têm um novo desconto para camisetas, 50% de desconto. Gostaria de saber se posso devolvê-la e ainda ter crédito suficiente na loja para comprar duas de suas camisetas?Comando.
Você é um representante de atendimento ao cliente responsável por responder às perguntas dos clientes de forma amigável. As devoluções são permitidas em até 30 dias. Hoje é dia 29 de março. Todas as camisas estão atualmente com desconto 50%. Os preços de suas camisas na loja variam de US$ 18 a US$ 100. Por favor, não invente nenhuma informação sobre a política de descontos.
Determinar se o cliente está dentro do período de devolução de 30 dias. Vamos dar um passo de cada vez.Saída:
Prezado cliente, Muito obrigado por seu apoio à linha Arnold! Temos o prazer de oferecer nossos serviços a você. Nossa política de devolução é que os clientes podem devolver os itens em até 30 dias após a compra. Como você comprou seu item em 1º de março, ainda está dentro do período de devolução e pode devolvê-lo.
Além disso, no momento estamos realizando uma promoção 50% em que você pode usar seu crédito na loja para comprar duas camisetas da coleção Arnold. Nossas camisetas variam de US$ 18 a US$ 100, portanto, você pode escolher a camiseta certa para suas necessidades.
Se tiver qualquer outra dúvida, entre em contato conosco. Teremos o maior prazer em atendê-lo!
Árvore dos pensamentos [ToT].Dica [5]: as dicas de CoT não resolvem problemas que exigem planejamento, previsão estratégica, retrocesso e exploração de várias soluções em paralelo. As dicas de toT dividem problemas complexos em uma série de problemas mais simples (ou "pensamentos"). lLM gera vários "pensamentos" e avalia continuamente seu progresso em direção a uma solução final por meio de linguagem natural. O LLM gera vários "pensamentos" e avalia continuamente seu progresso em direção à solução final por meio de linguagem natural. Usando a autoavaliação do modelo sobre o progresso da solução, podemos aplicar algoritmos de pesquisa amplamente usados (por exemplo, pesquisa de amplitude ou profundidade) para facilitar o processo de exploração e permitir a previsão/retrocesso na solução de problemas.
Suponha que três especialistas diferentes respondam a essa pergunta.
Todos os especialistas escreveram seus primeiros passos para pensar sobre a questão e depois os compartilharam com o grupo.
Em seguida, todos os especialistas escrevem e compartilham as próximas etapas de seu raciocínio.
E assim por diante, até que todos os especialistas tenham escrito sobre todas as etapas de seu raciocínio.
Assim que as pessoas perceberem que as etapas de um especialista estão erradas, deixe esse especialista de lado.
Desculpe-me...
Graph of Thoughts (GoT)Dicas [6, 7]: pesquisas posteriores ampliaram o trabalho sobre dicas de ToT para estratégias de raciocínio baseadas em gráficos. Essas técnicas são semelhantes às dicas de ToT, mas não pressupõem que o caminho do pensamento que gera uma solução seja linear. Podemos reutilizar pensamentos e até mesmo aplicá-los recursivamente a uma série de pensamentos ao derivar uma solução. Embora várias estratégias de dicas baseadas em gráficos tenham sido propostas, essas técnicas, assim como as dicas ToT, foram criticadas por sua falta de utilidade. A solução de um problema de raciocínio usando dicas GoT pode exigir que o LLM execute um grande número de etapas de raciocínio!
Abaixo estão os links para todos os artigos citados acima!
[1] https://arxiv.org/abs/2201.11903
[2] https://arxiv.org/abs/2205.11916
[3] https://arxiv.org/abs/2203.11171
[4] https://arxiv.org/abs/2205.10625
[5] https://arxiv.org/abs/2305.10601
[6] https://arxiv.org/abs/2308.09687
[7] https://arxiv.org/abs/2305.16582
[8] https://arxiv.org/abs/2201.11903