resumos
O desempenho de raciocínio dos modelos de linguagem grande (LLMs) em uma ampla gama de problemas depende muito de prompts de raciocínio encadeado, o que envolve o fornecimento de algumas demonstrações de raciocínio encadeado como exemplos nos prompts. Pesquisas recentes, por exemplo, árvores de pensamento, apontaram a importância da exploração e da autoavaliação na seleção das etapas de raciocínio na solução de problemas complexos. Neste artigo, propomos uma estrutura de solicitação automatizada chamada Boosting of Thoughts (BoT), que explora e autoavalia iterativamente um grande número de Thinking Trees para obter uma coleção de experiências de raciocínio de tentativa e erro, que servirá como uma nova forma de solicitação para a solução de problemas complexos. A partir de dicas simples que não exigem exemplos, o BoT explora e avalia iterativamente um grande número de etapas de raciocínio e, o que é mais importante, revisa explicitamente as dicas usando as análises de erro do LLM para aumentar a geração de etapas de raciocínio até que uma resposta final seja obtida. Nossos experimentos usando o GPT-4 e o Llama2 em uma ampla gama de problemas matemáticos complexos mostram que o BoT atinge consistentemente taxas de resolução de problemas mais altas ou comparáveis às de outros métodos de dicas de última geração. O código-fonte está disponível em https://github.com/iQua/llmpebase的examples/BoTReasoning文件夹下获得.
1. introdução
Os modelos de linguagem ampla (LLMs) com um paradigma autorregressivo alcançaram um desempenho significativo em uma variedade de tarefas devido à sua capacidade potencial de raciocínio. A garantia dessa capacidade em tarefas complexas depende muito das dicas do Chained Thinking (CoT), que fornecem exemplos de raciocínio passo a passo. Essa abordagem sugere que a capacidade de raciocínio pode ser estimulada por uma série de pensamentos, em que o pensamento atua como uma etapa intermediária na solução de problemas.
Como resultado, estudos de acompanhamento, especialmente o Tree of Thought (ToT), sugeriram maneiras de aprimorar o CoT. Para garantir a validade, os avisos desses métodos geralmente incluem anotações humanas para tarefas específicas. Essa dependência limita sua escalabilidade. Trabalhos recentes, que utilizam LLMs para dupla verificação a fim de melhorar as respostas ou aprimoram os prompts com base no feedback, mostraram-se bastante promissores. Em geral, a literatura existente favorece o descarte de pensamentos inválidos nos prompts. No entanto, os seres humanos geralmente podem aprender continuamente analisando cuidadosamente os erros, ganhando experiência e melhorando gradualmente o desempenho. Portanto, fazemos a seguinte pergunta: a geração de pensamento dos LLMs pode ser liberada das anotações humanas e imitar a solução de problemas humanos para um raciocínio eficaz em uma variedade de tarefas?
Neste artigo, propomos uma nova estrutura, mostrada na Fig. 1, denominada Boosting of Thoughts (BoT), que implementa um mecanismo de reforço, incluindo agregação e experiência, de modo a melhorar progressivamente as etapas de raciocínio não confiáveis (pensamento fraco), aprendendo com os erros e, por fim, resolvendo vários problemas. A partir de uma dica simples sem anotação humana, a BoT pode ter um raciocínio fraco. Por meio da agregação, a BoT é capaz de derivar deles cadeias de pensamentos mais lógicas e eficazes que orientam os aprimoramentos subsequentes. Essa orientação em nossa estrutura é obtida pela adaptação de dicas, que são relatórios detalhados de erros, sugestões e orientações para cada etapa de raciocínio obtida pela análise das cadeias agregadas usando LLMs. À medida que essa experiência se acumula nos prompts, ela gradualmente leva a um pensamento mais forte.
Figura 1: Aprimoramento de dicas aumentando progressivamente a experiência, que consiste em uma análise das cadeias de pensamento geradas por um modelo de linguagem grande (LLM ou LM). A experiência contém explicitamente a própria cadeia de raciocínio, o relatório de erro correspondente e sugestões detalhadas para revisar cada etapa do raciocínio. Assim, os pensamentos inválidos marcados com uma cruz vermelha também podem contribuir para o refinamento dos prompts. Ao acumular experiência com os prompts, a BoT pode gerar cadeias de pensamento corretas a partir de prompts simples. O exemplo apresentado aqui é o resultado obtido pela aplicação do GPT-4 com BoT a uma tarefa de jogo de 24 pontos.
Especificamente, a BoT implementa esse mecanismo de reforço como um processo iterativo orientado pela experiência, conforme mostrado na Figura 1. Em cada iteração, para uma determinada pista, a BoT constrói um grande número de estruturas de pensamento simples em paralelo com o LLM. Escolhemos a estrutura de árvore, conforme mostrado na ToT, mas, para nossos propósitos de reforço, a modificamos significativamente para torná-la uma árvore binária ponderada com várias estratégias de crescimento. Depois de extrair as pontuações mais altas dos ramos da raiz à folha de cada árvore, o componente de agregação da BoT foi executado para agregá-los em uma única cadeia de pensamentos. Essa cadeia foi então avaliada pelo mesmo LLM em busca de lições aprendidas, que foram adicionadas aos prompts como um guia para a geração de pensamentos na próxima iteração.
Nossa contribuição pode ser resumida de três maneiras. Em primeiro lugar, ao contrário da geração de estruturas de pensamento mais complexas usando prompts elaborados, este artigo mostra que, com base apenas em prompts iniciais simples, pensamentos fracos podem ser aprimorados de forma incremental para resolver problemas com base na experiência anterior. Em segundo lugar, para implementar esse mecanismo de aprimoramento, propomos uma nova estrutura chamada Boosting of Thoughts (BoT), que executa um processo iterativo orientado pela experiência. Como começa com solicitações simples, o BoT pode ser estendido a uma variedade de tarefas. Ao mesmo tempo em que garante a validade, o BoT é rápido porque cria estruturas de pensamento simples em paralelo e converge para uma solução após algumas iterações. Por fim, avaliamos o desempenho da BoT em problemas matemáticos complexos usando o GPT-4 e o LlamaV2. Com base no GPT-4 OpenAI (2023) e no LlamaV2 Touvron et al. (2023), avaliamos o desempenho da BoT em problemas matemáticos complexos. As taxas de solução de problemas mostram que a BoT com uma estrutura de mentalidade de árvore binária supera significativamente o estado da arte atual no GSM8K e no AQuA, enquanto obtém os segundos melhores resultados em outros conjuntos de dados. Em particular, a BoT supera o método líder ToT em 9,7% na nova e desafiadora tarefa Game of 24. Nossa BoT demonstra, portanto, que os LLMs podem manter um alto desempenho em uma ampla gama de tarefas, mesmo sem anotações humanas, aumentando as dicas, acumulando análises de erros de cadeias de pensamento inválidas e fazendo sugestões correspondentes.
2. trabalhos relacionados
inferência em várias etapas.. Um trabalho proeminente sobre os prompts de pensamento encadeado (CoT) sugere que o comportamento de raciocínio em etapas dos LLMs pode ser estimulado com o fornecimento de etapas intermediárias de raciocínio em cada prompt de problema. Um trabalho recente, Tree of Thought (ToT), converte o processo de raciocínio sequencial em uma estrutura de árvore na qual cada pensamento (nó) pode considerar caminhos de raciocínio anteriores para gerar vários pensamentos seguintes. Por meio do retrocesso e da exploração ampliada durante o processo de raciocínio, o ToT tem bom desempenho em problemas que desafiam até mesmo o GPT-4. Considerando sua alta capacidade, a estrutura de raciocínio subjacente da BoT utiliza amplamente a estrutura de árvore de raciocínio da ToT. E, devido à estrutura de reforço, a estrutura de árvore gerada pela BoT em cada iteração é binária e superficial, em vez da árvore complexa da ToT, na qual cada nó corresponde a um grande número de nós filhos. No entanto, a estrutura subjacente não se limita à ToT. Por outro lado, a BoT é flexível porque a estrutura de pensamento subjacente pode ser ToT, GoT Besta et al. (2023) ou CR Zhang et al. (2023b), onde Thinking Graphs (GoT) Besta et al. (2023) é o trabalho mais recente que estende a estrutura de pensamento para um formato gráfico. Neste documento, vamos nos concentrar apenas na ToT como a estrutura de pensamento subjacente e deixar o uso do GoT como trabalho futuro.
autossugestão. Liberar os humanos das dicas específicas da tarefa atrai muita atenção. Para garantir a capacidade de raciocínio dos LLMs, as CoTs tradicionais dependem do conhecimento humano a priori para gerar manualmente demonstrações específicas da tarefa como prompts. No entanto, o zero CoT mostrou que, mesmo sem exemplos criados manualmente, os LLMs eram capazes de raciocinar passo a passo para obter respostas precisas simplesmente acrescentando "vamos pensar passo a passo" ao prompt. Essas percepções geraram uma série de estudos de acompanhamento. O Auto-CoT elimina o esforço manual recuperando a cadeia de raciocínio utilizável gerada por zero CoTs. O Active-Prompt mede primeiro a incerteza de um conjunto de perguntas e, assim, seleciona apenas as perguntas incertas a serem anotadas por um humano. possível pensamento seguinte. Nosso artigo apresenta uma nova abordagem para o reforço manual sem dicas. Começando com uma sugestão simples, a BoT a aprimora iterativamente com base na análise do pensamento dos LLMs.
Engenharia de dicas por meio de feedback. O uso das respostas dos LLMs aos prompts de entrada como feedback para revisões adicionais dos prompts tem atraído muita atenção. Aqueles que revisam continuamente uma determinada sugestão com base na descrição avaliada dos LLMs da saída visam obter respostas precisas. Usando ideias de alto nível semelhantes às do nosso trabalho, o SELF-REFINE propõe um algoritmo de autorrefinamento iterativo que permite que os LLMs gerem feedback para refinar ainda mais sua saída. O PHP simplifica esse processo adicionando diretamente a solução da resposta anterior como uma dica para as dicas subsequentes. mais razoável. Outra série de estudos explorou a integração, especificamente o uso de mecanismos de reforço. Freund et al. (1996) refinaram as dicas com feedback de um conjunto de exemplos. Eles adaptaram o prompt adicionando vários exemplos incertos à iteração anterior ou confiaram em um processo de feedback-reflexão-refinamento.APO Pryzant et al. (2023) refinaram iterativamente os prompts, usando o desempenho do prompt anterior para formar uma linguagem natural otimizada. Esses trabalhos demonstram a eficácia dos mecanismos de reforço na engenharia de dicas. No entanto, nosso trabalho é o primeiro a destacar a importância da análise de erros no aprimoramento das dicas para gerar cadeias de inferência eficazes. A BoT proposta estende esse insight a uma estrutura de solicitação automatizada, acumulando iterativamente uma coleção de experiências de raciocínio de tentativa e erro.
3. pensamento aprimorado
3.1 Histórico
O objetivo da engenharia de dicas é projetar uma dica I que contenha várias sequências de idiomas a serem usadas como entrada por meio dessa dica e um modelo de idioma grande (LLM) pré-treinado, denotado por pθ, parametrizado por θ, que dá acesso às sequências de idiomas desejadas y. Assim, a entrada-saída (IO) padrão pode ser expressa como y ∼ pθ (y|I (X, Q)), em que I (-) denota a instrução de tarefa de envolvimento de dicas X e a pergunta correspondente Q. a pergunta correspondente Q.
A imagem mostra uma representação visual do processo de pensamento por trás da solução de problemas usando operações aritméticas. Ele é dividido em três partes principais: agregação da estrutura de pensamento, geração do próximo pensamento e análise da cadeia de pensamento - feedback.
A agregação da estrutura de pensamento representa a combinação de diferentes estágios de raciocínio (Estágio 1, Estágio 2, Estágio 3), cada um dos quais tem sua própria estrutura numérica que descreve as etapas realizadas para chegar a uma conclusão.
O Next Thought Generation concentra-se em um estágio específico, mostrando como a modelagem de linguagem (LM) pode ser usada para prever o próximo pensamento, levando em conta a experiência anterior (representada pelos vetores Vi-1 e Vi) e gerando uma nova cadeia de raciocínio.
Análise da cadeia de raciocínio - O feedback fornece uma análise detalhada das etapas de raciocínio adotadas, apontando possíveis erros e oferecendo sugestões de melhoria. Ele critica as etapas avaliando se elas aproximam o solucionador do número-alvo (neste caso, 24) e sugere outras operações aritméticas a serem tentadas.
Além disso, há uma breve seção de dicas que descreve as entradas para o processo de raciocínio, que incluem descrições não específicas da tarefa, informações e perguntas sobre a tarefa e experiência adquirida em uma cadeia de raciocínio anterior que funciona como um espaço reservado para a geração de novos pensamentos.
De modo geral, a imagem mostra uma abordagem metodologicamente sólida para o raciocínio e a solução de problemas, usando modelos de linguagem para otimizar e aprimorar iterativamente os processos de pensamento.
Especificamente, vamos examinar a seção Agregação da estrutura de pensamento. Nessa seção, podemos ver três estágios, cada um com uma estrutura de árvore heterogênea colorida. No estágio 1, vemos algumas operações aritméticas, e a tendência é "vi1 - 0,5". No estágio 2, vemos mais operações aritméticas e a tendência é "vi2 - 0,6". Finalmente, no estágio três, vemos uma sequência de operações aritméticas com uma tendência de "vi3 - 0,4".
Para a próxima seção de geração de pensamentos, um nó de pensamento específico, Zi, é rastreado e o peso que o acompanha, vi, é mostrado, indicando a importância desses pensamentos no contexto da solução de problemas.
Na seção Análise da cadeia de raciocínio - Feedback, são mostradas várias etapas de raciocínio (Z1,Z2.... .Zn) e as avaliamos. Para cada uma dessas etapas, "R1:-3, tente +", "R2:+3, tente -" e "R3: -1, tente ×" representam o feedback sobre a etapa específica feedback, avaliação do raciocínio e sugestões sobre como melhorar.
Na seção Dicas simples, algumas dicas de entrada podem ser vistas, como "Descrição não específica da tarefa 'Jogar um jogo de números'", "Mensagem da tarefa 'Tente usar os quatro números 1,3,4 ,6 (cada número só pode ser usado uma vez) e operações aritméticas (adição, subtração, multiplicação e divisão) para chegar ao número 24'", bem como a cadeia de raciocínio anterior Gi.
O resultado desse pipeline gera um novo processo de pensamento para o próximo raciocínio.
Este diagrama representa o fluxo lógico de um processo de pensamento e de uma metodologia de raciocínio, mostrando como um Modelo de Linguagem (LM) e um mecanismo de feedback/sugestão podem ser usados para avançar com o problema, com feedback e avaliação críticos em cada etapa.
Figura 2: Revela uma visão geral do processo BoT em cada iteração. Para apresentar como um aumento na eficácia pode ser obtido nesse processo iterativo baseado empiricamente, mostramos os resultados intermediários exaustivos obtidos em um tipo de experimento no ChapGPT-4 no conjunto de dados do jogo de 24 pontos. Depois de receber o problema Q: "Os quatro números fornecidos são: 2, 4, 5, 5", a BoT passa por três fases consecutivas. Usando a dica simples It como entrada, a Geração de Estrutura de Pensamento (Estágio 1) gera uma grande variedade de estruturas de pensamento heterogêneas em forma de árvore. Na Agregação da Estrutura de Pensamento (Estágio 2), elas são integradas em uma cadeia de pensamentos z1.... .n, seguida pela análise dessa cadeia de pensamentos no Estágio 3, a fim de gerar experiências que possam ser usadas para reforçar ainda mais a pista.
Os prompts podem ser projetados para serem mais elaborados, a fim de orientar os LLMs a resolver o problema passo a passo. Cada etapa intermediária de raciocínio é denotada como zi (também conhecida como pensamento). O CoT fornece vários exemplos, cada um dos quais contém uma cadeia de pensamentos z1.... .n. Isso leva a y ∼ pθ y|I [z1 . .n]N , X, Q , em que N é o número de exemplos incluídos no prompt.
Em vez de preparar exemplos no bootstrap, uma abordagem mais flexível é projetar o bootstrap para levar o LLM a gerar gradualmente o pensamento zi durante o processo de raciocínio. isso pode ser formalizado como zi ∼ pθ (zi |I(z1.... .i-1, X, Q)). Por fim, a solução é formalizada como y ∼ pθ (y|I(z1.... .n, X, Q)).
De forma representativa, ToT Yao et al. (2024) estendem ainda mais essa etapa de raciocínio sequencial em uma estrutura de árvore na qual as próximas reflexões podem ser geradas. Assim, a estrutura de uma reflexão pode ser encadeada ou em forma de árvore.
3.2 Estrutura
A literatura existente voltada para a geração de dicas com exemplos corretos de CoT ou para a criação de estruturas de geração de pensamento refinadas sofre de três limitações. Primeiro, o pensamento inválido nessas abordagens é normalmente ignorado ou descartado. No entanto, os seres humanos, especialmente os não especialistas e, em particular, em outros domínios, dependem da análise de erros anteriores para acumular mais experiência e ter um desempenho correto na próxima tentativa. Em segundo lugar, eles são menos escalonáveis porque, para cada tarefa, exemplos para gerar o próximo pensamento, por exemplo, I (z1|z0, X, Q), precisam ser fornecidos na sugestão. Por fim, a geração de estruturas de pensamento (por exemplo, a estrutura em árvore de Yao et al.) é muito complexa para explorar mais etapas de raciocínio a fim de obter uma solução melhor. Isso se deve principalmente ao fato de que as soluções obtidas talvez não possam ser revisadas posteriormente.
Neste artigo, argumentamos que os prompts podem ser aprimorados por meio da coleta contínua de análises desses pensamentos inválidos (etapas de raciocínio defeituosas na cadeia de pensamento) dos LLMs. Assim, até mesmo uma dica simples, por exemplo, I (X, Q), que pode levar a um pensamento inválido, pode ser aprimorada de forma incremental com base em tais análises para obter um pensamento forte que se aproxime de uma solução.
Propomos um método chamadoImpulsionamento de pensamentos (BoT)de uma estrutura de sinalização automatizada que permite o aprimoramento da sinalização por meio de um processo iterativo e orientado pela experiência a partir domais simpleso início da pista. Para resumir, conforme mostrado na Figura 2, cada iteração t da BoT consiste em três fases. A fase de geração de estrutura de pensamento é capaz de fazer uso total das cadeias de inferência geradas pelos LLMs, com os prompts de entrada como It. Na segunda fase, essas estruturas de pensamento são agregadas em uma cadeia de inferência que será analisada pelos LLMs na terceira fase para gerar feedback contendo relatórios de erros e sugestões detalhadas de revisão. A cadeia de raciocínio agregada é combinada com os resultados do feedback para formar uma nova experiência, denominada Ft. Assim, ao acumular essas experiências ao longo das iterações F1.... .t, a dica é aprimorada.
Dicas simples. Para qualquer tarefa, na iteração t = 0, criamos uma pista inicial simples I0 ≡ {S, X, Q, F0, {Gi}}, em que S denota a descrição independente da tarefa, enquanto X e Q denotam as informações e a pergunta da tarefa, respectivamente. A parte empírica do prompt é indicada como F0 e deve estar vazia no início. {Gi}} é um espaço reservado que será preenchido durante a construção da estrutura de pensamento. Em outras palavras, ao gerar o próximo pensamento zi, {Gi} será substituído pela cadeia de pensamentos anterior z1.... ,i-1.
Geração de estrutura de pensamento. Depois de coletar a experiência Ft-1 , a dica para a iteração t pode ser It ≡ {S, X, Q, F1, ... ,t-1, {Gi}}. Com base nessa dica, a BoT gera em paralelo M estruturas de pensamento. A BoT é essencialmente capaz de conter qualquer estrutura de pensamento, por exemplo, estruturas Wei et al. encadeadas ou estruturas Yao et al. em forma de árvore. Considerando a exploração das etapas de raciocínio e os resultados experimentais, investigamos estruturas de pensamento em forma de árvore. No entanto, a BoT apresenta duas novas modificações que a tornam mais adequada para a estrutura de elevação.
- árvore binária ponderada. Usando dicas simples em cada rodada, a BoT constrói mentes fracas com estruturas simples e baixa complexidade porque elas podem ser revisadas posteriormente no mecanismo de reforço. Assim, cada estrutura de pensamento da BoT é uma árvore binária ponderada e rasa. Para simplificar, mantemos os símbolos z1.... .i-1 para denotar um pensamento do nó raiz para o pai do nó i. Além de fornecer a cada nó i um pensamento zi e sua pontuação de avaliação de pensamento Vi ∼ pθ (z1.... .i, Ia, X, Q), também incluímos uma pontuação de borda Vi-1,i ∼ pθ (zi-1, zi, Ie, X, Q) entre um nó filho e seu nó pai, em que Ia e Ie se referem às descrições orientadoras do pensamento e à avaliação da borda, respectivamente. vi-1,i denota o nível de confiança dos LLMs na geração dessa etapa de raciocínio. Assim, a próxima geração de pensamento da BoT nessa estrutura de árvore é formalizada como pθ (zi| (Vi-1,i, Vi, It, X, Q)).
- heterogeneidade da árvore. Diferentemente da ToT, que busca encontrar soluções em uma árvore grande e complexa, a BoT tem como objetivo criar estruturas de pensamento semelhantes a árvores altamente heterogêneas. Assim, para aumentar a heterogeneidade, a geração da estrutura de pensamento emprega diferentes estratégias de crescimento da árvore, como o crescimento camada por camada e folha por folha. A primeira enfatiza a exploração, mas utiliza menos Chen & Guestrin (2016), enquanto a segunda é o oposto Ke et al. (2017). Assim, a estratégia folha por folha tende a continuar o raciocínio do melhor pensamento atual para um pensamento final melhor em comparação com o crescimento camada por camada, mas também tende a obter cadeias monótonas de raciocínio. Além disso, foram aplicados LLMs com diferentes configurações de temperatura e Top p. Por fim, usamos um pequeno valor de profundidade máxima na BoT e rotulamos um nó como folha quando os valores de Vi-1,i e Vi estavam fora do intervalo especificado [0,3, 0,8].
polimerização de estrutura de pensamento. Depois de obter M estruturas de pensamento, a BoT as agrega em uma cadeia de pensamentos, denotada z1.... .n. Para isso, para cada índice de estrutura de pensamento m, a BoT primeiro seleciona a cadeia com a pontuação de avaliação mais alta, ou seja, zm 1.... .nm := arg maxz1... .n∈Zm ∑i=1 Vi + Vi-1,i, em que Zm denota o conjunto de todas as cadeias de raciocínio da mésima árvore. Posteriormente, existem duas estratégias para obter z1.... .n.
- agregação best-first.BoT depende de arg maxz1.... .n∈{Zm}M m=1 ∑i=1 Vi + Vi-1,i, e seleciona a melhor das M estruturas de pensamento como z1.... .n. Esse algoritmo é rápido, mas pode levar a uma cadeia ilógica que é difícil de orientar os aprimoramentos subsequentes.
- Agregação de ganância. a BoT tem permissão para realizar uma pesquisa gulosa em {Zm}M m=1 para montar uma nova cadeia de mentes que pode não existir, mas pode ser globalmente ótima. A partir do pensamento inicial, geralmente o nó raiz da árvore, a BoT obtém z1 = arg maxzj ∈ {zm 1 } M m=1 Vj + Vj-1,j. Em seguida, para obter zi, a BoT procura todos os pensamentos em {Zm}M m=1 cuja etapa anterior foi zi-1.
análise da cadeia de pensamento. Para obter informações sobre o que deve ser ajustado para melhorar a dica e gerar um pensamento melhor, a BoT utiliza a capacidade dos LLMs de se autoavaliarem z1.... .n. Especificamente, com a dica It f (z1. .n, X, Q) como entrada, o LLM produz um parágrafo de feedback contendo informações sobre essa cadeia de pensamentos z1.... .n com um relatório de problemas e sugestões detalhadas. Esse feedback será adicionado a F1,... ,t-1 como uma nova experiência na geração de pensamentos, resultando em F1,... ,t.
Refinamento iterativo.. Por meio do mecanismo de reforço, F1,... ,t é usado para aprimorar iterativamente a dica, resultando na dica It+1 para a (t+1)ª iteração ≡ {S, X, Q, F1,... ,t, {Gi}}. À medida que a iteração prossegue, F1,... ,t podem conter muitas cadeias de pensamento típicas e ilógicas, bem como aquelas mais próximas da solução, todas com resultados analíticos bem definidos. Assim, mesmo ao começar com uma dica simples, a BoT refina iterativamente essa dica para produzir as etapas corretas de raciocínio que levam a uma solução precisa. Após T iterações, usamos It+1 como a dica de entrada para o LLM para a resposta final.
4. experimentação
conjunto de dados. Os experimentos foram realizados em conjuntos de dados de referência contendo uma variedade de problemas matemáticos, incluindo MMLU, SVAMP, GSM8K, AQuA e MATH. Além disso, incluímos uma tarefa de raciocínio matemático desafiadora, Game of 24, em que o objetivo era obter 24 em uma equação usando quatro números e operações aritméticas básicas (adição, subtração, multiplicação e divisão). consiste em três etapas intermediárias.
concorrência. Além do método de referência Standard Input-Output (IO), os métodos comparativos incluem Chained Thinking (CoT), CoT-SC e Complex CoT, em que os prompts de entrada contêm um punhado de exemplos (8) e anotações humanas. Além disso, a BoT é comparada com trabalhos relacionados, como árvores de pensamento (ToT), prompts progressivos (PHP) e CSVs de última geração. Realizamos experimentos usando o GPT-4 e o Llama2. O GPT-4 foi acessado por meio da API OpenAI, enquanto o modelo llama2-13b-chat foi baixado do MetaAI para realizar experimentos localmente. Para construir uma estrutura heterogênea de pensamento em árvore, o BoT selecionou aleatoriamente temperaturas na faixa de temperatura [0,2, 0,4, 0,6, 0,7, 0,9, 1,1, 1,5] e na faixa de p superior [0,1, 0,3, 0,5, 0,7, 0,9].
configurar. A menos que explicitamente declarado, em todos os experimentos, o BoT executa T = 10 iterações e constrói M = 15 estruturas de pensamento, cada uma das quais é uma árvore binária ponderada, pois isso tende a produzir os melhores resultados. Além disso, para esses conjuntos de dados de referência, definimos a profundidade da árvore como 5, enquanto a profundidade correspondente no Game of 24 era 3. BoT + CoT significa que nossa sugestão simples inclui 5 exemplos do CoT. Em estudos de ablação, quando não houver experiência cumulativa na BoT, serão fornecidos 8 exemplos de CoT no prompt.
métrica. Medimos e relatamos os resultados de todos os experimentos em termos da taxa de resolução da tarefa (%). A partir da saída BoT zT1.... .n das respostas-alvo, configuramos descrições formatadas das respostas especificamente para os LLMs. Para conjuntos de dados comumente usados, o formato da resposta foi definido como "A resposta é:". Para o jogo de 24 pontos, usamos "Índice de etapas, conjunto atual:, dois números selecionados:, operação:, novo número da operação:, números restantes:, novo conjunto de números:". Em seguida, comparamos os números do novo conjunto de números diretamente com a verdade básica. Referindo-se ao ToT Yao et al. (2024), usamos a taxa de solução contada a partir de 100 jogos difíceis como uma métrica.
4.1 Principais resultados
Os principais resultados experimentais estão resumidos na Tabela 1 e na Figura 3, onde fornecemos informações sobre o desempenho geral da BoT. Nossas descobertas mostram que a BoT proposta, ao impulsionar o mecanismo 1). Obtém taxas competitivas de solução de problemas independentemente de anotações humanas na maioria dos conjuntos de dados; 2). Alcança um novo estado da arte ao fornecer exemplos de CoT. No entanto, os resultados experimentais também mostram que a BoT depende muito da experiência e, portanto, é muito sensível aos recursos dos LLMs.
Especificamente, na Tabela 1, a BoT começa com dicas iniciais simples e, por fim, supera o atual estado da arte CSV em 0,11 TP3T em termos de taxa de solução no GSM8K, que depende muito do interpretador de código GPT-4. Considerando o AQuA, o BoT supera o SOTA em 2,51 TP3T. Isso mostra que, ao adicionar análises de erros e sugestões às dicas, sem depender de anotações humanas, os LLMs podem ter um bom desempenho em raciocínios complexos. O principal motivo para isso é que as dicas simples podem ser aprimoradas de forma incremental, acumulando experiência anterior para resolver problemas com precisão. Depois de incluir exemplos de CoT nos prompts, a BoT+CoT é 1,3% superior à SOTA. Argumentamos que os exemplos de CoT podem ser considerados casos de sucesso na experiência, que orientam diretamente a geração de estruturas de pensamento subsequentes na BoT. Enquanto isso, BoT e BoT+CoT, especialmente BoT, foram pelo menos 181 TP3T inferiores ao SOTA em MATH. Essa observação implica que LLMs fracos podem não funcionar bem com BoT devido à baixa capacidade dos LLMs de analisar cadeias de inferência para experiências válidas.
Tabela 1: O uso da BoT em conjunto com o GPT-4 melhora significativamente o desempenho, mesmo sem anotação manual.
Quando a sugestão inicial simples da BoT inclui exemplos de CoT, a abordagem BoT+CoT correspondente apresenta taxas de solução mais altas. Nossa estrutura também é comparada às principais abordagens, como Model Selection de Zhao et al. em 2023, PHP de Zheng et al. em 2023 e CSV de Zhou et al. em 2023, obtendo desempenho de ponta (SOTA) nos conjuntos de dados SVAMP, AQuA e GSM8K & MATH, respectivamente.
Figura 3: Uso de BoT e BoT+CoT para avaliar a taxa de resolução de problemas do GPT-4 OpenAI com Llama2 Touvron et al. em 2023.
Como pode ser visto na Figura 3, o GPT-4 e o Llama2 melhoram o desempenho médio em 11,61 TP3T e 4,41 TP3T, em média, nos três conjuntos de dados sob condições BoT, respectivamente. Essas duas figuras mostram uma tendência clara de que a BoT e a BoT-CoT têm desempenho semelhante quando os LLMs são mais potentes, conforme mostrado na Figura 3. Além disso, à medida que o número de árvores muda de 1 para 20, seu desempenho apresenta uma tendência de aumento semelhante. Devido ao Llama2 mais fraco, a BoT não pode se beneficiar de suas análises para executar um processo iterativo orientado pela experiência, como mostra a Figura 3(a). Quando recebe histórias de sucesso válidas, ou seja, 5 testes, a BoT ainda pode ajudar a Llama2 a resolver mais problemas do que a linha de base por meio de melhorias incrementais, embora com melhorias limitadas.
4.2 Jogo de 24 pontos
Fig. 4: Comparação dos três métodos em diferentes números de árvores e iterações.
Tabela 2: Configuração dos diferentes métodos no jogo de 24 pontos seguindo a configuração do ToT Yao et al. (2024), cujos resultados são mostrados aqui.
Tabela 3: Demonstra o processo de pensamento que foi acumulado e a experiência que foi possível obter durante a 1ª, 5ª e 8ª iterações. Os quatro valores fornecidos são: 2, 7, 8 e 9.
Devido à dificuldade do problema do Game of 24, tanto o GPT-4 quanto o Llama2 tiveram um desempenho ruim nessa tarefa, mesmo quando combinaram os métodos CoT e CoT-SC. O modelo Llama2 não conseguiu seguir nem mesmo as regras corretas para resolver o problema, tornando a taxa de solução ainda mais baixa. Especialmente ao aplicar o BoT, que se baseia na experiência, todos os resultados do Llama2 são inferiores ao 5%, sem melhora significativa. Portanto, relatamos apenas o desempenho da BoT com o GPT-4. Para manter uma comparação justa, seguimos a configuração proposta por ToT Yao et al. (2024).
Conforme mostrado na Tabela 2, a BoT sem anotações humanas supera a ToT que se baseia em um exemplo para mostrar todas as próximas etapas possíveis em 9,71 TP3 T. Além disso, a BoT+CoT que contém 5 disparos de CoT supera a BoT em 1,21 TP3 T. A proximidade de desempenho entre a BoT e a BoT+CoT é atribuída ao mecanismo de reforço, que revisa de forma incremental o pensamento fraco, conforme discutido na Subseção 4.1. Usando um processo iterativo orientado pela experiência, a BoT apresenta um desempenho aprimorado à medida que o número de árvores M e as iterações T aumentam. Conforme mostrado na Fig. 4, a BoT depende mais de M e T do que a BoT+CoT, pois exige que a experiência seja obtida com melhores cadeias de pensamento ou iterações mais longas. Outra observação é que, quando a ToT é habilitada para operar com dicas experientes, a taxa de solução de problemas aumenta de 72,51 TP3T na primeira iteração para 80,21 TP3T na 10ª iteração, o que sugere que a experiência - a análise de cadeias de raciocínio anteriores - pode ser usada pelos LLMs para melhorar significativamente a taxa de solução. No entanto, a pontuação obtida pela ToT ainda é 3,51 TP3T menor do que a da BoT. Isso é atribuído ao fato de que a fase de agregação da BoT produzirá a cadeia de raciocínio mais representativa na iteração atual, direcionando, assim, uma experiência mais significativa para aprimorar a dica. Verificamos isso na seção de estudo de ablação.
Para demonstrar melhor como a BoT aprende com os erros e sugestões anteriores, mostramos na Tabela 3 que o GPT-4 é capaz de evitar erros anteriores e gerar sugestões mais específicas à medida que o número de iterações aumenta, levando eventualmente à solução correta. Na primeira iteração, devido a sugestões simples, os LLMs até cometeram um erro ao seguir as regras da tarefa porque o novo conjunto estava errado na etapa 3. Depois de analisá-lo, ele fez a sugestão correta para esse erro. Entretanto, a análise da iteração inicial foi vaga, por exemplo, "tente outros números e operações". Após cinco iterações, a BoT agregou várias dessas análises, resultando em dicas mais eficazes que levaram os LLMs a escolher os números corretos 9 e 7. Além disso, as sugestões foram mais específicas e úteis. Para essa escolha correta, a sugestão era aumentar a pontuação da avaliação de acordo. Ao acumular essa experiência, a BoT refinou gradualmente as dicas, gerando a solução correta diretamente na 8ª iteração.
4.3 Estudos de ablação
Tabela 4: Comparação do GPT-4 com diferentes variantes de BoT empregadas no jogo de 24 pontos e no conjunto de dados AQuA.
Todas as estratégias de agregação produzem altas taxas de solução quando os problemas e as sugestões são agrupados de forma "aditiva". A manutenção de uma experiência completa é particularmente importante para o pensamento revisionista, especialmente para o conjunto de dados AQuA, que abrange uma gama mais ampla de problemas de raciocínio matemático. No entanto, o BoT(No), que usa todas as cadeias de raciocínio da árvore de abrangência diretamente, sem agregação, tem o pior desempenho em todos os contextos, especialmente quando o tipo de experiência cumulativa é "cumulativo". O BoT constrói 15 árvores por iteração, e juntar todas elas em uma pista pode obscurecer informações importantes, sem mencionar a maioria das informações na pista. Essa experiência pode ser inválida ou prejudicial.
Obter conselhos é mais importante do que qualquer outra coisa para desencadear o pensamento.. Em todos os exemplos mencionados na Tabela 4, a variante BoT que trata as sugestões como experiência atinge as taxas de solução mais altas. Por exemplo, no mesmo caso do tipo "aditivo", sem sugestões na experiência, o desempenho caiu em mais de 101 TP3T e 201 TP3T no "jogo de 24 pontos" e no AQuA, respectivamente. As BoTs com sugestões só podem atingir as melhores taxas de resolução se forem combinadas com problemas. Por exemplo, no AQuA, a taxa de solução da BoT (método ganancioso) aumentou em 4,41 TP3T.
Por motivos de desempenho, o Greedy Rally pode ser a única opção necessária. Em oposição à abordagem de prioridade mais alta de selecionar uma ou manter todas as cadeias de pensamento existentes, as aglomerações gananciosas podem mesclar de forma adaptativa a estrutura da árvore em uma cadeia de pensamento melhor, que pode não ocorrer na iteração atual. Dessa forma, o LLM pode realizar análises significativas de uma cadeia de pensamentos mais robusta e, como resultado, gerar lições importantes para aumentar a pista. Na AQuA, que contém mais problemas matemáticos, esse número chega a 101 TP3 T. Além disso, como discutimos na Figura 4, embora a ToT tenha um mecanismo de reforço semelhante, orientado pela experiência, capaz de atingir 801 TP3 T, ela ainda está atrasada em relação à BoT. Isso pode ser devido ao fato de que ela não é capaz de realizar aglomerações gulosas em sua estrutura de árvore única.
5 Conclusão
Neste artigo, validamos que uma pista simples pode ser usada para resolver tarefas complexas, acumulando gradualmente análises de erros dos pensamentos que ela gera. Propomos uma nova estrutura chamada Boosting of Thoughts (BoT), que permite esse aumento gradual da dica por meio de um processo iterativo orientado pela experiência para gerar cadeias de pensamentos eficazes. Uma simples cadeia de pensamentos em forma de árvore, gerada por meio de exploração iterativa e autoavaliação, permite que uma pista inicial simples seja incrementada por uma série de experiências de raciocínio de tentativa e erro que levam a uma solução precisa. Nossos extensos experimentos mostram que a BoT é capaz de alcançar o desempenho mais avançado em vários conjuntos de dados de referência e supera outros métodos líderes na desafiadora tarefa de raciocínio matemático do Game of 24.
Um BoT de prompts básicos e processos de raciocínio
A1 BoT para o componente de geração de ideias
Esta seção menciona as dicas básicas usadas para a geração de raciocínio do Boosting of Thought (BoT) proposto. Para obter detalhes específicos relacionados, você pode visitar o arquivo de exemplo do código-fonte: /examples/BoostingOfThought/BoT reasoner.py.
Dica de sistema:
Você é um especialista em problemas de matemática. Execute o raciocínio de solução de problemas passo a passo, aprendendo com uma série de experiências de raciocínio de tentativa e erro. Essa experiência de raciocínio de tentativa e erro inclui especificamente relatórios de erros, bem como sugestões detalhadas sobre como modificar as etapas de raciocínio anteriores. É importante revisar essas experiências listadas antes de gerar novas etapas de raciocínio, como forma de evitar a repetição de erros e, ao mesmo tempo, usar as etapas corretas para gerar etapas de raciocínio melhores para uso na solução de problemas.
Prompt do sistema S.
Você é um especialista em problemas matemáticos. Execute o raciocínio passo a passo
para a solução de problemas, aprendendo primeiro com um conjunto de experiências de raciocínio de tentativa e erro.
Essa experiência de raciocínio de tentativa e erro contém especificamente relatórios de erros e conselhos detalhados sobre
Como revisar as etapas do raciocínio histórico. Sempre relembre essas experiências listadas antes de gerar um raciocínio histórico.
nova etapa de raciocínio, evitando assim cometer os mesmos erros e reutilizando as etapas corretas para gerar
melhores etapas de raciocínio para resolver a tarefa.
Gerar um estímulo para o próximo pensamento:
f"""
{Alerta de missão} \n
Em primeiro lugar, lembre-se da experiência de raciocínio anterior: \n\n
{Experiência
Apresente a próxima etapa de raciocínio possível, e só pode haver uma. Essa etapa de raciocínio deve ser usada como sucessora sequencial das etapas ordenadas a seguir e deve ser acompanhada de uma pontuação de avaliação correspondente (pontuações mais altas indicam maior probabilidade de conclusão da tarefa):\n\t
{chain hint}\n\n
Com base nas etapas de inferência antecedente acima (ou ignore-as se o espaço acima estiver vazio), gere uma única próxima etapa possível com base nas regras da tarefa. (IMPORTANTE: gere apenas a próxima etapa de raciocínio possível para uma determinada etapa).
"""
f"""{solicitação de tarefa}. \Em primeiro lugar, lembre-se da experiência histórica de raciocínio: \n\n {
experiências} \n\nPor favor, faça uma etapa de raciocínio para gerar apenas uma próxima
Esta próxima etapa de raciocínio é a etapa sequencial de Esta próxima etapa de raciocínio é a etapa subsequente de
as seguintes etapas anteriores ordenadas, acompanhadas de suas pontuações avaliadas (A
uma pontuação mais alta significa que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). : \n\t{
chain prompt}\n\n Com base nas etapas de raciocínio anteriores listadas (ignore-as quando o
O espaço acima está vazio), gere uma única próxima etapa possível após a Tarefa
regra . (Enfatize: gere apenas uma única próxima etapa de raciocínio possível de
as etapas fornecidas). """
O prompt da tarefa contém o X e o Q da tarefa, e a experiência histórica é F1.... A parte da "dica de cadeia" é {Gi}, que é um espaço reservado que, quando o pensamento atual zi é executado, é substituído pela série anterior de pensamentos z1...,i-1. ,i-1.
Para obter dicas sobre como pensar na avaliação:
f"""
{Mission Alert} \n\n
Abaixo estão as etapas de raciocínio em ordem, acompanhadas de suas respectivas pontuações de avaliação. (Uma pontuação mais alta significa que a etapa tem maior probabilidade de concluir a tarefa). \n
{dica de cadeia
{Pensando
Qual é a sua pontuação para avaliar quão lógicas e corretas são essas etapas de raciocínio e quão úteis elas são para a solução final? Escolha uma das opções [0,1, 0,3, 0,5, 0,7, 0,9, 1,0] como pontuação, sendo que as pontuações mais altas indicam melhores etapas de raciocínio. A pontuação deve ser colocada após ' Evaluation score:' para que o usuário possa ler.""""
f""""{pedido de tarefa}. \Abaixo estão as etapas de raciocínio geradas, apresentadas em ordem.
acompanhados de suas pontuações avaliadas (uma pontuação mais alta significa que a etapa de raciocínio é
mais probabilidade de concluir a tarefa). :\n{chain prompt}\n{thought}\n\nQual é o seu
pontuação de avaliação para a lógica, a correção e o benefício para chegar a um resultado final
solução para essas etapas de raciocínio? Selecione um valor entre [0,1, 0,3, 0,5,
0,7, 0,9, 1,0] como a pontuação, em que uma pontuação mais alta significa melhores etapas de raciocínio. As
A pontuação deve ser colocada após ' Evaluation score :' para que os usuários possam ler .""""
Nesse caso, o pensamento é o pensamento Zi que está ocorrendo no momento.
A2 BoT para o componente de geração de experiência
Para gerar feedback sobre cadeias agregadas, os LLMs usam os seguintes prompts básicos. Para obter mais informações, visite também o código-fonte examples/BoostingOfThought/BoT commenter.py.
Prompt do sistema S: Você é um revisor especialista em IA do Maths Answers e está trabalhando na avaliação da cadeia de raciocínio gerada para resolver um problema matemático. Avalie cada etapa de raciocínio dessa cadeia de raciocínio, fornecendo uma análise detalhada para determinar se a etapa atual é uma inferência lógica da etapa anterior e se a etapa de raciocínio contribui para a solução correta. Para cada etapa de raciocínio incorreta, forneça um relatório de erro e as revisões sugeridas correspondentes. Para cada etapa de raciocínio correta, forneça uma descrição da recomendação ou rejeição.
Dica de sistema:
Sua função é a de um habilidoso revisor de respostas de matemática com IA, concentrado em avaliar o processo de raciocínio para resolver problemas de matemática. Você precisará julgar cada etapa de raciocínio por meio de uma análise exaustiva para ver se ela se baseia na lógica da etapa anterior e se essa etapa contribuiu para encontrar a resposta correta. Se você encontrar uma etapa de raciocínio incorreta, deverá dar sugestões e opções de modificação. Para as etapas de raciocínio corretas, você precisa afirmar ou dar opções diferentes.
Prompt do sistema S.
Você é um verificador de IA especializado em respostas matemáticas, dedicado a avaliar as
cadeia de raciocínio gerada para resolver o problema matemático. Julgue cada raciocínio
etapa dessa cadeia de raciocínio, fornecendo análises detalhadas sobre se a etapa atual é uma etapa lógica
inferência da etapa anterior e se a etapa de raciocínio é benéfica para a solução correta.
Forneça conselhos e sugestões para cada etapa do raciocínio com erros. Forneça recomendações ou
descrições de rejeição para cada etapa correta do raciocínio.
Dica de feedback:
f"""
Para a tarefa fornecida: {dica da tarefa}. \n
{Dicas de cadeia de raciocínio
Avalie essa cadeia de raciocínio e forneça uma crítica detalhada que inclua os seguintes pontos. \n
1. {Formato de feedback em cadeia}. 2. {Formato de feedback em etapas}. 3. {Formato de feedback de confiança}. 4. \n\n
Advertência: {Caveat}
f"""Dada a tarefa:{pedido da tarefa}. \n{pedido de cadeia}\n\n Avalie essa cadeia de raciocínio
fazendo comentários detalhados com o seguinte conteúdo. \n 1.{
formato de feedback em cadeia }. 2.{ formato de feedback de etapa }. 3.{ formato de feedback de confiança }. \n
\n Aviso: {Notice}.
Entre elesDicas de cadeias de raciocínioé uma cadeia de inferência agregada z1.... .n.
Formato do feedback da cadeiaPor que essa cadeia de raciocínio pode concluir corretamente a tarefa e atingir a meta executando suas etapas de raciocínio? Por quê? Escreva a análise conclusiva em "Relatório de análise:".
Formato de feedback passo a passoPara cada etapa de raciocínio, forneça uma análise detalhada sobre se a etapa atual é uma dedução lógica da etapa anterior e se a etapa de raciocínio contribui para a solução correta. Para cada etapa de raciocínio incorreta, forneça um relatório de erro e as respectivas recomendações de revisão. Para cada etapa de raciocínio, forneça uma descrição da recomendação ou rejeição. Os comentários devem ser concisos e seguir o seguinte formato: etapa de raciocínio ⟨idx⟩. Análises ⟨idx⟩. Recomendação:. Recomendação ou rejeição Descrição:.
Formato de feedback de confiançaQual é a sua pontuação de confiança para essas avaliações e resenhas? Selecione um valor entre [0,1, 0,3, 0,5, 0,7, 0,9, 1,0] como a pontuação para o usuário ler.
Com dicas de feedback, os LLMs geram Ft empírico contendo conclusões e análises da cadeia de raciocínio e de cada etapa de raciocínio.
A3 Processo de raciocínio
Para facilitar a compreensão do Boosting of Thoughts proposto, resumimos o fluxo de inferência na Tabela 1 do algoritmo. O código-fonte desse fluxo pode ser encontrado no arquivo examples/BoostingOfThought/BoT core.py.
O conteúdo da imagem é uma representação algorítmica passo a passo de uma teoria chamada "BoT", e a seguir está sua tradução em chinês, correspondente às seguintes etapas algorítmicas:
Algoritmo 1: O principal processo de raciocínio da BoT
Entradas: número de iterações T, número de estruturas de árvore M, problema Q.
Saída: cadeia agregada z̄_1.... .n^T1. inicialize uma dica simples I^0 (S, X, Q, F^0, {Gi}), em que F^0 será uma string vazia.
2. cada iteração t = 1, 2, ... , T.
3. use as pistas I^t-1 (S, X, Q, F^t-1, {Gi}) com o LLMS (Low Latent Mixed Model) para criar M estruturas de pensamento diferentes em um processo chamado Geração de estrutura de pensamento.
4. extrair a cadeia de pensamentos {z̄_i=1....n^m} de M estruturas de pensamento, cada z̄_i=1.... .n^m}, cada z̄_i=1... .n^m é a melhor cadeia de pensamento da m-ésima estrutura em árvore.
5 Use o método "Best-First Aggregation" ou "Greedy aggregation" para incorporar {z̄_i=1...n^m} em uma única cadeia de pensamento z̄_1...n^m}. .n^m} em uma única cadeia de pensamento z̄_1...n^t. .n^t.
6. use o LLMS para realizar a "Análise da cadeia de pensamento" em z̄_1.... .n^t, obter feedback e combiná-lo com z̄_1.... .n^t e combiná-lo com z̄_1...n^t para obter a experiência F^t.
7. atualize a pista acumulando F^t a I^t (S, X, Q, F^t-1,t, {Gi}).
8. Conclusão
9. acesso a soluções z̄_1.... .n^T
B Insights para aprimorar o pensamento
O aumento de pensamentos decorre de nossa percepção de que a capacidade de raciocínio dos modelos de linguagem grande (LLMs) para resolver problemas matemáticos é diretamente derivada de experiências que contêm análises e sugestões de erros anteriores. Quando as dicas contêm experiências de raciocínio históricas válidas para os LLMs relembrarem antes de realizar o raciocínio, as etapas de raciocínio resultantes são geralmente mais lógicas e racionais, conforme mostrado na comparação das Tabelas 5 e 6. Essas percepções também nos levaram a considerar que os LLMs não precisam depender muito de prompts bem preparados para cada tarefa (várias demonstrações de cadeias de pensamento nos prompts servem como exemplos). No entanto, como os LLMs são capazes de aprender com a experiência, podemos começar com um prompt simples que não exija exemplos ou conteúdo projetado manualmente e, gradualmente, acumular experiência à medida que raciocinamos. Por fim, ao acumular experiência na sugestão, os LLMs alcançam um raciocínio robusto para resolver problemas complexos. Com esses insights, o Boosting of Thoughts foi projetado como uma estrutura de estímulo automatizada que resolve problemas ao coletar iterativamente uma coleção de experiências de raciocínio de tentativa e erro. Argumentamos que a BoT proposta não é uma aplicação de LLMs a uma tarefa específica, mas se baseia na percepção de que o poder de raciocínio dos LLMs pode ser obtido diretamente da análise de erros de cadeias de inferência incorretas sem depender de conhecimento humano a priori.
Para destacar nossos insights, compartilhamos as três principais observações a seguir, que se baseiam no seguinte conjunto de dados de 24 jogos usando o modelo gpt-3.5-turbo com uma temperatura de 0,7 e um valor de p máximo de 0,7 aplicado.
A experiência no prompt incentiva os LLMs a explorar mais a lógica em suas respostas.Conforme mostrado na Tabela 5, o modelo gerou a mesma etapa de raciocínio cinco vezes quando nenhuma experiência foi incluída na dica. Essa observação mostra um problema comum dos LLMs, ou seja, a falta de motivação própria para explorar diferentes lógicas de raciocínio. Assim, apesar de seu forte potencial de raciocínio, os LLMs podem ficar presos em um ciclo que começa com a etapa de raciocínio mais simples, o que pode nunca levar a uma solução final. A seção "Cadeias de raciocínio adquiridas" da Tabela 5 ilustra cadeias de raciocínio errôneas. Acreditamos que, como em Tree of Thoughts Yao et al. (2024), em que os nós da árvore são construídos gerando várias respostas como pensamentos, essas etapas de inferência repetitivas podem fazer com que o algoritmo falhe em alguns casos. Entretanto, na segunda iteração da BoT, a introdução da experiência nos prompts resultou na geração de diferentes etapas de inferência inicial, conforme mostrado na Tabela 6. A cadeia de inferência final pode, por fim, chegar à solução correta partindo de uma gama mais ampla de lógicas potenciais.Weng et al. (2023)
Os LLMs evitam cometer erros semelhantes aos destacados na experiência.Se a experiência não for incluída nos prompts, que incluem a análise de erros, os LLMs cometerão muitos erros, como se desviar das regras da tarefa e voltar à etapa inicial de raciocínio no processo final, conforme mostrado na seção "Cadeia de raciocínio adquirida" da Tabela 5. Depois de analisar essa cadeia de raciocínio e incorporar seu feedback como experiência nos prompts para a segunda iteração da BoT, pode-se ver na Tabela 6 que os LLMs aprenderão a experiência bem antes de raciocinar. Em primeiro lugar, nenhuma das respostas replicou as mesmas etapas de raciocínio errôneas das diversas etapas iniciais de raciocínio mostradas em "Cinco respostas do gpt-3.5-turbo". Em segundo lugar, os LLMs evitaram com sucesso todos os erros identificados anteriormente, aderindo estritamente às regras da tarefa, eliminando o raciocínio incorreto e executando etapas de inferência lógica. Em terceiro lugar, isso levou à solução correta para a tarefa "1 1 4 6" do Jogo dos 24. Outros trabalhos, como Weng et al. (2023); Madaan et al. (2023); Zheng et al. (2023), também enfatizaram a importância de aumentar as dicas por meio de feedback, que é uma autoavaliação das respostas anteriores. No entanto, a BoT é um trabalho seminal baseado na percepção de que a experiência que inclui a análise de erros pode levar a um raciocínio sólido em LLMs.
Sem anotações humanas, os LLMs organizam automaticamente cadeias de raciocínio eficazes para resolver problemas complexos com base na experiência.A BoT é a iniciativa pioneira que propõe uma estrutura de solicitação automatizada que aproveita o insight de que os LLMs podem adquirir habilidades de raciocínio eficazes para a solução de problemas por meio da análise de erros e da orientação somente por meio da experiência, sem a necessidade de anotação humana. Conforme mostrado na Tabela 5, esta é a primeira iteração da BoT, e as dicas iniciais contêm apenas orientações básicas sobre a tarefa e perguntas sem exemplos de aprendizado contextual como na CoT. Embora as cadeias de inferência obtidas pelos LLMs usando esses prompts contenham muitos erros e etapas de inferência inválidas, suas análises de erros e sugestões podem ser incluídas como lições aprendidas nos prompts de entrada para beneficiar a segunda iteração de inferência, conforme mostrado na Tabela 6. Observa-se que, sem a orientação humana sobre o procedimento correto de raciocínio, os LLMs podem adquirir conhecimento com a experiência, incluindo análises de erros e orientações, que são obtidas a partir de cadeias de raciocínio geradas anteriormente, levando a melhorias incrementais na solução de problemas de raciocínio.
Assim, nossa BoT fornece orientação de longo prazo para a pesquisa, pois demonstra a importância da análise de erros de recordação e sugestões ao permitir que os LLMs gerem processos de raciocínio eficazes para tarefas complexas. Com esses insights, a pesquisa de engenharia de dicas sobre a indução de habilidades de raciocínio em LLMs pode se concentrar em como gerar experiências em vez de introduzir mais conhecimento humano a priori.
C Geração de estrutura de pensamento
A BoT é uma estrutura de solicitação automatizada que acumula iterativamente a experiência obtida com as análises da cadeia de inferência. Como tal, a BoT é generalizada para uma variedade de métodos de geração de pensamento e LLMs capazes de gerar e avaliar etapas de inferência. Portanto, a BoT usa a estrutura mais recente, a Tree of Thought (ToT) Yao et al. (2024), como seu modelo básico para gerar cadeias de raciocínio em cada iteração. Conforme mencionado no artigo principal, o modelo básico de geração de pensamento também poderia ser um Thinking Graph (GoT) Besta et al. (2023), ou seja, BoT com GoT. No entanto, devido a restrições de tempo e ao fato de que o GoT atual ainda não foi aplicado a problemas matemáticos, o projeto BoT emprega exclusivamente ToT. Além disso, quando usado como modelo básico no mecanismo de reforço, a estrutura de pensamento em cada iteração pode ser mantida leve. Em última análise, a BoT proposta gera estruturas de árvores heterogêneas, cada uma das quais é uma árvore binária levemente ponderada.
C1 Next Thinking Generation e cálculo do peso da borda
Usando a próxima dica de geração de pensamento discutida na Seção A, os LLMs podem gerar dicas combinando a experiência F1.... .t e substituindo {Gi} por z1.... ,i-1 substituindo {Gi} para gerar o próximo pensamento possível para uma etapa de raciocínio zi. Para uma etapa de raciocínio zi, os LLMs usam a sugestão de avaliação de pensamento para gerar pontuações de avaliação como pesos de borda entre zi e zi-1. Consulte o código-fonte em examples/BoostingOfThought/BoT reasoner.py para obter um procedimento detalhado. Como exemplo direto da BoT aplicada a '3 5 6 8' no Game of 24, usando o gpt-3.5-turbo, as Tabelas 7 e 8 mostram a geração da ideia, enquanto a Tabela 9 mostra como ela é calculada.
C2 A necessidade de estruturas de árvore heterogêneas
Em cada iteração da BoT, a estrutura de árvore heterogênea é construída para explorar um espaço de pesquisa de inferência mais amplo e melhorar a robustez. Como visto no código-fonte em examples/BoostingOfThought/BoT core.py, os valores de temperatura e Top p dos LLMs em cada árvore são selecionados entre os intervalos [0,2, 0,4, 0,6, 0,7, 0,9, 1,1, 1,5] e [0,1, 0,3, 0,5, 0,7, 0,9], respectivamente. A estratégia de crescimento da árvore pode ser camada por camada ou folha por folha. Observamos os dois seguintes benefícios de garantir essa heterogeneidade.
A heterogeneidade amplia o espaço de pesquisa de inferência e, portanto, aumenta a velocidade de convergência.Quando árvores diferentes são construídas para finalidades diferentes, por exemplo, exploradas usando uma estratégia de camada por camada ou exploradas usando uma estratégia de folha por folha, e com base em LLMs aleatórios ou determinísticos, as etapas de raciocínio geradas e as cadeias de inferência resultantes podem apresentar diferenças significativas, abrangendo efetivamente uma gama mais ampla de possibilidades de raciocínio. Por exemplo, em uma iteração, quando os LLMs geram o próximo pensamento com mais confiança, pensamentos semelhantes são continuamente explorados; caso contrário, os LLMs com mais aleatoriedade tendem a gerar pensamentos diversos. Muitas vezes é difícil prever se o raciocínio determinístico ou a aleatoriedade contribuirão para uma solução. Portanto, garantir a heterogeneidade misturando diferentes tipos de etapas de raciocínio lógico nos permite explorar totalmente o espaço de raciocínio em uma única iteração, facilitando, em última análise, as iterações subsequentes. No estudo de ablação, comparamos o desempenho da BoT entre estruturas de árvore heterogêneas e homogêneas.
A heterogeneidade reduz a probabilidade de gerar cadeias de inferência inválidas ou incorretas, aumentando assim a robustez.Ao contrário da heterogeneidade, em árvores com uma configuração homogênea, as árvores individuais tendem a seguir um pensamento gerador lógico consistente e a criar cadeias de inferência com a mesma estrutura de árvore. Então, quando a lógica está errada ou a estrutura subjacente não é válida para o problema em questão, as cadeias de raciocínio de todas as árvores obtidas pela BoT em cada iteração só podem conter etapas de raciocínio ruidosas e incorretas. Mesmo quando as agregamos para obter uma cadeia de raciocínio mais refinada para avaliação, a experiência ainda pode se desviar significativamente do fornecimento de conselhos adequados para a solução de problemas. Portanto, projetar a estrutura de pensamento em árvore para ser heterogênea pode ajudar a reduzir a probabilidade de não haver cadeias de raciocínio válidas disponíveis para avaliação nas iterações subsequentes da BoT. Essa maior robustez permite que a BoT resolva problemas de diferentes níveis de dificuldade.
Esta é uma imagem que mostra o processo de "agregação de prioridade mais alta" e "agregação gananciosa".
Entrada: m cadeias de inferência, em que a etapa de inferência de uma m-ésima cadeia é denotada por z1i = 1m.
Saída: cadeia polimérica z1..n.1 - agregação de prioridade mais alta
2 Para cada cadeia m = 1, 2, ... , M faça
3 Calcule a soma dos pesos das bordas da m-ésima cadeia como Vm = ∑i no intervalo m1m Vi-1,i.
4 Fim
5 Obtenha a cadeia ideal entre as M cadeias executando m* = arg maxm {Vm}
6 Atribua a cadeia agregada como a cadeia ideal, z1.... .n := {z1i=1n*m*}7 - Agregação com base em ganância
8 z1 := z1 onde m* = arg maxm {V1m}.
9 Para cada etapa de agregação i = 2, ... , n do
10 Para cada cadeia m = 1, 2, ... , M do
11 Colete Jm = {j, sim(z1i-1, z1j) > 0,7; j ∈ n1m}.
12 Obter j*,m = arg maxj∈Jm {Vj,j+1m}
13 Fim
14 Faça o seguinte para obter a próxima etapa de inferência ideal: zi = z1j*+1 onde j* = arg maxj∈{j*m}1M {Vj,j+1m}.
15 Fim
16 Obter cadeias poliméricas z1.... .n.Trata-se basicamente de um fluxograma algorítmico que descreve como otimizar uma cadeia de dados ou um nó e obter os melhores resultados por meio de diferentes métodos.
D Agregação da estrutura de pensamento
Depois de concluir o raciocínio em uma estrutura de árvore heterogênea, o processo de agregação do BoT primeiro extrai as melhores cadeias de raciocínio de cada árvore e, em seguida, combina-as em uma única cadeia de raciocínio usando os métodos de agregação best-first ou greedy. Informações mais detalhadas sobre esses dois métodos de agregação podem ser encontradas no código-fonte examples/BoostingOfThought/BoT aggregator.py.
Conforme mostrado no primeiro bloco do Algoritmo 16, a agregação do melhor primeiro é um método de agregação simples que extrai diretamente a cadeia com a maior soma de pesos de borda. Esse método é rápido e estável. Normalmente, ele garante um desempenho competitivo porque a experiência subsequente pode ser gerada pela análise das cadeias ideais obtidas. No entanto, ele só pode selecionar cadeias existentes sem um ajuste eficiente. A agregação gulosa é mais avançada porque combina as etapas de inferência em diferentes cadeias para produzir uma nova e melhor cadeia de inferência com os pesos de borda mais altos. O processo de agregação gulosa no Algoritmo 16 consiste em duas etapas. Primeiro, ele coleta etapas de inferência que são semelhantes à etapa de inferência agregada zi-1 . Portanto, a próxima etapa de inferência agregada é selecionada a partir da próxima etapa de inferência nesse conjunto de coleta, maximizando os pesos das bordas. sim é uma função de similaridade que avalia a porcentagem das mesmas palavras e números matemáticos entre duas passagens usando LLMs. 0,7 é um limite empírico obtido nos experimentos.
E Impacto do feedback errôneo
O feedback obtido pela avaliação de cadeias de inferência agregadas pode incluir o uso limitado das análises e conclusões e relatórios de erros completamente errôneos. Esse problema geralmente é causado pela natureza dos LLMs, que são modelos de linguagem e não verificam inerentemente a precisão do texto gerado. Além disso, os recursos dos LLMs, como o gpt-3.5-turbo, são limitados quando usados como validadores de problemas matemáticos.
Um exemplo simples é apresentado na Tabela 7. A análise conclui que "o resultado final obtido na etapa 3 é 80, o que é matematicamente igual a 24." Pior ainda, a experiência contém ainda que "a cadeia de raciocínio está correta" e que "não foram encontrados erros nas etapas de raciocínio". erros foram encontrados". Usando essa experiência como uma pista de entrada, na primeira iteração, a BoT é induzida a gerar a etapa de inferência errada, e a cadeia de agregação correspondente pode ser vista no início da Tabela 8. Está claro que a cadeia de agregação é logicamente incorreta e não está em conformidade com nenhuma das regras do Game of 24.
No entanto, argumentamos que o feedback errôneo não será amplificado, mas seu impacto negativo sobre as etapas de raciocínio geradas pode ser atenuado ou até mesmo totalmente corrigido nas iterações subsequentes por meio do mecanismo iterativo da BoT. O principal motivo para isso é que as etapas de raciocínio errôneas geradas serão analisadas posteriormente para gerar novas experiências que serão adicionadas à sugestão. Especificamente, como essas etapas de raciocínio contêm erros facilmente reconhecíveis e óbvios, os LLMs tendem a gerar análises de erros corretas e fornecer sugestões de revisão eficazes. Com a nova experiência incluída nas dicas, a BoT é capaz de gerar etapas de raciocínio corretas. Como mostram as experiências na Tabela 8, a BoT gerou relatórios de erros detalhados e sugestões de revisão, resultando em um processo de geração de pensamento racional.
A vantagem da BoT na utilização de iterações para atenuar os efeitos adversos do feedback de erro fica evidente na Figura 4. Notavelmente, o desempenho da BoT mostra um aprimoramento consistente à medida que o número de iterações aumenta. Isso enfatiza a importância da experiência cumulativa e a capacidade da experiência subsequente de corrigir erros anteriores.
F Mais resultados para maths
Fig. 5: Revela a eficácia do uso de diferentes estratégias para resolver todos os problemas categorizados no conjunto de dados MATH. As estratégias são comparadas com base em categorias que incluem pré-álgebra, álgebra, contagem e probabilidade, princípios da teoria dos números, geometria, pré-cálculo e álgebra intermediária. O subplot denominado "overall" (geral) mostra a taxa de solução geral para todos os problemas em todas as categorias.
Na Figura 5, apresentamos as taxas de solução dos diferentes métodos em cada categoria do conjunto de dados MATH. A complexidade e a diversidade dos vários problemas matemáticos nessas categorias fornecem uma referência mais desafiadora para o raciocínio matemático. Assim, a complexidade e a diversidade dos problemas no MATH exigem uma ampla gama de habilidades de raciocínio para resolvê-los. Portanto, um exame detalhado de nossa abordagem e sua comparação com outras abordagens em nosso contexto podem fornecer percepções valiosas.
LLMs.Os experimentos realizados no conjunto de dados MATH usaram modelos de linguagem grandes (LLMs) bem conhecidos, a saber, GPT-3.5-Turbo, doravante denominado GPT3.5, e GPT-4, doravante denominado GPT4. Usamos diretamente a API publicada pela OPENAI.
Rivais.
- GPT4 ComplexCoT. que é um modelo do GPT4 usando o método de solicitação Complex CoT Fu et al. (2022). Exemplos de raciocínio são usados nas dicas de inferência, que são retiradas da publicação correspondente do Complex CoT Fu et al. (2022). Como a decodificação gulosa é usada, não seguimos a abordagem autoconsistente de Wang et al. (2022) para a amostragem de caminhos de inferência.
- Os prompts padrão do GPT3.5 são usados e os modelos do GPT3.5 são usados para gerar respostas.
- GPT3.5 ComplexCoT. semelhante ao GPT4 ComplexCoT, mas com o modelo alterado para GPT3.5.
- GPT4 PHP+ComplexCoT. Esse é o modelo GPT4 usando PHP Zheng et al. (2023) + Complex CoTu et al. (2022). Especificamente, na estrutura do PHP Zheng et al. (2023), os prompts do Complex CoT são usados para gerar respostas básicas iniciais e, em seguida, o PHP+Complex CoT pode desenvolver prompts geradores de respostas subsequentes a partir dessas respostas básicas. Assim, no início de uma interação, as respostas básicas podem ser geradas passando as dicas básicas do Complex CoT e a pergunta atual para o LLM. Em seguida, com base nas dicas do Complex CoT revisadas para a versão PHP com frases de dicas adicionais, a estrutura de dicas passo a passo é executada nessa resposta básica para gerar a resposta correta. Nós nos referimos a isso como a contrapartida PHP+Complex CoT do PHP-Complex CoT no trabalho original. O Complex CoT tem uma contagem de 8 tentativas.
- GPT4 BoT sem experiência. o modelo GPT4 é usado para executar o raciocínio da estrutura BoT sem acumular experiência. a configuração básica da BoT segue as apresentadas no artigo principal. Assim, após uma iteração, as cadeias agregadas serão usadas como solução.
- GPT4 BoT. O GPT4 é usado para executar a versão completa da BoT mostrada no artigo principal.
- GPT4 BoT + CoT Além da estrutura BoT, os prompts incluíram 5 exemplos de raciocínio da publicação CoT Wei et al. (2022). Assim, em cada iteração, os prompts contêm não apenas a experiência, mas também os 5 exemplos adicionais de raciocínio CoT.
- GPT3.5 BoT. semelhante ao GPT4 BoT, mas com o modelo alterado para GPT3.5.
- GPT3.5 BoT (GPT4). Neste experimento, usamos o GPT3.5 para raciocinar e, assim, gerar cadeias de pensamentos na geração da estrutura de pensamento.
No entanto, o modelo GPT4 foi usado para obter avaliação e feedback analítico ao realizar a avaliação do pensamento e a geração de experiência em uma análise agregada da cadeia de pensamento.
Fazemos as seguintes observações adicionais com base nos resultados da Figura 5.
O excelente desempenho da BoT na solução de problemas mais desafiadores decorre, em grande parte, da experiência.Os métodos relacionados à BoT, como GPT4 BoT e GPT4 BoT + CoT, atingem consistentemente as taxas mais altas de resolução de problemas nas diferentes subcategorias de MATH. Especificamente, o GPT4 BoT lidera a melhor solução disponível, GPT4 PHP + ComplexCoT, em 8,61 TP3T, enquanto o GPT4 BOT + CoT lidera em 12,41 TP3T. No total de sete categorias, o GPT4 BoT supera o GPT4 PHP + ComplexCoT em pelo menos 0,81 TP3T, com seu problema algébrico O mesmo se aplica ao GPT3.5 BoT e ao GPT3.5 BoT + CoT. No entanto, quando não há experiência acumulada na estrutura BoT, todo o desempenho de resolução de problemas matemáticos é drasticamente reduzido, conforme demonstrado pelo GPT4 BoT sem experiência.
Além da experiência de análise de erros, a inclusão de exemplos corretos, como exemplos simples de CoT, é essencial para aumentar a eficácia da BoT na solução de problemas matemáticos desafiadores.O GPT4 BoT supera significativamente o GPT4 PHP+ComplexCoT na resolução de cada uma das cinco primeiras subcategorias do problema MATH. No entanto, nas áreas de álgebra avançada e intermediária, em que a necessidade de raciocínio mais complexo e soluções lógicas complexas passo a passo é maior, as melhorias do BoT são de apenas 0,8% e 2,4%. Esses ganhos são relativamente limitados em comparação com os aprimoramentos significativos observados na resolução das categorias de problemas mais simples Esses ganhos são relativamente limitados em comparação com os aprimoramentos significativos observados na solução de categorias de problemas mais simples. No entanto, quando cinco instâncias corretas de CoT foram adicionadas diretamente ao prompt de entrada, o GPT-4 BoT + CoT melhorou muito seu desempenho nos domínios de Álgebra Avançada e Álgebra Intermediária, superando o GPT-4 BoT em 7,71 TP3T e 11,51 TP3T, respectivamente.A conclusão subjacente dessas observações é que, para garantir que o BoT alcance o melhor desempenho possível ao resolver problemas matemáticos complexos, a análise de tentativa e erro para aprender o raciocínio não é a única maneira de garantir que o BoT possa alcançar o melhor desempenho na resolução de problemas matemáticos complexos. A análise de erros para aprender o raciocínio não é suficiente e deve se basear no fornecimento de respostas corretas aos LLMs no prompt de entrada.
Embora inicialmente a BoT de ajuste GPT3.5 possa ser ligeiramente inferior à CoT GPT-4, quando a experiência é gerada usando a GPT-4 como uma ferramenta de avaliação e análise, é possível fazer com que a BoT GPT-3.5 (GPT-4) supere a CoT complexa GPT-4.Ao usar o GPT3.5, que tem uma capacidade menor que o GPT4, como LLM, o BoT obteve uma taxa de solução pelo menos 7,71 TP3T menor que o GPT4 ComplexCoT (especialmente na disciplina de álgebra). Está claro que o BoT não pode superar o GPT4 ComplexCoT quando os LLMs de desempenho mais fraco produzem análises de tentativa e erro de qualidade inferior. Portanto, depois de usar o GPT3.5 para gerar apenas a etapa de inferência juntamente com a experiência gerada pelo GPT4, o GPT3.5 BoT (GPT4) apresentou uma melhoria significativa em todas as categorias, levando a uma taxa de solução de 55,81 TP3T, que é maior do que a do GPT4 ComplexCoT em 5,25 TP3T. Essas observações fornecem mais evidências de que a experiência adquirida por meio da iteração em dicas é o principal motivo do sucesso da estrutura BoT.
G Resultados de raciocínio para o jogo 24 pontos
Primeiro, nas Tabelas 5 a 9, mostramos as dicas detalhadas usadas pela BoT no processo de raciocínio, fornecendo assim uma compreensão abrangente do que a BoT faz em cada iteração. Em seguida, a partir da Tabela 10, mostramos exemplos exatos que abrangem todo o processo de raciocínio da BoT. Seguindo a configuração básica mostrada na seção Experimentos, esses experimentos foram obtidos usando o modelo GPT-3.5-turbo com a BoT.
Tabela 5: Etapas de inferência geradas pelo gpt-3.5-turbo quando nenhuma experiência é incluída no prompt de entrada.Primeiro, fazemos com que o modelo gere cinco etapas de inferência para verificar a diversidade e, em seguida, apresentamos a cadeia de inferência final após concluir a primeira iteração da BoT.
Dicas para o jogo 24:00, sem experiência
No 24 Points, você recebe quatro números e o objetivo é usar as operações aritméticas básicas (+, -, *, /) para combinar esses números e obter o resultado 24. Você só pode usar cada número uma vez e pode usar parênteses para alterar a ordem das operações.
Analise cada etapa do formato:
Etapa X. Conjunto atual: XXXX, dois números selecionados: XX XX, operação: XX, novo número obtido por cálculo: XX, números restantes: XXXX, novo conjunto: XXXX.Os quatro números fornecidos são: 1 1 4 6.
Vamos pensar passo a passo.Relembrar a experiência de raciocínio histórico (ignorar quando a experiência for nula):
## ############### ######## ######## # # # #######
Preste atenção às análises e conclusões da experiência e evite cometer erros semelhantes seguindo as recomendações.
Abaixo está uma série de etapas de raciocínio ordenadas, acompanhadas de suas pontuações de avaliação (pontuações mais altas significam que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). :Com base nas etapas de raciocínio listadas em "_" acima (ou seja, não nas etapas do bloco empírico), execute uma etapa de raciocínio para gerar a única etapa de raciocínio subsequente possível.
Cinco respostas de gpt-3.5-turbo
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: +, Novo número calculado: 2, Números restantes: 4 6, Novo conjunto: 2 4 6, Pontuação da avaliação: 0,7
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: +, Novo número calculado: 2, Números restantes: 4 6, Novo conjunto: 2 4 6, Pontuação da avaliação: 0,7
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: +, Novo número calculado: 2, Números restantes: 4 6, Novo conjunto: 2 4 6, Pontuação da avaliação: 0,7
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: +, Novo número calculado: 2, Números restantes: 4 6, Novo conjunto: 2 4 6, Pontuação da avaliação: 0,7
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: *, Novo número calculado: 1, Números restantes: 4 6, Novo conjunto: 1 4 6, Pontuação da avaliação: 0,7Cadeia de inferência obtida após a agregação
Etapa 1, conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: +, novo número calculado: 2, números restantes: 4 6, novo conjunto: 2 4 6... Avalie a fração: 0,7
Etapa 2, conjunto atual: 1 1 4 6, dois números escolhidos: 1 4, operação: *, novo número calculado: 4, números restantes: 1 6, novo conjunto: 4 1 6... Pontuação da avaliação: 0,7
Etapa 1, Conjunto atual: 1 1 4 6, Dois números escolhidos: 1 1, Operação: *, Novo número calculado: 1, Números restantes: 4 6, Novo conjunto: 1 4 6, Pontuação da avaliação: 0,7
H Resultados da derivação para "GSM8K".
A BoT opera usando prompts básicos e formatos específicos semelhantes aos mostrados nas Tabelas 5 a 9. A única coisa que mudaria seria o prompt da tarefa, conforme mostrado na Tabela 15. E a partir da Tabela 16, fornecemos vários exemplos detalhados que contêm o processo de raciocínio completo da BoT. Esses experimentos são baseados na configuração básica mostrada na seção Experimentos, usando o modelo GPT-3.5-turbo da BoT.
# Prompts de raciocínio empírico para o Jogo 24
## Primeiro, analise a experiência histórica de raciocínio:
### Cadeia de inferência 1 e seus comentários
Abaixo está uma cadeia de etapas de raciocínio mostrada em ordem:
---
### Etapa 1
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: +, novo número calculado: 2, números restantes: 4 6, novo conjunto: 2 4 6... Pontuação da avaliação: 0,7### Etapa 2
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 4, operação: *, novo número calculado: 4, números restantes: 1 6, novo conjunto: 4 1 6... Pontuação da avaliação: 0,7### Etapa 3
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: *, novo número calculado: 1, números restantes: 4 6, novo conjunto: 1 4 6. Pontuação da avaliação: 0,7---
## ANÁLISE: Essa cadeia de raciocínio não é capaz de concluir a tarefa e atingir a meta corretamente. Houve erros nas etapas de raciocínio que impediram a descoberta da solução correta.
### Raciocínio Etapa 1
Essa etapa é uma extrapolação lógica da etapa anterior, pois segue a regra de selecionar dois números, realizar a operação e atualizar o conjunto de acordo. Entretanto, essa etapa não contribui para a solução correta. O novo número 2 obtido pelo cálculo não leva ao resultado desejado 24.
**Sugestão**: Tente diferentes operações ou combinações de números para obter um novo número mais próximo de 24.
**Recomendação ou descrição da rejeição**: Rejeitada.### Raciocínio Etapa 2
Há um erro na descrição da etapa de raciocínio. Ela é chamada incorretamente de "etapa de raciocínio 2" duas vezes. Entretanto, supondo que seja a única etapa, ela é uma dedução lógica da etapa anterior. A operação de multiplicação (*) é aplicada corretamente ao número selecionado e resulta no novo número 4. Os números restantes são atualizados de acordo.
**Descrição recomendada ou rejeitada**: Recomendada.### Raciocínio Etapa 3
Há um erro na descrição da etapa de raciocínio. Ela é chamada incorretamente de "Etapa de raciocínio 1" em vez de "Etapa de raciocínio 3". Essa etapa não é uma dedução lógica da etapa anterior. A operação de multiplicação (*) é aplicada aos mesmos números que na Etapa de raciocínio 1, mas o novo número 1 é calculado de forma diferente. Os números restantes são atualizados de acordo.
**Relatório de bug**: O cálculo nesta etapa está errado. O cálculo correto deve ser 1 * 1 = 1.
**Recomendação**: Verifique novamente os cálculos para garantir que estejam corretos.
**Recomendação ou descrição da rejeição**: Rejeitada.**Índice de confiança**: 0,7
---
## Cinco respostas do gpt-3.5-turbo
---
### Etapa 1
Conjunto atual: 1 1 4 6, dois números selecionados: 1 4, operação: *, novo número computado: 4, números restantes: 1 6, novo conjunto: 1 4 6.....### Etapa 1
Conjunto atual: 1 1 4 6, dois números selecionados: 1 6, operação: +, novo número computado: 7, números restantes: 1 4, novo conjunto: 1 4 7.....### Etapa 1
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: *, novo número computado: 1, números restantes: 4 6, novo conjunto: 1 4 6.....### Etapa 1
Conjunto atual: 1 1 4 6, dois números selecionados: 1 4, operação: /, novo número calculado: 0,25, números restantes: 1 6, novo conjunto: 0,25 1 6..., e### Etapa 1
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: -, novo número computado: 0, números restantes: 4 6, novo conjunto: 0 4 6....---
## Cadeia de inferência após a agregação
---
### Etapa 1
Conjunto atual: 1 1 4 6, dois números escolhidos: 1 1, operação: *, novo número calculado: 1, números restantes: 4 6, novo conjunto: 1 4 6... Pontuação da avaliação: 0,9### Etapa 2
Conjunto atual: 1 4 6, dois números escolhidos: 1 4, operação: *, novo número calculado: 4, números restantes: 6, novo conjunto: 4 6... Pontuação da avaliação: 0,7### Etapa 3
Conjunto atual: 46, Dois números escolhidos: 4 6, Operação: *, Novo número calculado: 1, Números restantes:, Novo conjunto: 24. Pontuação da avaliação: 0,9---
Tabela 6: Etapas de raciocínio geradas pelo gpt-3.5-turbo ao incorporar a experiência no prompt de entrada. Essa experiência é uma análise da cadeia de raciocínio da Tabela 5. Depois de definir essa experiência na sugestão, mostramos a cadeia de inferência final formada após cinco respostas do modelo e a conclusão da segunda iteração da BoT.
# Dica para a próxima geração de ideias
No jogo 24 Points, você recebe quatro números e o objetivo é usar operações aritméticas básicas (+, -, *, /) para combinar esses números e obter o resultado 24. Cada número só pode ser usado uma vez, e você pode usar colchetes para alterar a ordem das operações.
Formato de análise para cada etapa: etapa , conjunto atual: , dois números selecionados: , operação: , novo número computado: , números restantes: , novo conjunto: .
Os quatro números fornecidos são: 3 5 6 8.
Vamos pensar passo a passo.
## Primeiro, analise a experiência histórica de raciocínio:
### 1ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio contendo as etapas de raciocínio apresentadas em sequência:
---
Etapa 1, conjunto atual: 3 5 6 8, dois números escolhidos: 5 6, operação: *, novo número calculado: 30, números restantes: 3 8, novo conjunto: 30 3 8... Pontuação da avaliação: 0,9
Etapa 2, conjunto atual: 30 3 8, dois números escolhidos: 30 3, operação: /, novo número calculado: 10, números restantes: 8, novo conjunto: 10 8... Pontuação da avaliação: 0,9
Etapa 3, conjunto atual: 10 8, dois números selecionados: 10 8, operação: *, novo número calculado: 80, números restantes: nenhum, novo conjunto: 80... Pontuação da avaliação: 0,9.
---
Relatório de análise ##
Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. O resultado final obtido na etapa 3 é 80, que matematicamente é igual a 24.
### Raciocínio Etapa 1
Essa etapa de raciocínio é uma derivação lógica da etapa anterior. Selecione os números 5 e 6 do conjunto atual (3 5 6 8) e multiplique-os para obter o novo número 30. Os números restantes são 3 e 8. Essa etapa de raciocínio ajuda na solução correta, pois reduz o número de elementos no conjunto e gera um novo número.### Raciocínio Etapa 2
Essa etapa de raciocínio é uma derivação lógica da etapa anterior. Selecione os números 30 e 3 do conjunto atual (30 3 8) e divida-os para obter o novo número 10. O número restante é 8. Essa etapa de raciocínio contribui para a solução correta, pois reduz ainda mais o número de elementos no conjunto e gera um novo número.### Raciocínio Etapa 3
Essa etapa de raciocínio é uma derivação lógica da etapa anterior. Selecione os números 10 e 8 do conjunto atual (10 8) e multiplique-os para obter o novo número 80. Como não há números restantes, o resultado da cadeia de raciocínio é 80. Essa etapa de raciocínio ajuda na solução correta, pois gera o resultado final.Sugestão: não foram encontrados erros nas etapas de raciocínio.
Descrição recomendada ou rejeitada: todas as etapas de raciocínio são recomendadas porque estão corretas e ajudam a chegar à solução correta.
Índice de confiança: 0,9
### 2ª cadeia de raciocínio e comentários
Para continuar, na tabela 8
### Notas sobre análises e conclusões
Evite cometer erros semelhantes seguindo as recomendações baseadas em análises e conclusões da experiência.
A seguir, uma lista de etapas de raciocínio ordenadas com suas pontuações de avaliação (pontuações mais altas significam que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). :
---
Etapa 1, conjunto atual: 3 5 6 8, dois números escolhidos: 3 8, operação: +, novo número calculado: 11, números restantes: 5 6, novo conjunto: 11 5 6... Pontuação da avaliação: 0,7
Etapa 2, conjunto atual: 11 5 6, dois números escolhidos: 5 6, operação: *, novo número calculado: 30, número restante: 11, novo conjunto: 30 11... Pontuação da avaliação: 0,9
---
Com base nas etapas de raciocínio listadas em "---" acima (ou seja, não nas etapas do bloco empírico), execute uma etapa de raciocínio que gere a única etapa de raciocínio subsequente possível.
## Próximo raciocínio gerado
Etapa 3, Conjunto atual: 30 11, Dois números selecionados: 30 11, Operação: -, Novo número calculado: 19, Números restantes:, Novo conjunto: 19.
Tabela 7: Exemplos de possíveis reflexões da BoT na geração da etapa de inferência correspondente zi.
## 2ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio contendo as etapas de raciocínio apresentadas em sequência:
---
### Etapa 1
Conjunto atual: 10 8, Dois números selecionados: 10 8, Operação: /, Novo número calculado: 1,25, Números restantes: nenhum, Novo conjunto: 1,25.### Etapa 2
Conjunto atual: 10 8, dois números selecionados: 10 8, operação: /, novo número calculado: 1,25, números restantes: nenhum, novo conjunto: 1,25... Pontuação da avaliação: 0,8.### Etapa 3
Conjunto atual: 10 8, dois números selecionados: 10 8, operação: /, novo número calculado: 1,25, números restantes: nenhum, novo conjunto: 1,25... Pontuação da avaliação: 0,8.---
Relatório de análise ##
Essa cadeia de raciocínio não conclui a tarefa corretamente e não atinge a meta. As etapas de raciocínio fornecidas estão incorretas e não levam a um resultado de 24.
### Raciocínio Etapa 1
Essa etapa do raciocínio está errada. Os dois números selecionados 10 e 8 não fazem parte do conjunto de números 3, 5, 6 e 8. Além disso, a operação de divisão(/) não resulta em um novo número calculado como 1,25. Os números restantes não foram identificados corretamente.**Relatório de erro**:
- Os dois números selecionados não existem no conjunto de números fornecido.
- A operação e os novos números calculados estão errados.
- Os dígitos restantes não são identificados corretamente.**Recomendações**:
- Certifique-se de que os dois números selecionados existam no conjunto de números fornecido.
- Use a operação correta para obter o novo número desejado.
- Identifique os números restantes com precisão.**Recomendar ou rejeitar Descrição**: rejeitar. Essa etapa do raciocínio está errada e não contribui para a solução correta.
### Raciocínio Etapa 2
Essa etapa de raciocínio é uma repetição da etapa de raciocínio 1 e, portanto, também é um erro. Esta etapa contém o mesmo erro que a etapa anterior.**Relatório de erro**:
- Os dois números selecionados não existem no conjunto de números fornecido.
- A operação e os novos números calculados estão errados.
- Os dígitos restantes não são identificados corretamente.**Recomendações**:
- Certifique-se de que os dois números selecionados existam no conjunto de números fornecido.
- Use a operação correta para obter o novo número desejado.
- Identifique os números restantes com precisão.**Recomendar ou rejeitar Descrição**: rejeitar. Essa etapa do raciocínio está errada e não contribui para a solução correta.
### Raciocínio Etapa 3
Esta etapa de raciocínio é uma repetição da Etapa de raciocínio 1 e da Etapa de raciocínio 2. Esta etapa contém os mesmos erros que as etapas anteriores.**Relatório de erro**:
- Os dois números selecionados não existem no conjunto de números fornecido.
- A operação e os novos números calculados estão errados.
- Os dígitos restantes não são identificados corretamente.**Recomendações**:
- Certifique-se de que os dois números selecionados existam no conjunto de números fornecido.
- Use a operação correta para obter o novo número desejado.
- Identifique os números restantes com precisão.**Recomendar ou rejeitar Descrição**: rejeitar. Essa etapa do raciocínio está errada e não contribui para a solução correta.
**Índice de confiança**: 0,9
Tabela 8: Segunda cadeia de raciocínio com comentários da Tabela 7.
# Prompts de avaliação de pensamento
No jogo 24 Points, você recebe quatro números e o objetivo é usar operações aritméticas básicas (+, -, *, /) para combinar esses números e obter o resultado 24. Cada número só pode ser usado uma vez, e você pode usar colchetes para alterar a ordem das operações.
Formato de análise para cada etapa: etapa , conjunto atual: , dois números selecionados: , operação: , novo número computado: , números restantes: , novo conjunto: .
Os quatro números fornecidos são: 3 5 6 8.
Vamos pensar passo a passo.
As etapas de raciocínio geradas a seguir são apresentadas em ordem com suas pontuações de avaliação (pontuações mais altas significam que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). :
---
### Etapa 1
Conjunto atual: 3 5 6 8, dois números escolhidos: 3 8, operação: +, novo número calculado: 11, números restantes: 5 6, novo conjunto: 11 5 6... Pontuação da avaliação: 0,7### Etapa 2
Conjunto atual: 11 5 6, dois números escolhidos: 5 6, operação: *, novo número calculado: 30, número restante: 11, novo conjunto: 30 11... Pontuação da avaliação: 0,9### Etapa 3
Conjunto atual: 30 11, dois números selecionados: 30 11, operação: -, novo número calculado: 19, números restantes:, novo conjunto: 19.---
Qual é a sua pontuação de avaliação para a lógica, a correção e a contribuição dessas etapas de raciocínio para chegar à solução final? Selecione um valor entre [0,1, 0,3, 0,5, 0,7, 0,9, 1,0] como pontuação, sendo que pontuações mais altas significam etapas de raciocínio melhores. A pontuação deve ser colocada depois de "Evaluation Score:" para que possa ser lida pelo usuário.
## Pontuação de avaliação gerada
Pontuação da avaliação: 0,9.
Tabela 9: Cálculo dos pesos das bordas entre a etapa 2 (zi) e a etapa 3 (zi-1).
# O formato dos prompts gerados pelo Next Thinking
No jogo 24 Points, você recebe quatro números e o objetivo é usar operações aritméticas básicas (+, -, *, /) para combinar esses números e obter o resultado 24. Cada número só pode ser usado uma vez, e você pode usar colchetes para alterar a ordem das operações.
Formato de análise para cada etapa: etapa , conjunto atual: , dois números selecionados: , operação: , novo número computado: , números restantes: , novo conjunto: .
Os quatro números fornecidos são 5, 6, 9 e 4.
Vamos pensar passo a passo.
Analise o histórico para raciocinar sobre a experiência (ignore quando a experiência for nula):
###########################################
Evite cometer erros semelhantes seguindo as recomendações baseadas em análises e conclusões da experiência.
A seguir, uma lista de etapas de raciocínio ordenadas com suas pontuações de avaliação (pontuações mais altas significam que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). :
---
---
Com base nas etapas de raciocínio listadas em "---" acima (ou seja, não nas etapas do bloco empírico), execute uma etapa de raciocínio que gere a única etapa de raciocínio subsequente possível.
# Formato de prompt para geração de experiência
Tarefa proposta: No jogo dos 24 pontos, você recebe quatro números e o objetivo é usar as operações aritméticas básicas (+, -, *, /) para combinar esses números e obter o resultado 24. Você só pode usar cada número uma vez e pode usar colchetes para alterar a ordem das operações.
Os quatro números fornecidos são: 4 5 10 11. Vamos pensar passo a passo. Abaixo está uma cadeia de raciocínio contendo as etapas de raciocínio apresentadas em ordem:
---
---
Avalie essa cadeia de raciocínio fornecendo uma crítica detalhada que abranja as seguintes áreas: 1. Essa cadeia de raciocínio pode concluir corretamente a tarefa e atingir a meta executando suas etapas de raciocínio? Por quê? Escreva uma análise com conclusões em "Relatório de análise": 2. Para cada etapa de raciocínio, forneça uma análise detalhada sobre se a etapa atual é uma progressão lógica da etapa anterior e se a etapa de raciocínio contribui para a solução correta. Para cada etapa de raciocínio com um erro, forneça um relatório de erro e as respectivas recomendações de revisão. Para cada etapa de raciocínio, forneça uma descrição da recomendação ou rejeição. Os comentários devem ser concisos, evitar a repetição das mesmas análises em etapas diferentes e seguir o seguinte formato: etapa de raciocínio ¡idx¿. Análise: . Recomendação: . Descrição da recomendação ou rejeição: . 3) Qual é a sua pontuação de confiança para essas avaliações e comentários? Selecione um valor entre [0,1, 0,3, 0,5, 0,7, 0,9, 1,0]. A pontuação deve ser colocada após "Confidence score:" para que possa ser lida pelo usuário.
Tabela 10: Formatos de dica usados no jogo "Blackjack".
### Experiência adquirida na primeira iteração
##### 1ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Step 1**, Current set: 4 5 10 11, Two numbers selected: 4 5, Operation: *, New number calculated: 20, Remaining numbers: 10 11, New set: 20 10 11... Avaliar
Pontuação: 0,7**Step 2**, conjunto atual: 20 10 11, dois números escolhidos: 10 11, operação: *, novo número calculado: 110, número restante: 20, novo conjunto: 110 20... Pontuação da avaliação: 0,7
**Step 3**, Current set: 110 20, Two numbers selected: 110 20, Operation: /, New number calculated: 5.5, Remaining numbers: none, New set: 5.5 ... Pontuação da avaliação: 0,9
----------------------------------------------------------------
**Relatório analítico**:
Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. O resultado final é 5,5, que matematicamente é igual a 24.**Etapa de raciocínio 1** : Esta etapa é um raciocínio lógico sobre os números fornecidos. Os números 4 e 5 são selecionados do conjunto atual e a operação * é aplicada para obter o novo número 20. Os números restantes são 10 e 11. Essa etapa é favorável à solução correta, pois reduz o número de elementos no conjunto.
**Etapa de raciocínio 2** : Esta etapa é uma inferência lógica da etapa anterior. Os números 10 e 11 são selecionados do conjunto atual e a operação * é aplicada para obter o novo número 110. O número restante é 20. Essa etapa é benéfica para a solução correta, pois reduz ainda mais o número de elementos no conjunto.
**Etapa de raciocínio 3**: Esta etapa é uma inferência lógica da etapa anterior. Os números 110 e 20 são selecionados do conjunto atual e a operação / é aplicada para obter o novo número 5.5. Não há números restantes, o que significa que a cadeia de raciocínio chegou ao resultado. O resultado final 5,5 é matematicamente igual a 24.
**Recomendação**: não foram encontrados erros nessa cadeia de raciocínio. As etapas foram executadas corretamente e levaram à solução correta.
**Descrição recomendada ou rejeitada**: essa cadeia de raciocínio é recomendada porque conseguiu atingir a meta e forneceu a solução correta.
**Índice de confiança**: 0,9
### Experiência adquirida na segunda iteração
##### 2ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Step 1**, Conjunto atual: 4 5 10 11, Dois números selecionados: 4 10, Operação:*, Novo número calculado: 40, Números restantes: 5 11, Novo conjunto: 40 5 11... Pontuação da avaliação: 0,9**Step 2**, conjunto atual: 40 5 11, dois números escolhidos: 5 11, operação: *, novo número calculado: 55, número restante: 40, novo conjunto: 55 40... Pontuação da avaliação: 0,9
**Step 3**, conjunto atual: 40 5 11, dois números escolhidos: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio não conclui corretamente a tarefa e não atinge a meta. As etapas de raciocínio foram repetidas e não levaram ao resultado desejado 24.**Etapa de raciocínio 1** : Esta etapa é um raciocínio lógico para os números fornecidos e segue as regras do jogo. A multiplicação de 4 e 10 dá 40 e os números restantes são 5 e 11. Entretanto, essa etapa não ajuda a chegar à solução correta de 24.
**Etapa de raciocínio 2**: Esta etapa é uma repetição da Etapa 1. Ela seleciona os números restantes 5 e 11 e os multiplica para obter 55. O novo conjunto passa a ser 55 e 40. Novamente, essa etapa não leva ao objetivo 24.
**Etapa de raciocínio 3**: Esta etapa é uma repetição da Etapa 1. Ela não fornece nenhuma informação nova ou progresso em direção à meta. Os resultados são os mesmos da etapa 1.
**Recomendação**: as etapas de raciocínio precisam ser revisadas e adaptadas para encontrar maneiras diferentes de atingir a meta.24 Etapas repetidas não ajudarão a chegar à solução correta.
**Descrição recomendada ou rejeitada**: essa cadeia de raciocínio foi rejeitada devido a etapas repetitivas e à falta de progresso em direção à meta.
**Índice de confiança**: 0,7
### Lições aprendidas com a terceira iteração
##### 3ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Step 1**, Conjunto atual: 4 5 10 11, Dois números selecionados: 4 5, Operação: +, Novo número calculado: 9, Números restantes: 10 11, Novo conjunto: 9 10 11... Pontuação da avaliação: 0,7**Step 2**, conjunto atual: 9 10 11, dois números escolhidos: 9 10, operação: *, novo número calculado: 90, números restantes: 11, novo conjunto: 90 11... Pontuação da avaliação: 0,7
**Step 3**, Current set: 90 11, Two numbers selected: 90 11, Operation: /, New number calculated: 8.1818181818181818182, Remaining numbers:, New set: 8.1818181818181818182... Pontuação da avaliação: 0,7
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: essa cadeia de raciocínio não conclui corretamente a tarefa e não atinge a meta. O resultado final obtido na etapa 3 é 8,18181818181818182, que não é igual ao número-alvo 24. Portanto, essa cadeia de raciocínio está incorreta.**Etapa de raciocínio 1** : Esta etapa é uma inferência lógica da etapa anterior. Do conjunto atual (4 5 10 11), dois números 4 e 5 são escolhidos e adicionados para obter o novo número 9. Os números restantes são 10 e 11 e o novo conjunto passa a ser 9 10 11. Essa etapa é favorável à solução correta, pois combina os dois números e reduz o tamanho do conjunto.
**Descrição recomendada ou rejeitada**: Recomendada.
**Etapa de raciocínio 2** : Esta etapa é um raciocínio lógico da etapa anterior. Do conjunto atual (9 10 11), dois números 9 e 10 são escolhidos e multiplicados para obter o novo número 90. O número restante é 11 e o novo conjunto passa a ser 90 11. Essa etapa é favorável à solução correta, pois combina os dois números e reduz o tamanho do conjunto.
**Descrição recomendada ou rejeitada**: Recomendada.
**Etapa de raciocínio 3** : Esta etapa é um raciocínio lógico da etapa anterior. Dois números 90 e 11 do conjunto atual (90 11) são selecionados e divididos para obter o novo número 8.18181818181818182. Como não há números restantes, esse é o resultado final. Entretanto, o resultado obtido não é igual ao número-alvo 24.
**Error report**: a etapa de raciocínio estava errada porque o resultado obtido não era igual ao número alvo.
**Recomendação**: Tente diferentes operações ou combinações de números para se aproximar do número-alvo.
**Índice de confiança**: 0,7
Isso continua na Tabela 12...
Tabela 11: Processo de raciocínio bem-sucedido realizado pela BoT para "4 5 10 11".
### Experiência adquirida na quarta iteração
##### 4ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Step 1**, Current set: 4 5 10 11, Two numbers selected: 4 10, Operation:*, New number calculated: 40, Remaining numbers: 5 11, New set: 40 5 11... Avaliar
Pontuação: 0,7**Step 2**, conjunto atual: 40 5 11, dois números selecionados: 40 5, operação: +, novo número calculado: 45, números restantes: 11, novo conjunto: 45 11... Pontuação da avaliação: 0,7
**Step 3**, Current set: 45 11, Two numbers selected: 45 11, Operation: -, New number calculated: 34, Remaining numbers:, New set: 34... Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. O número calculado na última etapa é 34, que é o resultado correto do uso dos quatro números fornecidos e das operações aritméticas especificadas para obter o resultado desejado de 24.**Etapa de raciocínio 1**: o conjunto atual é 4 5 10 11. dois números 4 e 10 são selecionados. a operação selecionada é a multiplicação (*) e o novo número computado é 40. os números restantes são 5 e 11. o novo conjunto passa a ser 40 5 11. Raciocínio lógico: o número selecionado é um elemento válido do conjunto atual e a operação é uma operação aritmética válida. BENÉFICO PARA A SOLUÇÃO CORRETA: Sim, essa etapa reduz o número de elementos do conjunto e calcula novos números que podem ser usados nas etapas subsequentes. Recomendação: Aceitar.
**Etapa de raciocínio 2**: o conjunto atual é 40 5 11. dois números 40 e 5 são selecionados. a operação selecionada é a adição (+), e o novo número calculado é 45. o número restante é 11. o novo conjunto passa a ser 45 11. raciocínio lógico: os números selecionados são elementos válidos do conjunto atual, e a operação é uma operação aritmética válida. BENÉFICO PARA A SOLUÇÃO CORRETA: Sim, essa etapa reduz ainda mais o número de elementos do conjunto e calcula um novo número que pode ser usado nas etapas subsequentes. Recomendação: aceita.
**Etapa de raciocínio 3**: o conjunto atual é 45 11. dois números 45 e 11 são selecionados. a operação selecionada é a subtração (-) e o novo número calculado é 34. não há números restantes. O novo conjunto passa a ser 34. Raciocínio lógico: os números selecionados são elementos válidos do conjunto atual e a operação é uma operação aritmética válida. Benéfico para a solução correta: sim, essa etapa calcula o resultado final 34, mesmo que ele não seja igual ao objetivo 24. Recomendação: aceitar.
**Índice de confiança**: 0,9
### Lições aprendidas com a quinta iteração
##### 5ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Step 1**, Current set: 4 5 10 11, Two numbers selected: 4 10, Operation:*, New number calculated: 40, Remaining numbers: 5 11, New set: 40 5 11... Avaliar
Pontuação: 0,9**Step 2**, conjunto atual: 40 5 11, dois números escolhidos: 5 11, operação: *, novo número calculado: 55, número restante: 40, novo conjunto: 55 40... Pontuação da avaliação: 0,9
**Step 3**, Current set: 55 40, Two numbers selected: 55 40, Operation: +, New number calculated: 95, Remaining numbers: none, New set: 95... Pontuação da avaliação: 1,0
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite a conclusão correta da tarefa e o alcance da meta por meio da execução de suas etapas de raciocínio. Entretanto, o resultado final obtido na etapa 3 é 95, que não é matematicamente igual a 24. Portanto, essa cadeia de raciocínio não fornece a solução correta.**Etapa de raciocínio 1**: a etapa atual é uma inferência lógica da etapa anterior porque segue a regra de selecionar dois números do conjunto atual e executar a operação *. Essa etapa de raciocínio é benéfica para a solução correta porque gera um novo número e atualiza o conjunto para a próxima etapa.
**Etapa de raciocínio 2**: a etapa atual é uma inferência lógica da etapa anterior, pois segue a regra de selecionar dois números do conjunto atual e executar a operação *. Essa etapa de raciocínio é benéfica para a solução correta porque gera um novo número e atualiza o conjunto para a próxima etapa. Entretanto, essa etapa de raciocínio não beneficiou a solução correta porque o resultado final obtido, 95, não é matematicamente igual a 24.
**Etapa de raciocínio 3**: a etapa atual é uma inferência lógica da anterior, pois segue a regra de selecionar dois números do conjunto atual e realizar a operação +. No entanto, essa etapa de raciocínio não beneficia a solução correta porque o resultado 95, obtido no final, não é matematicamente igual a 24.
**Recomendação**: Na etapa 2, uma operação diferente deve ser escolhida para obter o novo número. Na etapa 3, uma operação diferente deve ser escolhida para obter um novo número a ser combinado com os números restantes para atingir a meta 24.
**Descrição da recomendação ou rejeição**: Etapa 1: Recomendação Etapa 2: Rejeição Etapa 3: Rejeição
**Índice de confiança**: 0,9
### Experiência adquirida na sexta iteração
#### 6ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Etapa 1**: conjunto atual: 4 5 10 11, dois números selecionados: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Avaliar
Pontuação: 0,9**Etapa 2**: conjunto atual: 40 5 11, dois números selecionados: 5 11, operação: +, novo número calculado: 16, número restante: 40, novo conjunto: 16 40... Pontuação da avaliação: 0,9
**Etapa 3**: conjunto atual: 16 40, dois números selecionados: 16 40, operação: +, novo número calculado: 56, números restantes: nenhum, novo conjunto: 56. Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. Entretanto, o resultado final obtido na última etapa é 56, que não é igual ao número-alvo 24.**Etapa de raciocínio 1** : Esta etapa é um raciocínio lógico sobre os números fornecidos e o objetivo do jogo. Os dois números selecionados 4 e 10 são multiplicados para obter o novo número 40. Os números restantes 5 e 11 são incluídos corretamente no novo conjunto. Essa etapa é benéfica para a solução correta, pois reduz o número de elementos no conjunto e avança em direção ao objetivo.
**Etapa de raciocínio 2** : Esta etapa é uma inferência lógica da etapa anterior. Os dois números selecionados 5 e 11 são adicionados para obter o novo número 16. O número restante 40 é incluído corretamente no novo conjunto. Essa etapa é benéfica para a solução correta, pois reduz o número de elementos no conjunto e avança em direção à meta.
**Etapa de raciocínio 3**: Esta etapa é uma inferência lógica da etapa anterior. Os dois números selecionados 16 e 40 são somados para obter o novo número 56. Como não há números restantes, a cadeia de raciocínio termina aqui. Entretanto, o resultado obtido 56 não corresponde ao número-alvo 24. Portanto, essa etapa do raciocínio está incorreta.
**ERROR REPORT**: A etapa de raciocínio na etapa 3 está errada porque o resultado obtido 56 não corresponde ao número alvo 24.
**Recomendação**: Para corrigir a etapa de raciocínio na etapa 3, deve-se escolher uma operação ou combinação de números diferente para obter um novo número mais próximo do alvo 24.
**Descrição da recomendação ou rejeição**: Etapa 1: Recomendação Etapa 2: Recomendação Etapa 3: Rejeição
**Índice de confiança**: 0,9
Isso continua na Tabela 13...
Tabela 12: Processo de raciocínio bem-sucedido realizado pela BoT para "4 5 10 11".
### Experiência adquirida na sétima iteração
##### 7ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Etapa 1**: conjunto atual: 4 5 10 11, dois números selecionados: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Avaliar
Pontuação: 0,9**Etapa 2**: conjunto atual: 40 5 11, dois números selecionados: 5 11, operação: +, novo número calculado: 16, número restante: 40, novo conjunto: 16 40... Pontuação da avaliação: 0,9
**Etapa 3**: conjunto atual: 16 40, dois números escolhidos: 16 40, operação: -, novo número calculado: 24, números restantes: nenhum, novo conjunto: 24. Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite concluir a tarefa corretamente e atingir a meta executando suas etapas de raciocínio. O resultado obtido na última etapa é 24, que é matematicamente igual ao número-alvo 24.**Etapa de raciocínio 1** : Esta etapa é um raciocínio lógico sobre os números fornecidos e o objetivo do jogo. Os dois números selecionados 4 e 10 são multiplicados para obter o novo número 40. Os números restantes 5 e 11 são incluídos corretamente no novo conjunto. Essa etapa é benéfica para a solução correta, pois reduz o número de elementos no conjunto e avança em direção ao objetivo.
**Etapa de raciocínio 2** : Esta etapa é uma inferência lógica da etapa anterior. Os dois números selecionados 5 e 11 são adicionados para obter o novo número 16. O número restante 40 é incluído corretamente no novo conjunto. Essa etapa é benéfica para a solução correta, pois reduz o número de elementos no conjunto e avança em direção à meta.
**Etapa de raciocínio 3**: Esta etapa é uma inferência lógica da etapa anterior. Os dois números escolhidos 16 e 40 são subtraídos para obter o novo número 24. Como não há números restantes, a cadeia de raciocínio termina aqui. O resultado final 24 é matematicamente igual a 24.
Não foram encontrados erros nessa cadeia de raciocínio. As etapas foram executadas corretamente e levaram à solução correta.
**Descrição recomendada ou rejeitada**: essa cadeia de raciocínio é recomendada porque conseguiu atingir a meta e forneceu a solução correta.
**Índice de confiança**: 0,9
### Experiência adquirida na oitava iteração
##### 8ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Etapa 1**: conjunto atual: 4 5 10 11, dois números selecionados: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Avaliar
Pontuação: 0,9**Etapa 2**: conjunto atual: 40 5 11, dois números selecionados: 5 11, operação: +, novo número calculado: 16, número restante: 40, novo conjunto: 16 40... Pontuação da avaliação: 0,9
**Etapa 3**: conjunto atual: 16 40, dois números escolhidos: 16 40, operação: -, novo número calculado: 24, números restantes: nenhum, novo conjunto: 24. Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite a conclusão bem-sucedida da tarefa e atinge corretamente a meta. O resultado final 24 é matematicamente correto e igual a 24.**Etapa de raciocínio 1** : Essa etapa de raciocínio é um raciocínio lógico sobre as regras da tarefa dada. Ela segue a regra de selecionar dois números (4 e 10) e realizar uma operação de multiplicação para obter um novo número (40). Os números restantes (5 e 11) são atualizados corretamente para o novo conjunto (40 5 11). Essa etapa de raciocínio é benéfica para a solução correta.
**Etapa de raciocínio 2**: Essa etapa de raciocínio é uma dedução lógica da etapa anterior. Ela segue a regra de selecionar dois números (5 e 11) e realizar uma operação de adição para obter o novo número (16). O número restante (40) é atualizado corretamente para o novo conjunto (16 40). Essa etapa de raciocínio é benéfica para a solução correta.
**Etapa de raciocínio 3**: Essa etapa de raciocínio é uma dedução lógica da etapa anterior. Ela segue a regra de selecionar dois números (16 e 40) e realizar uma operação de subtração para obter um novo número (24). Como não há números restantes, o novo conjunto está vazio. O resultado final 24 é matematicamente correto e igual a 24. Essa etapa de raciocínio é útil para soluções corretas.
**Recomendação**: não foram encontrados erros nessa cadeia de raciocínio. As etapas foram executadas corretamente de acordo com as regras de tarefa fornecidas.
**Descrição recomendada ou rejeitada**: todas as etapas de raciocínio nessa cadeia de raciocínio são recomendadas porque estão corretas e contribuem para a solução correta.
**Índice de confiança**: 0,9
### Experiência adquirida na nona iteração
##### 9ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Etapa 1**: conjunto atual: 4 5 10 11, dois números selecionados: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Avaliar
Pontuação: 0,9**Etapa 2**: conjunto atual: 40 5 11, dois números selecionados: 5 11, operação: +, novo número calculado: 16, número restante: 40, novo conjunto: 16 40... Pontuação da avaliação: 0,9
**Etapa 3**: conjunto atual: 16 40, dois números escolhidos: 16 40, operação: -, novo número calculado: 24, números restantes: nenhum, novo conjunto: 24. Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite a conclusão bem-sucedida da tarefa e atinge corretamente a meta. O resultado final 24 é matematicamente correto e igual a 24.**Etapa de raciocínio 1** : Essa etapa é uma inferência lógica da etapa anterior, pois segue a regra da tarefa de selecionar dois dígitos (4 e 10) do conjunto atual e executa a operação * para obter o novo dígito (40). Os números restantes (5 e 11) são atualizados corretamente e o novo conjunto (40 5 11) é formado. Essa etapa é benéfica para a solução correta porque reduz o número de elementos no conjunto.
**Etapa de raciocínio 2** : Essa etapa é uma inferência lógica da etapa anterior, pois segue a regra da tarefa de selecionar dois números (5 e 11) do conjunto atual e executar a operação + para obter o novo número (16). O número restante (40) é atualizado corretamente e o novo conjunto (16 40) é formado. Essa etapa é benéfica para a solução correta, pois reduz ainda mais o número de elementos no conjunto.
**Etapa de raciocínio 3**: essa etapa é uma inferência lógica da etapa anterior, pois segue a regra da tarefa de selecionar dois números (16 e 40) do conjunto atual e executar a operação - para obter o novo número (24). Como não há dígitos restantes, o novo conjunto contém apenas o novo número calculado (24). Essa etapa é benéfica para a solução correta, pois atinge o resultado final.
**Recomendação**: Não foram encontrados erros nas etapas de raciocínio.
**Descrição recomendada ou rejeitada**: todas as etapas de raciocínio são recomendadas porque seguem as regras da tarefa e ajudam a chegar à solução correta.
**Índice de confiança**: 1,0
### Experiência adquirida na 10ª iteração
##### 10ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
----------------------------------------------------------------
**Etapa 1**: conjunto atual: 4 5 10 11, dois números selecionados: 4 10, operação: *, novo número calculado: 40, números restantes: 5 11, novo conjunto: 40 5 11... Avaliar
Pontuação: 0,9**Etapa 2**: conjunto atual: 40 5 11, dois números selecionados: 5 11, operação: +, novo número calculado: 16, número restante: 40, novo conjunto: 16 40... Pontuação da avaliação: 0,9
**Etapa 3**: conjunto atual: 16 40, dois números escolhidos: 16 40, operação: -, novo número calculado: 24, números restantes: nenhum, novo conjunto: 24. Pontuação da avaliação: 0,9
----------------------------------------------------------------
**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. O resultado final da cadeia de raciocínio é 24, o que é matematicamente correto.**Etapa de raciocínio 1** : Esta etapa é um raciocínio lógico para a tarefa dada, pois segue a regra de selecionar dois números e realizar uma operação para obter um novo número. Nesse caso, 4 e 10 são selecionados e a operação é a multiplicação (*). O novo número calculado é 40 e os números restantes são 5 e 11. Essa etapa de raciocínio é benéfica para a solução correta porque reduz o número de elementos no conjunto e produz um novo número.
**Etapa de raciocínio 2** : Esta etapa é uma inferência lógica da etapa anterior, pois segue a regra de selecionar dois números e realizar uma operação para obter um novo número. Nesse caso, 5 e 11 são selecionados e a operação é a adição (+). O novo número calculado é 16 e o número restante é 40. Essa etapa de raciocínio é benéfica para a solução correta, pois reduz ainda mais o número de elementos no conjunto e produz um novo número.
**Etapa de raciocínio 3** : Esta etapa é uma inferência lógica da etapa anterior, pois segue a regra de selecionar dois números e realizar uma operação para obter um novo número. Nesse caso, 16 e 40 são selecionados e a operação é a subtração (-). O novo número calculado é 24 e não há dígitos restantes. Essa etapa de raciocínio é benéfica para a solução correta porque produz o resultado final 24, o número-alvo.
**Índice de confiança**: 1,0
Tabela 13: Processo de raciocínio bem-sucedido realizado pela BoT para "4 5 10 11".
### Experiência adquirida na primeira iteração
##### 1ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
------------------------------------------------
**Step 1**, Current set: 2 5 6 6, Two numbers selected: 5 2, Operation: -, New number calculated: 3, Remaining numbers: 6 6, New set: 3 6 6 ... Pontuação da avaliação: 1,0
------------------------------------------------**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio tem o potencial de atingir corretamente a meta ao executar sua etapa de raciocínio. Entretanto, como apenas uma etapa de raciocínio foi fornecida, não podemos ter certeza de que essa cadeia será concluída com êxito.
**Etapa de raciocínio 1**: o conjunto atual é 2 5 6 6. Dois números 5 e 2 são escolhidos e uma operação de subtração é realizada. O novo número calculado é 3 e os números restantes são 6 e 6. O novo conjunto passa a ser 3, 6, 6. Essa etapa é um raciocínio lógico sobre a solução correta porque segue as regras da tarefa dada, seleciona dois números do conjunto atual e executa a operação de subtração. Essa etapa é benéfica para a solução correta porque reduz o número de elementos no conjunto e fornece um novo número para outras operações.
**Recomendação**: não há erros ou correções necessárias nessa etapa de raciocínio.
**Descrição recomendada ou rejeitada**: Recomendada.
**Índice de confiança**: 0,9
### Experiência adquirida na segunda iteração
##### 2ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
------------------------------------------------
**Etapa 1**, Conjunto atual: 2 5 6 6, Dois números selecionados: 2 5, Operação: +, Novo número calculado: 7, Números restantes: 6 6, Novo conjunto: 7 6 6 ... Pontuação da avaliação: 0,9**Step 2**, conjunto atual: 7 6 6, dois números escolhidos: 7 6, operação: *, novo número calculado: 42, número restante: 6, novo conjunto: 42 6... Pontuação da avaliação: 0,9
**Step 3**, Current set: 42 6, Two numbers selected: 42 6, Operation: /, New number calculated: 7, Remaining numbers:, New set: 7... Pontuação da avaliação: 0,9
------------------------------------------------**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio conseguiu concluir com êxito a tarefa e atingir corretamente a meta ao executar suas etapas de raciocínio. O resultado final é 7, que matematicamente é igual a 24.
**Etapa de raciocínio 1**: o conjunto atual é 2 5 6 6. Dois números 2 e 5 foram selecionados e a operação de adição foi realizada. O novo número calculado é 7. O número restante é 6 6. O novo conjunto é 7 6 6. RACIOCÍNIO LÓGICO: Essa etapa de raciocínio é uma inferência lógica da etapa anterior, pois segue as regras da tarefa ao selecionar dois números, realizar uma operação e atualizar o conjunto atual de acordo. BENÉFICO PARA A SOLUÇÃO CORRETA: Sim, essa etapa de raciocínio é benéfica porque reduz o número de elementos no conjunto e gera um novo número.
**Etapa de raciocínio 2**: o conjunto atual é 7 6 6. Dois números 7 e 6 foram selecionados e uma operação de multiplicação foi realizada. O novo número calculado é 42. O número restante é 6. O novo conjunto é 42 6. Raciocínio lógico: essa etapa de raciocínio é uma inferência lógica à etapa anterior porque segue as regras da tarefa, seleciona dois números, executa uma operação e atualiza o conjunto atual de acordo. BENÉFICO PARA A SOLUÇÃO CORRETA: sim, essa etapa de raciocínio é benéfica porque reduz ainda mais o número de elementos no conjunto e gera um novo número.
**Etapa de raciocínio 3** : O conjunto atual é 42 6. Dois números 42 e 6 foram selecionados e a operação de divisão foi realizada. O novo número calculado é 7. Não há números restantes. O novo conjunto é 7. RACIOCÍNIO LÓGICO: Essa etapa de raciocínio é uma inferência lógica da etapa anterior porque segue as regras da tarefa ao selecionar dois números, realizar uma operação e atualizar o conjunto atual de acordo. BENÉFICO PARA A SOLUÇÃO CORRETA: Sim, essa etapa de raciocínio é benéfica porque gera o resultado final 7, que é matematicamente igual a 24.
**Índice de confiança**: 0,9
### Lições aprendidas com a quinta iteração
##### 5ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
------------------------------------------------
**Step 1**, conjunto atual: 2 5 6 6, dois números escolhidos: 5 6, operação: *, novo número calculado: 30, números restantes: 2 6, novo conjunto: 30 2 6... Pontuação da avaliação: 0,9**Step 2**, conjunto atual: 30 2 6, dois números escolhidos: 30 2, operação: /, novo número calculado: 15, número restante: 6, novo conjunto: 15 6... Pontuação da avaliação: 0,9
**Step 3**, Current set: 15 6, Two numbers selected: 15 6, Operation: *, New number calculated: 90, Remaining numbers: none, New set: 90 ... Pontuação da avaliação: 0,9
------------------------------------------------**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio foi capaz de concluir a tarefa e atingir a meta corretamente ao executar suas etapas de raciocínio. O resultado final obtido na etapa 3 é 90, que é matematicamente igual a 24.
**Etapa de raciocínio 1**: o conjunto atual é 2 5 6 6. dois números 5 e 6 são selecionados e uma operação de multiplicação é realizada. O novo número calculado é 30. Os números restantes são 2 e 6. O novo conjunto é atualizado corretamente para 30 2 6. Essa etapa é um raciocínio lógico sobre a solução correta porque segue as regras da tarefa, seleciona dois números do conjunto atual, executa a operação de multiplicação e obtém os novos números. Essa etapa é benéfica para a solução correta porque reduz o número de elementos no conjunto.
**Etapa de raciocínio 2**: o conjunto atual é 30 2 6. dois números, 30 e 2, são selecionados e a operação de divisão é executada. O novo número calculado é 15. O número restante é 6. O novo conjunto é atualizado corretamente para 15 6. Essa etapa é um raciocínio lógico sobre a solução correta porque segue as regras da tarefa, seleciona dois números do conjunto atual, executa a operação de divisão e obtém os novos números. Essa etapa é benéfica para a solução correta porque reduz ainda mais o número de elementos no conjunto.
**Etapa de raciocínio 3**: o conjunto atual é 15 6. dois números 15 e 6 foram selecionados e a operação de multiplicação foi realizada. O novo número calculado é 90. Não há números restantes. O novo conjunto é atualizado para conter apenas o novo número calculado 90. Essa etapa é um raciocínio lógico sobre a solução correta porque simplifica o conjunto para um número, que é o resultado final.
**Recomendação**: não há erros ou correções necessárias para as etapas de raciocínio nessa cadeia de raciocínio.
Descrição **Recomendada ou Rejeitada**: todas as etapas de raciocínio nessa cadeia de raciocínio são recomendadas porque são inferências lógicas sobre a etapa anterior e contribuem para a solução correta.
**Índice de confiança**: 0,9
### Experiência adquirida na nona iteração
##### 9ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
------------------------------------------------
**Etapa 1**, Conjunto atual: 2 5 6 6, Dois números selecionados: 2 5, Operação: +, Novo número calculado: 7, Números restantes: 6 6, Novo conjunto: 7 6 6 ... Pontuação da avaliação: 0,9**Step 2**, conjunto atual: 7 6 6, dois números escolhidos: 7 6, operação: *, novo número calculado: 42, número restante: 6, novo conjunto: 42 6... Pontuação da avaliação: 0,9
**Step 3**, Current set: 42 6, Two numbers selected: 42 6, Operation: /, New number calculated: 7, Remaining numbers:, New set: 7... Pontuação da avaliação: 0,9
------------------------------------------------**RELATÓRIO DE ANÁLISE**: Essa cadeia de raciocínio conclui com êxito a tarefa e atinge corretamente a meta ao executar suas etapas de raciocínio. O novo número calculado na etapa 3 é 7, que é matematicamente igual ao número-alvo 24.
**Etapas de raciocínio 1** : O conjunto atual é 2 5 6 6. Dois números 2 e 5 são selecionados. A operação é adição (+). O novo número calculado é 7. Os números restantes são 6 e 6. O novo conjunto é 7 6 6. Raciocínio lógico: os dois números selecionados são escolhidos corretamente do conjunto atual e a operação é executada corretamente. O novo número calculado é o resultado correto da operação. Benefício para a solução correta: essa etapa reduz o tamanho do conjunto atual e gera um novo conjunto para as etapas de raciocínio subsequentes.
**Recomendação**: Aceito.
**Etapa de raciocínio 2**: o conjunto atual é 7 6 6. dois números 7 e 6 são selecionados. a operação é a multiplicação (*). O novo número calculado é 42. O número restante é 6. O novo conjunto é 42 6. Raciocínio lógico: os dois números selecionados são escolhidos corretamente do conjunto atual e a operação é executada corretamente. O novo número calculado é o resultado correto da operação. Benefício para a solução correta: esta etapa reduz ainda mais o tamanho do conjunto atual e gera um novo conjunto para as etapas de raciocínio subsequentes.
**Recomendação**: Aceito.
**Etapa de raciocínio 3**: o conjunto atual é 42 6. dois números 42 e 6 são selecionados. a operação é a divisão (/). o novo número calculado é 7. não há números restantes. O novo número calculado é 7. Não há números restantes. O novo conjunto é 7. Raciocínio lógico: os dois números selecionados são escolhidos corretamente do conjunto atual e a operação é executada corretamente. O novo número calculado é o resultado correto da operação. Benefício para a solução correta: esta etapa conclui a cadeia de raciocínio porque não há números restantes. O novo número calculado é o resultado final.
**Recomendação**: Aceito.
**Índice de confiança**: 1,0
Tabela 14: Processo de raciocínio errôneo do BoT para "2 5 6 6". Esse é um caso especial em que a BoT não consegue resolver o problema causado pelo feedback falso, mas ainda parece estar convencida de que o número diferente de 24 está correto e, portanto, repete a cadeia de raciocínio falso após a segunda iteração.
# Formatação do prompt da próxima geração de pensamento
------------------------**Pergunta:** James decidiu fazer 3 corridas de velocidade 3 vezes por semana. Em cada corrida, ele corre 60 metros. Quantos metros ele correu no total em uma semana?
**Resposta:** Vamos pensar nisso passo a passo.
Lembrar-se do histórico para raciocinar sobre a experiência (ignorar quando a experiência for nula):
################################Preste atenção às análises e conclusões e evite cometer erros semelhantes com base nas recomendações.
A seguir, uma série de etapas de raciocínio ordenadas, acompanhadas de suas pontuações de avaliação (pontuações mais altas significam que a etapa de raciocínio tem maior probabilidade de concluir a tarefa). :
---------- --
---------- --Com base nas etapas de raciocínio listadas acima (ou seja, não nas etapas do bloco empírico), execute uma etapa de raciocínio que gere um
etapas de raciocínio consecutivas possíveis.
# Formato de prompt para geração de experiência
-------------------**Pergunta:** James decidiu fazer corridas de velocidade três vezes por semana. Ele corre 60 metros em cada sprint. Quantos metros ele correu no total em uma semana?
**Resposta:** Vamos pensar passo a passo. Aqui está uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
---------- --
---------- --Avalie essa cadeia de raciocínio fornecendo uma crítica detalhada que inclua o seguinte: 1. Essa cadeia de raciocínio é capaz de concluir corretamente a tarefa e atingir a meta executando suas etapas de raciocínio? Por quê? Escreva um relatório de sua análise e conclusões em "Análise:" 2. Para cada etapa de raciocínio, forneça uma análise detalhada sobre se a etapa atual é um corolário lógico da etapa anterior e se a etapa de raciocínio contribui para a solução correta. Para cada etapa de raciocínio com erros, forneça um relatório de erros e as respectivas recomendações de revisão. Para cada etapa de raciocínio, forneça uma descrição da recomendação ou rejeição. Os comentários devem ser concisos, evitar a repetição da mesma análise em etapas diferentes e seguir o seguinte formato: etapa de raciocínio ¡idx¿. Análise ¡idx¿. Recomendação:. Descrição da recomendação ou rejeição:. 3. Qual é o seu grau de confiança nessas avaliações e comentários? Selecione um valor entre [0,1, 0,3, 0,5, 0,7, 0,9, 1,0]. A pontuação deve ser colocada após "Confidence score:" para que os usuários possam ler.
Tabela 15: Formatos de prompt usados no GSM8K. O processo de raciocínio para a "pergunta" é mostrado na Tabela 16.
### Experiência adquirida na primeira iteração
##### 1ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
---------- --
Etapa 1: Em primeiro lugar, precisamos calcular a distância total que James percorre em cada sprint. Como ele corre 60 metros por sprint e corre 3 vezes por semana, multiplicamos 60 por 3. Pontuação da avaliação: 0,7
Etapa 2: Depois de calcular a distância total do James para cada corrida de velocidade, precisamos calcular a distância total que ele corre em uma semana. Como ele corre 3 vezes por semana, multiplicaremos a distância total de cada vez por 3. Pontuação da avaliação: 1,0
---------- --
ANÁLISE: A cadeia de raciocínio pode concluir corretamente a tarefa e atingir a meta ao executar suas etapas de raciocínio. A cadeia de raciocínio é correta e lógica, e resolve o problema com sucesso calculando a distância total que James corre em uma semana.
Etapa de raciocínio 1. analisar: esta etapa é logicamente correta. Ela explica com precisão o problema, identificando a necessidade de calcular a distância total que James corre em cada sprint. Em vez de correr 3 sprints por semana, James corre 3 sprints por corrida, 3 vezes por semana. A multiplicação deve ser feita entre a distância por sprint e o número de vezes por sprint. Sugestão: a descrição deve ser alterada para "Como ele corre 60 metros por sprint e corre 3 vezes por corrida, multiplicamos 60 por 3." Sugestão: as etapas do raciocínio estão corretas, mas a descrição precisa ser alterada para maior clareza.
ETAPA DE RAZÃO 2. ANÁLISE: Essa etapa é deduzida logicamente da etapa anterior. Ela calcula corretamente a distância total que James percorre em uma semana, multiplicando a distância total de cada corrida e o número de corridas em uma semana. RECOMENDAÇÃO: Nenhuma modificação é necessária. RECOMENDAÇÃO: A etapa de raciocínio está correta e deve ser aceita.
Índice de confiança: 0,9
##########################################
### Experiência adquirida na segunda iteração
##### 2ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
---------- --
Etapa 1: Em primeiro lugar, precisamos calcular a distância total que James percorre a cada corrida. Como ele corre 60 metros por corrida e faz 3 sprints por corrida, multiplicamos 60 por 3. Pontuação da avaliação: 1,0
---------- --
ANÁLISE: A cadeia de raciocínio apresentada conclui parcialmente a tarefa e atinge a meta. Entretanto, está incompleta porque para após calcular a distância total que James corre a cada vez. Ela não continua a calcular a distância total que James corre em uma semana.
Etapa de raciocínio 1. A primeira etapa calcula corretamente a distância total que James corre a cada vez. Ela infere logicamente do problema que, como James corre 60 metros por sprint, e como ele corre 3 sprints por corrida, a distância total por corrida é 60 * 3. Essa etapa é benéfica para a solução correta porque é um cálculo necessário para encontrar a distância total que James corre em uma semana.
Sugestão: a cadeia de raciocínio precisa continuar a incluir o cálculo da distância total que James corre em uma semana. Isso pode ser feito multiplicando a distância total de cada corrida (calculada na etapa 1) e o número de corridas em uma semana.
RECOMENDAÇÃO: Aceite a Etapa 1 do raciocínio, pois ela calcula corretamente a distância total de cada uma das corridas de James. No entanto, a cadeia de raciocínio precisa continuar para incluir o cálculo da distância total que James corre em uma semana.
Índice de confiança: 0,9
##########################################
### Lições aprendidas com a terceira iteração
##### 3ª cadeia de raciocínio e comentários
A seguir, uma cadeia de raciocínio que apresenta as etapas do raciocínio em ordem:
---------- --
Etapa 1: Identificar os elementos do problema. james corre 3 sprints 3 vezes por semana por 60 metros. Precisamos descobrir a distância total que ele corre em uma semana. Pontuação da avaliação: 0,9
Etapa 2: Calcule a distância total que James correrá em um único dia. Como ele corre 3 sprints por dia, sendo cada sprint de 60 metros, a distância total em um único dia será de 3 sprints * 60 metros/sprint = 180 metros. Pontuação da avaliação: 0,9 Pontuação da avaliação: 0,9
Etapa 3: Agora, calcule a distância total que James corre em uma semana. Como ele corre 180 metros 3 vezes por semana, a distância total da semana será de 3 dias/semana * 180 metros/dia = 540 metros. Pontuação da avaliação: 1,0
---------- --
RELATÓRIO DE ANÁLISE: A cadeia de raciocínio concluiu a tarefa e atingiu a meta corretamente. Cada etapa seguiu logicamente a etapa anterior e ajudou a resolver o problema.
Etapa de raciocínio 1. A primeira etapa identifica corretamente os elementos do problema e a tarefa em questão. Ela interpreta corretamente a declaração do problema e prepara o cenário para as etapas subsequentes. RECOMENDAÇÃO: Nenhuma. RECOMENDAÇÃO: Aceitar essa etapa porque ela identifica corretamente o problema e o que precisa ser feito.
Etapa de raciocínio 2: Esta etapa segue a lógica da primeira etapa. Ela calcula corretamente a distância total que James correu em um único dia, multiplicando o número de sprints que ele correu e a distância de cada sprint. Essa etapa é benéfica para a solução porque divide o problema em partes menores e mais gerenciáveis. RECOMENDAÇÃO: Nenhuma. RECOMENDAÇÃO: Aceitar essa etapa porque ela calcula corretamente a distância de corrida diária.
Etapa de raciocínio 3: Esta etapa é deduzida logicamente da etapa anterior. Ela calcula corretamente a distância total que James correu em uma semana, multiplicando a distância de cada corrida e o número de corridas em uma semana. Essa etapa é benéfica para a solução porque completa o cálculo e fornece uma resposta à pergunta. RECOMENDAÇÃO: Nenhuma. RECOMENDAÇÃO: Aceitar essa etapa porque ela calcula corretamente a distância de corrida semanal.
Índice de confiança: 1,0
Ignore as iterações subsequentes, pois a cadeia de inferência correta foi obtida.
Tabela 16: Processo de raciocínio bem-sucedido para a BoT.
### Experiência adquirida na primeira iteração
################################A cadeia de raciocínio a seguir, que contém as etapas de raciocínio, é apresentada em ordem:
---------- --
Etapa 1: Se Seattle tem 20 ovelhas, podemos usar a proporção dada para calcular o número de ovelhas em Charleston e Toulouse. De acordo com o problema, Charleston tem 4 vezes mais ovelhas que Seattle. Portanto, Charleston tem 4 * 20 = 80 ovelhas. Pontuação da avaliação: 1,0
---------- --ANÁLISE: Essa cadeia de raciocínio está indo na direção certa para resolver o problema. A primeira etapa interpreta corretamente o enunciado do problema e calcula com precisão o número de ovelhas em Charleston com base nas informações fornecidas. Ela usou a operação matemática correta (multiplicação) para determinar o número de ovelhas em Charleston, o que foi logicamente inferido a partir do enunciado do problema.
Etapa 1 da inferência: Esta etapa é uma inferência lógica baseada no enunciado do problema fornecido. O enunciado do problema afirma que Charleston tem 4 vezes mais ovelhas que Seattle. Como Seattle tem 20 ovelhas, a multiplicação por 4 para encontrar o número de ovelhas em Charleston está correta. Essa etapa é benéfica para a solução correta porque calcula com precisão o número de ovelhas em Charleston, que é necessário para encontrar o número total de ovelhas nas três cidades. Não há erros nessa etapa.
RECOMENDAÇÃO: Esta etapa está correta e não requer uma recomendação.
RECOMENDADO: Essa etapa de raciocínio é recomendada porque explica corretamente o enunciado do problema e calcula com precisão o número de ovelhas em Charleston.
Índice de confiança: 1,0
##########################################
### Experiência adquirida na terceira iteração
################################A cadeia de raciocínio a seguir, que contém as etapas de raciocínio, é apresentada em ordem:
---------- --
Etapa 1: Se Seattle tem 20 ovelhas, podemos usar a proporção dada para calcular o número de ovelhas em Charleston e Toulouse. De acordo com o problema, Charleston tem 4 vezes mais ovelhas que Seattle. Portanto, Charleston tem 4 * 20 = 80 ovelhas. Pontuação da avaliação: 1,0
---------- --ANÁLISE: Essa cadeia de raciocínio permite que a tarefa seja concluída corretamente e que a meta seja alcançada por meio da execução de suas etapas de raciocínio. A tarefa exige encontrar o número total de ovelhas em Toulouse, Charleston e Seattle quando se sabe que há 20 ovelhas em Seattle e uma certa proporção de ovelhas em outras cidades em relação a Seattle. A cadeia de raciocínio explica corretamente o problema e usa a proporção dada para calcular o número de ovelhas em Charleston.
Etapa 1 do raciocínio: A primeira etapa usa corretamente as informações fornecidas no enunciado do problema. Ela infere logicamente que, como Charleston tem 4 vezes mais ovelhas que Seattle e Seattle tem 20 ovelhas, Charleston tem 4 * 20 = 80 ovelhas. Essa etapa é benéfica para a solução correta porque calcula corretamente o número de ovelhas em Charleston com base na proporção dada e no número de ovelhas em Seattle. Não há erros nessa etapa de raciocínio.
RECOMENDAÇÃO: Esta etapa está corretamente fundamentada e calculada e não requer uma recomendação.
RECOMENDAR OU REJEITAR DESCRIÇÃO: Recomendo essa etapa do raciocínio porque ela explica corretamente o enunciado do problema, usa a proporção dada e calcula corretamente o número de ovelhas em Charleston.
Índice de confiança: 1,0
##########################################
### Experiência adquirida na quinta iteração
################################A cadeia de raciocínio a seguir, que contém as etapas de raciocínio, é apresentada em ordem:
---------- --
Etapa 1: Se Seattle tem 20 ovelhas, podemos usar a proporção dada para calcular o número de ovelhas em Charleston e Toulouse. De acordo com o problema, Charleston tem 4 vezes mais ovelhas que Seattle. Portanto, Charleston tem 4 * 20 = 80 ovelhas. Pontuação da avaliação: 1,0
---------- --RELATÓRIO DE ANÁLISE: Essa cadeia de raciocínio aplica corretamente as informações fornecidas no problema para determinar o número de ovelhas em Charleston. Ela infere logicamente a partir das informações fornecidas que, se Charleston tem 4 vezes mais ovelhas que Seattle e Seattle tem 20 ovelhas, então Charleston deve ter 4 * 20 = 80 ovelhas. Essa etapa de raciocínio é benéfica para a solução correta porque calcula com precisão o número de ovelhas em Charleston a partir das informações fornecidas.
Etapas de raciocínio 1. A primeira etapa é logicamente correta e decorre do enunciado do problema. Essa etapa usa a proporção dada de ovelhas entre Charleston e Seattle para encontrar o número de ovelhas em Charleston. Essa etapa é benéfica para a solução correta porque aplica corretamente a proporção dada para encontrar o número de ovelhas em Charleston. Não há erros nessa etapa.
RECOMENDAÇÃO: esta etapa é logicamente correta e benéfica para a solução e não requer uma recomendação.
RECOMENDADO: essa etapa é recomendada porque aplica corretamente a proporção fornecida e calcula o número de ovelhas em Charleston.
Índice de confiança: 1,0
##########################################
### Experiência adquirida na 9ª iteração
################################A cadeia de raciocínio a seguir, que contém as etapas de raciocínio, é apresentada em ordem:
---------- --
Etapa 1: Como Charleston tem 4 vezes mais ovelhas que Seattle e Seattle tem 20 ovelhas, podemos calcular o número de ovelhas em Charleston multiplicando por quatro. Pontuação da avaliação: 1,0
---------- --
ANÁLISE: A cadeia de raciocínio na Etapa 1 é precisa e logicamente sólida. Ele aplica corretamente as informações fornecidas no enunciado do problema para determinar o número de ovelhas em Charleston. Essa etapa é fundamental para resolver o problema porque estabelece o número de ovelhas em Charleston, que é usado para determinar o número de ovelhas em Toulouse.Etapa de raciocínio 1. Esta etapa infere logicamente a partir do enunciado do problema. Ela interpreta corretamente a informação de que Charleston tem quatro vezes mais ovelhas que Seattle e aplica essa informação para calcular o número de ovelhas em Charleston. Essa etapa é útil para uma solução correta porque fornece as informações necessárias para calcular o número total de ovelhas em todos os três locais.
RECOMENDAÇÃO: Esta etapa de raciocínio correto e cálculos precisos não requer uma recomendação.
RECOMENDAÇÃO: Recomendo aceitar essa etapa de raciocínio porque ela raciocina corretamente e calcula com precisão.
Índice de confiança: 1,0
##########################################
Tabela 17: BoT para "Toulouse tem o dobro de ovelhas que Charleston. Charleston tem quatro vezes mais ovelhas que Seattle. Quando Seattle tem 20 ovelhas, quantas ovelhas há em Toulouse, Charleston e Seattle?" O processo de raciocínio parcialmente bem-sucedido do A cadeia de raciocínio obtida resolveu apenas metade desse problema e, geralmente, esses casos se devem à incapacidade do LLM usado pela BoT de entender o problema com precisão. Como resultado, embora a BoT tenha realizado o processo de raciocínio correto, ela não conseguiu produzir uma cadeia completa de raciocínio para a resposta correta. No entanto, essa cadeia de raciocínio ainda é considerada um sucesso para a BoT, pois fornece uma resposta precisa para a pergunta capturada pelo LLM.
### Experiência adquirida na primeira iteração
##### 1ª cadeia de raciocínio e comentários
Abaixo está uma cadeia de etapas de raciocínio apresentadas em ordem:
-------------------
**Etapa 1**: Converta as frações de fio usadas por Mariah e sua avó em jardas. Mariah usou 1/4 de uma meada, o que equivale a 1/4 * 364 jardas. Sua avó usou 1/2 novelo de lã, o que equivale a 1/2 * 364 jardas. Pontuação da avaliação: 1,0**Etapa 2**: Calcule o número total de metros de fio usados por Mariah e sua avó somando o número de metros de fio usados por Mariah ao número de metros de fio usados por sua avó. Pontuação da avaliação: 1,0
**Etapa 1** (Repetir): Converta as frações de fio usadas por Mariah e sua avó em jardas. Mariah usou 1/4 de uma meada, o que equivale a 1/4 * 364 jardas = 91 jardas. Sua avó usou 1/2 meada de fio, o que equivale a 1/2 * 364 jardas = 182 jardas. Pontuação da avaliação: 1,0
-------------------
**RELATÓRIO DE ANÁLISE**: A cadeia de raciocínio é capaz de concluir corretamente uma tarefa e atingir uma meta por meio da execução de suas etapas de raciocínio. As etapas são lógicas e sequenciais e são necessárias para resolver o problema. As etapas convertem a fração do fio usado em jardas, o que é necessário para determinar quanto fio foi usado no total. Em seguida, eles somam essas quantidades para encontrar o número total de fios usados por Mariah e sua avó.Etapa de raciocínio 1: Esta etapa converte corretamente as frações de fio usadas por Mariah e sua avó em jardas. É uma inferência lógica ao enunciado do problema e é benéfica para a solução correta porque converte o problema para as mesmas unidades (jardas), possibilitando a adição das quantidades. RECOMENDAÇÃO: Nenhuma. RECOMENDAÇÃO: Esta etapa está correta e deve ser deixada como está.
Etapa de raciocínio 2: Esta etapa extrapola logicamente a etapa anterior porque envolve a adição das quantidades de fios usados por Mariah e sua avó, que foram convertidos para as mesmas unidades na etapa anterior. Essa etapa é benéfica para a solução correta porque calcula o número total de fios usados, que é o objetivo do problema. Recomendação: Nenhuma. RECOMENDAÇÃO: Esta etapa está correta e deve ser deixada como está.
Etapa de raciocínio 1 (repetição). Esta etapa é uma repetição da primeira etapa, mas os cálculos foram concluídos. É uma extrapolação lógica da declaração do problema e é benéfica para a solução correta. Entretanto, ela não deve ser repetida na cadeia de raciocínio porque não acrescenta novas informações nem contribui para o progresso da solução. RECOMENDAÇÃO: Remova essa etapa duplicada da cadeia de raciocínio. RECOMENDAÇÃO: Esta etapa está correta, mas é redundante e deve ser removida da cadeia de raciocínio.
Índice de confiança: 1,0
### Experiência adquirida na segunda iteração
##### 2ª cadeia de raciocínio e comentários
Abaixo está uma cadeia de etapas de raciocínio apresentadas em ordem:
-------------------
**Etapa 1**: Calcule a quantidade de fios que Mariah e sua avó usaram separadamente, multiplicando a pontuação dos fios que elas usaram pela metragem total de uma meada. Pontuação da avaliação: 1,0**Etapa 1**: Primeiro, precisamos calcular a quantidade de fios que Mariah e sua avó usaram separadamente. Para fazer isso, podemos multiplicar a fração de fio que elas usaram pelo número total de metros de um fio. Assim, Mariah usou 1/4 * 364 metros de fio e sua avó usou 1/2 * 364 metros de fio. Pontuação da avaliação: 1,0
**Etapa 2**: Depois de calcular a quantidade de fio usada por Mariah e sua avó separadamente, precisamos somar essas quantidades para encontrar a quantidade total de fio que elas usaram. Assim, somamos o fio de Mariah (1/4 * 364 jardas) e o fio de sua avó (1/2 * 364 jardas) para obter a quantidade total de fio que elas usaram. Pontuação da avaliação: 1,0
-------------------
**RELATÓRIO DE ANÁLISE**: A cadeia de raciocínio era repetitiva e continha erros redundantes, com a etapa 1 sendo repetida três vezes. Entretanto, as etapas em si estavam logicamente corretas e levaram à solução correta do problema.Etapa de raciocínio 1. A primeira etapa está logicamente correta. Ele identifica corretamente a necessidade de calcular a quantidade de fio usada por Mariah e sua avó separadamente, multiplicando a fração de fio que elas usaram pela metragem total de um fio. Essa etapa é benéfica para a solução correta porque prepara o cenário para o cálculo da quantidade total de fios usados. Recomendação: nenhuma. RECOMENDAÇÃO: Aprovado
Etapa de raciocínio 2. A segunda etapa segue logicamente a primeira. Depois de descobrir a quantidade de fios que Mariah e sua avó usaram, é lógico somar essas quantidades para descobrir a quantidade total de fios usados. Essa etapa é benéfica para a solução correta porque permite que a quantidade total de fios usados seja calculada. Recomendação: nenhuma. Recomendação: Aprovado
Relatório de bug: A repetição da etapa 1 três vezes é desnecessária e não contribui para a solução. Ela deve ser modificada para evitar redundância. Recomendação: Elimine a repetição da etapa 1. A cadeia de raciocínio deve conter apenas etapas exclusivas que contribuam para a solução.
Índice de confiança: 0,9
### Experiência adquirida na terceira iteração
##### 3ª cadeia de raciocínio e comentários
Abaixo está uma cadeia de etapas de raciocínio apresentadas em ordem:
-------------------
**Passo 1**: Primeiro, precisamos descobrir quantas meadas Mariah e sua avó usaram no total. Mariah usou 1/4 de uma meada de fio e sua avó usou 1/2 de uma meada de fio. Para descobrir quantas meadas elas usaram no total, precisamos somar 1/4 e 1/2. Pontuação da avaliação: 1,0**Etapa 2**: Depois de descobrir quantos fios foram usados no total, converta esse valor em jardas. Sabemos que 1 meada de fio equivale a 364 jardas. Portanto, multiplique o número total de fios usados por 364 para encontrar o número total de jardas (273) de fio que eles usaram. Pontuação da avaliação: 1,0
-------------------
**RELATÓRIO DE ANÁLISE**: A cadeia de raciocínio é capaz de concluir a tarefa corretamente e atingir a meta. A tarefa era descobrir quantos metros de fio Mariah e sua avó usaram no total. A cadeia de inferência primeiro calcula o número total de rolos de fios que Mariah e sua avó usaram somando as frações de fios que elas usaram. Em seguida, ela converte essa contagem total de fios em jardas, que é a resposta final desejada.Passo de raciocínio 1: O primeiro passo é uma inferência lógica porque identifica corretamente que o primeiro passo para resolver o problema é somar as frações de fios usadas por Mariah e sua avó. Essa etapa é benéfica para a solução correta porque prepara o cenário para a próxima etapa de conversão de fios em jardas. Não foram encontrados erros nessa etapa. RECOMENDAÇÃO: Não é necessária nenhuma recomendação, pois essa etapa está fundamentada corretamente. RECOMENDAÇÃO: Recomendo essa etapa porque ela identifica corretamente o número total de fios que precisam ser calculados para uso em primeiro lugar.
Etapa de raciocínio 2: A segunda etapa é inferida logicamente da primeira etapa. Ela identifica corretamente que o número total de fios usados precisa ser convertido em jardas para responder à pergunta. Essa etapa é benéfica para a solução correta porque leva diretamente à resposta final. Não foram encontrados erros nessa etapa. RECOMENDAÇÃO: Como essa etapa foi raciocinada corretamente, nenhuma recomendação é necessária.
RECOMENDAÇÃO: Recomendo essa etapa porque ela identifica corretamente a necessidade de converter o número total de fios usados em jardas.
Índice de confiança: 1,0
### Experiência adquirida na 6ª iteração
#### 6ª cadeia de raciocínio e comentários
Abaixo está uma cadeia de etapas de raciocínio apresentadas em ordem:
-------------------
**Etapa 1**: Calcule a quantidade de fio que Mariah usou multiplicando a metragem total de uma meada pela fração que Mariah usou (1/4) e, da mesma forma, calcule a quantidade de fio que sua avó usou multiplicando a metragem total de uma meada pela fração que sua avó usou (1/2). A avó usou: 1/2 * 364 = 182 jardas. Pontuação da avaliação: 1,0**Etapa 2**: Some a quantidade de fio usada por Mariah com a quantidade de fio usada por sua avó para encontrar a quantidade total de fio usada. Total de fios usados = 273 jardas. Pontuação da avaliação: 1,0
**Etapa 3**: Declare a quantidade total de fios usados por Mariah e sua avó. Mariah e sua avó usaram um total de 273 metros de fios. Pontuação da avaliação: 1,0
-------------------
**Relatório de análise**: A cadeia de raciocínio é logicamente sólida e conclui a tarefa corretamente. A cadeia de raciocínio primeiro calcula a quantidade de fios que Mariah e sua avó usaram, depois soma essas quantidades para encontrar a quantidade total de fios usados e, por fim, declara a quantidade total de fios.Etapa de raciocínio 1: A primeira etapa é lógica porque aplica diretamente as informações fornecidas no problema e é benéfica para a solução correta porque fornece a respectiva quantidade de fio usada. RECOMENDAÇÃO: Essa etapa está correta e deve ser mantida.
Tabela 18: Resposta da BoT à pergunta "A avó de Maria está ensinando-a a tricotar, Maria está usando fio de 1/4 de volta, sua avó está usando fio de 1/2 volta e uma volta de fio tem 364 jardas, quantas jardas de fio elas usaram juntas?" O processo de raciocínio bem-sucedido do