Introdução geral
O Marco-o1 é um modelo de raciocínio aberto desenvolvido pelo Alibaba International Digital Commerce Group (AIDC-AI) para resolver problemas complexos do mundo real. O modelo combina o ajuste fino do Chain of Thought (CoT), o Monte Carlo Tree Search (MCTS) e estratégias inovadoras de raciocínio para otimizar tarefas complexas de solução de problemas. O Marco-o1 não se concentra apenas em disciplinas com respostas padrão, como matemática, física e programação, mas também se esforça para generalizar para domínios em que não há critérios claros e onde é difícil quantificar as recompensas. O objetivo do projeto é explorar o potencial dos modelos de inferência em larga escala para aplicativos multilíngues e, por meio da otimização e do aprimoramento contínuos, aumentar o poder de raciocínio e a variedade de aplicações dos modelos.
Lista de funções
- Ajuste fino da Cadeia de Pensamento (CoT)Aprimoramento da capacidade de inferência do modelo por meio do ajuste fino do modelo básico com parâmetros completos, combinando conjuntos de dados CoT de código aberto e dados sintéticos de pesquisa própria.
- Pesquisa em árvore de Monte Carlo (MCTS)Uso da confiança da saída do modelo para orientar a pesquisa, ampliar o espaço da solução e otimizar o caminho da inferência.
- Estratégia de ação de raciocínioImplementar estratégias inovadoras de ação de raciocínio e mecanismos reflexivos para explorar ações em diferentes níveis de granularidade e melhorar a capacidade dos modelos de resolver problemas complexos.
- Atribuições de tradução multilíngueAplicação: A primeira aplicação de um modelo de inferência em larga escala a uma tarefa de tradução automática, explorando as leis de escalonamento do tempo de inferência em domínios multilíngues e de tradução.
- Treinamento do modelo de recompensaDesenvolvimento do Outcome Reward Modelling (ORM) e do Process Reward Modelling (PRM) para fornecer sinais de recompensa mais precisos e reduzir a aleatoriedade dos resultados da pesquisa em árvore.
- Treinamento de aprendizado intensivoOtimização do processo de tomada de decisão do modelo por meio de técnicas de aprendizagem por reforço para aprimorar ainda mais seus recursos de solução de problemas.
Usando a Ajuda
Processo de instalação
- Visite a página do GitHub: Ir paraPágina do GitHub do Marco-o1.
- armazém de clonesUse o comando
git clone https://github.com/AIDC-AI/Marco-o1.git
Clone o repositório para o local. - Instalação de dependênciasVá para o diretório do projeto e execute
pip install -r requirements.txt
Instale as dependências necessárias.
Diretrizes para uso
- Modelos de carregamentoNo ambiente Python, use o seguinte código para carregar o modelo:
from transformers import AutoModelForCausalLM, AutoTokenizer nome_do_modelo = "AIDC-AI/Marco-o1" model = AutoModelForCausalLM.from_pretrained(model_name) tokeniser = AutoTokenizer.from_pretrained(nome_do_modelo)
- Exemplo de raciocínioRaciocínio com modelos: aqui está um exemplo simples:
python
input_text = "Quantos 'r's existem no morango?"
inputs = tokeniser(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- tradução multilíngueMarco-o1 tem bom desempenho em tarefas de tradução em vários idiomas; um exemplo de tradução é mostrado abaixo:
python
input_text = "Este sapato tem a sensação de estar pisando em merda"
inputs = tokeniser(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Fluxo de operação detalhado da função
- Ajuste fino da Cadeia de Pensamento (CoT)::
- Preparação de dadosColeta e agrupamento de conjuntos de dados de CoT de código aberto e dados sintéticos de autopesquisa.
- Modelagem do ajuste finoUse os dados acima para fazer o ajuste fino do modelo básico com parâmetros completos para melhorar sua inferência.
- Pesquisa em árvore de Monte Carlo (MCTS)::
- representação nodalNa estrutura do MCTS, cada nó representa um estado de raciocínio no processo de solução de problemas.
- Saída de movimentoAções possíveis: As ações possíveis de um nó são geradas pelo LLM e representam etapas potenciais na cadeia de inferência.
- Cálculo de reversão e bônusDurante a fase de reversão, o LLM continua o processo de raciocínio até o estado de término.
- Pesquisa de bootstrapUse pontuações de recompensa para avaliar e selecionar caminhos promissores para direcionar a pesquisa para cadeias de inferência mais confiáveis.
- Estratégia de ação de raciocínio::
- Granularidade da açãoExplore ações em diferentes granularidades dentro da estrutura MCTS para melhorar a eficiência e a precisão da pesquisa.
- Mecanismos de reflexãoO fato de os modelos serem solicitados a refletir sobre si mesmos aumenta significativamente sua capacidade de resolver problemas complexos.
- Atribuições de tradução multilíngue::
- aplicativo de missãoAplicação de grandes modelos de inferência a tarefas de tradução automática para explorar as leis de escalonamento do tempo de inferência em domínios multilíngues e de tradução.
- Exemplo de traduçãoDemonstrar o desempenho superior do modelo na tradução de expressões de gíria.
- Treinamento do modelo de recompensa::
- Modelagem de recompensa por resultados (ORM)Modelos de treinamento para fornecer sinais de recompensa mais precisos e reduzir a aleatoriedade dos resultados da pesquisa em árvore.
- Modelagem de recompensa de processo (PRM)Otimização adicional dos caminhos de inferência do modelo por meio da modelagem de recompensa do processo.
- Treinamento de aprendizado intensivo::
- Otimização de decisõesOtimização do processo de tomada de decisão do modelo e aprimoramento de seus recursos de solução de problemas por meio de técnicas de aprendizagem por reforço.