Marco-o1: uma versão de código aberto do modelo OpenAI o1 baseado no Qwen2-7B-Instrua o ajuste fino para explorar modelos de inferência abertos para resolver problemas complexos

Recursos mais recentes de IAPublicado há 8 meses Círculo de compartilhamento de IA

3.1K 00

Introdução geral

O Marco-o1 é um modelo de raciocínio aberto desenvolvido pelo Alibaba International Digital Commerce Group (AIDC-AI) para resolver problemas complexos do mundo real. O modelo combina o ajuste fino do Chain of Thought (CoT), o Monte Carlo Tree Search (MCTS) e estratégias inovadoras de raciocínio para otimizar tarefas complexas de solução de problemas. O Marco-o1 não se concentra apenas em disciplinas com respostas padrão, como matemática, física e programação, mas também se esforça para generalizar para domínios em que não há critérios claros e onde é difícil quantificar as recompensas. O objetivo do projeto é explorar o potencial dos modelos de inferência em larga escala para aplicativos multilíngues e, por meio da otimização e do aprimoramento contínuos, aumentar o poder de raciocínio e a variedade de aplicações dos modelos.

Marco-o1：基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型，探索开放式推理模型，解决复杂问题

Lista de funções

Ajuste fino da Cadeia de Pensamento (CoT)Aprimoramento da capacidade de inferência do modelo por meio do ajuste fino do modelo básico com parâmetros completos, combinando conjuntos de dados CoT de código aberto e dados sintéticos de pesquisa própria.
Pesquisa em árvore de Monte Carlo (MCTS)Uso da confiança da saída do modelo para orientar a pesquisa, ampliar o espaço da solução e otimizar o caminho da inferência.
Estratégia de ação de raciocínioImplementar estratégias inovadoras de ação de raciocínio e mecanismos reflexivos para explorar ações em diferentes níveis de granularidade e melhorar a capacidade dos modelos de resolver problemas complexos.
Atribuições de tradução multilíngueAplicação: A primeira aplicação de um modelo de inferência em larga escala a uma tarefa de tradução automática, explorando as leis de escalonamento do tempo de inferência em domínios multilíngues e de tradução.
Treinamento do modelo de recompensaDesenvolvimento do Outcome Reward Modelling (ORM) e do Process Reward Modelling (PRM) para fornecer sinais de recompensa mais precisos e reduzir a aleatoriedade dos resultados da pesquisa em árvore.
Treinamento de aprendizado intensivoOtimização do processo de tomada de decisão do modelo por meio de técnicas de aprendizagem por reforço para aprimorar ainda mais seus recursos de solução de problemas.

Usando a Ajuda

Processo de instalação

Visite a página do GitHub: Ir paraPágina do GitHub do Marco-o1.
armazém de clonesUse o comandogit clone https://github.com/AIDC-AI/Marco-o1.gitClone o repositório para o local.
Instalação de dependênciasVá para o diretório do projeto e executepip install -r requirements.txtInstale as dependências necessárias.

Diretrizes para uso

Modelos de carregamentoNo ambiente Python, use o seguinte código para carregar o modelo:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AIDC-AI/Marco-o1"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Exemplo de raciocínioRaciocínio com modelos: aqui está um exemplo simples: python input_text = "How many 'r' are in strawberry?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
tradução multilíngueMarco-o1 tem bom desempenho em tarefas de tradução em vários idiomas; um exemplo de tradução é mostrado abaixo: python input_text = "这个鞋拥有踩屎感" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Fluxo de operação detalhado da função

Ajuste fino da Cadeia de Pensamento (CoT)::
- Preparação de dadosColeta e agrupamento de conjuntos de dados de CoT de código aberto e dados sintéticos de autopesquisa.
- Modelagem do ajuste finoUse os dados acima para fazer o ajuste fino do modelo básico com parâmetros completos para melhorar sua inferência.
Pesquisa em árvore de Monte Carlo (MCTS)::
- representação nodalNa estrutura do MCTS, cada nó representa um estado de raciocínio no processo de solução de problemas.
- Saída de movimentoAções possíveis: As ações possíveis de um nó são geradas pelo LLM e representam etapas potenciais na cadeia de inferência.
- Cálculo de reversão e bônusDurante a fase de reversão, o LLM continua o processo de raciocínio até o estado de término.
- Pesquisa de bootstrapUse pontuações de recompensa para avaliar e selecionar caminhos promissores para direcionar a pesquisa para cadeias de inferência mais confiáveis.
Estratégia de ação de raciocínio::
- Granularidade da açãoExplore ações em diferentes granularidades dentro da estrutura MCTS para melhorar a eficiência e a precisão da pesquisa.
- Mecanismos de reflexãoO fato de os modelos serem solicitados a refletir sobre si mesmos aumenta significativamente sua capacidade de resolver problemas complexos.
Atribuições de tradução multilíngue::
- aplicativo de missãoAplicação de grandes modelos de inferência a tarefas de tradução automática para explorar as leis de escalonamento do tempo de inferência em domínios multilíngues e de tradução.
- Exemplo de traduçãoDemonstrar o desempenho superior do modelo na tradução de expressões de gíria.
Treinamento do modelo de recompensa::
- Modelagem de recompensa por resultados (ORM)Modelos de treinamento para fornecer sinais de recompensa mais precisos e reduzir a aleatoriedade dos resultados da pesquisa em árvore.
- Modelagem de recompensa de processo (PRM)Otimização adicional dos caminhos de inferência do modelo por meio da modelagem de recompensa do processo.
Treinamento de aprendizado intensivo::
- Otimização de decisõesOtimização do processo de tomada de decisão do modelo e aprimoramento de seus recursos de solução de problemas por meio de técnicas de aprendizagem por reforço.

Recursos mais recentes de IA # Projeto de código aberto AI Java

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Break The AI: Jogo de Desafio Jailbreak de Inteligência Artificial, aprimore suas habilidades e participe de competições

8 meses atrás

03K

Unscreen: remove automaticamente o plano de fundo do vídeo, facilitando a criação de um vídeo sem plano de fundo

Recursos mais recentes de IA # Chaveamento de IA para alterar os planos de fundo

8 meses atrás

03.3K

Portkey: uma ferramenta de desenvolvimento para conectar vários modelos de IA e gerenciar aplicativos

Recursos mais recentes de IA # Serviços abertos de IA

5 meses atrás

02K

SchedFlow: uma ferramenta de agendamento de projetos para simplificar o gerenciamento de tarefas

Recursos mais recentes de IA # Ferramentas de produtividade profissional

5 meses atrás

02K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Marco-o1: uma versão de código aberto do modelo OpenAI o1 baseado no Qwen2-7B-Instrua o ajuste fino para explorar modelos de inferência abertos para resolver problemas complexos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

Fluxo de operação detalhado da função

Flow (Laminar): um mecanismo de tarefas leve para a criação de inteligências que simplifica e gerencia tarefas com flexibilidade

LAMBDA: Sistema de automação de e-mail com IA localizada para geração rápida de respostas de rascunho de e-mail (Gmail)

Artigos relacionados

Break The AI: Jogo de Desafio Jailbreak de Inteligência Artificial, aprimore suas habilidades e participe de competições

Unscreen: remove automaticamente o plano de fundo do vídeo, facilitando a criação de um vídeo sem plano de fundo

Portkey: uma ferramenta de desenvolvimento para conectar vários modelos de IA e gerenciar aplicativos

SchedFlow: uma ferramenta de agendamento de projetos para simplificar o gerenciamento de tarefas

Sem comentários

Últimas coleções

Artigos mais recentes

Marco-o1: uma versão de código aberto do modelo OpenAI o1 baseado no Qwen2-7B-Instrua o ajuste fino para explorar modelos de inferência abertos para resolver problemas complexos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

Fluxo de operação detalhado da função

Flow (Laminar): um mecanismo de tarefas leve para a criação de inteligências que simplifica e gerencia tarefas com flexibilidade

LAMBDA: Sistema de automação de e-mail com IA localizada para geração rápida de respostas de rascunho de e-mail (Gmail)

Artigos relacionados

Break The AI: Jogo de Desafio Jailbreak de Inteligência Artificial, aprimore suas habilidades e participe de competições

Unscreen: remove automaticamente o plano de fundo do vídeo, facilitando a criação de um vídeo sem plano de fundo

Portkey: uma ferramenta de desenvolvimento para conectar vários modelos de IA e gerenciar aplicativos

SchedFlow: uma ferramenta de agendamento de projetos para simplificar o gerenciamento de tarefas

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes