Marco-o1 : une version open source du modèle OpenAI o1 basé sur Qwen2-7B-Instruire un réglage fin pour explorer des modèles d'inférence ouverts pour résoudre des problèmes complexes

Introduction générale

Marco-o1 est un modèle de raisonnement ouvert développé par Alibaba International Digital Commerce Group (AIDC-AI) pour résoudre des problèmes complexes du monde réel. Marco-o1 ne se concentre pas seulement sur les disciplines avec des réponses standard telles que les mathématiques, la physique et la programmation, mais s'efforce également de se généraliser aux domaines où il n'y a pas de critères clairs et où il est difficile de quantifier les récompenses. L'objectif du projet est d'explorer le potentiel des modèles d'inférence à grande échelle pour les applications multilingues et, par le biais d'une optimisation et d'une amélioration continues, d'accroître le pouvoir de raisonnement des modèles et leur gamme d'applications.

Marco-o1:基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型,探索开放式推理模型,解决复杂问题

 

Liste des fonctions

  • Mise au point de la chaîne de pensée (CoT)Améliorer la capacité d'inférence du modèle en affinant le modèle de base avec des paramètres complets, en combinant des ensembles de données CoT à source ouverte et des données synthétiques issues de la recherche personnelle.
  • Recherche arborescente de Monte Carlo (MCTS)La confiance dans les résultats du modèle permet de guider la recherche, d'étendre l'espace de solution et d'optimiser le chemin d'inférence.
  • Raisonnement Stratégie d'actionLes modèles d'action : Mettre en œuvre des stratégies d'action de raisonnement et des mécanismes de réflexion innovants pour explorer les actions à différents niveaux de granularité et améliorer la capacité des modèles à résoudre des problèmes complexes.
  • Traductions multilingues: Première application d'un modèle d'inférence à grande échelle à une tâche de traduction automatique, explorant les lois d'échelonnement du temps d'inférence dans les domaines multilingues et de la traduction.
  • Formation au modèle de récompenseDéveloppement de la modélisation de la récompense des résultats (ORM) et de la modélisation de la récompense des processus (PRM) afin de fournir des signaux de récompense plus précis et de réduire le caractère aléatoire des résultats de la recherche arborescente.
  • Formation intensiveOptimiser le processus de prise de décision du modèle grâce à des techniques d'apprentissage par renforcement afin d'améliorer ses capacités de résolution de problèmes.

 

Utiliser l'aide

Processus d'installation

  1. Visiter la page GitHub: Aller àPage GitHub Marco-o1.
  2. entrepôt de clones: Utilisez la commandegit clone https://github.com/AIDC-AI/Marco-o1.gitCloner le référentiel en local.
  3. Installation des dépendances: Allez dans le répertoire du projet et exécutezpip install -r requirements.txtInstaller les dépendances nécessaires.

Lignes directrices pour l'utilisation

  1. Modèles de chargementDans l'environnement Python, utilisez le code suivant pour charger le modèle :
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "AIDC-AI/Marco-o1"
    model = AutoModelForCausalLM.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
  2. Exemple de raisonnementRaisonnement à l'aide de modèles : voici un exemple simple : python
    input_text = "How many 'r' are in strawberry?"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  3. traduction multilingueMarco-o1 donne de bons résultats dans les tâches de traduction multilingue ; un exemple de traduction est présenté ci-dessous : python
    input_text = "这个鞋拥有踩屎感"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Fonction détaillée du déroulement des opérations

  1. Mise au point de la chaîne de pensée (CoT): :
    • Préparation des donnéesLes données du CoT sont collectées et collationnées à partir de sources ouvertes et de données synthétiques issues de l'auto-recherche.
    • Modélisation de la mise au pointLes données ci-dessus permettent d'affiner le modèle de base avec des paramètres complets afin d'améliorer l'inférence.
  2. Recherche arborescente de Monte Carlo (MCTS): :
    • représentation nodaleDans le cadre des SCTM, chaque nœud représente un état de raisonnement dans le processus de résolution de problèmes.
    • Sortie de mouvementLes actions possibles d'un nœud sont générées par le LLM et représentent des étapes potentielles dans la chaîne d'inférence.
    • Rollback et calcul du bonusPendant la phase de retour en arrière, le LLM poursuit le processus de raisonnement jusqu'à l'état de terminaison.
    • Recherche BootstrapLes chaînes d'inférence : utiliser les scores de récompense pour évaluer et sélectionner les chemins prometteurs afin d'orienter la recherche vers des chaînes d'inférence plus fiables.
  3. Raisonnement Stratégie d'action: :
    • Granularité de l'actionLes actions : Explorer les actions à différentes granularités dans le cadre des SCTM afin d'améliorer l'efficacité et la précision de la recherche.
    • Mécanismes de réflexionLes modèles d'auto-réflexion améliorent considérablement leur capacité à résoudre des problèmes complexes.
  4. Traductions multilingues: :
    • demande de mission: Application de grands modèles d'inférence à des tâches de traduction automatique pour explorer les lois d'échelonnement du temps d'inférence dans les domaines multilingues et de la traduction.
    • Exemple de traductionLe modèle de traduction des expressions argotiques : Démontrer la supériorité du modèle dans la traduction d'expressions argotiques.
  5. Formation au modèle de récompense: :
    • Modélisation de la récompense des résultats (ORM)Formation : Former des modèles pour fournir des signaux de récompense plus précis et réduire le caractère aléatoire des résultats de la recherche arborescente.
    • Modélisation de la rémunération des processus (PRM)Optimisation supplémentaire des chemins d'inférence du modèle grâce à la modélisation de la récompense du processus.
  6. Formation intensive: :
    • Optimisation des décisionsOptimisation du processus décisionnel du modèle et amélioration de ses capacités de résolution de problèmes grâce à des techniques d'apprentissage par renforcement.
© déclaration de droits d'auteur

Postes connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...