Marco-o1 : une version open source du modèle OpenAI o1 basé sur Qwen2-7B-Instruire un réglage fin pour explorer des modèles d'inférence ouverts pour résoudre des problèmes complexes

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

2.7K 00

Introduction générale

Marco-o1 est un modèle de raisonnement ouvert développé par Alibaba International Digital Commerce Group (AIDC-AI) pour résoudre des problèmes complexes du monde réel. Marco-o1 ne se concentre pas seulement sur les disciplines avec des réponses standard telles que les mathématiques, la physique et la programmation, mais s'efforce également de se généraliser aux domaines où il n'y a pas de critères clairs et où il est difficile de quantifier les récompenses. L'objectif du projet est d'explorer le potentiel des modèles d'inférence à grande échelle pour les applications multilingues et, par le biais d'une optimisation et d'une amélioration continues, d'accroître le pouvoir de raisonnement des modèles et leur gamme d'applications.

Marco-o1：基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型，探索开放式推理模型，解决复杂问题

Liste des fonctions

Mise au point de la chaîne de pensée (CoT)Améliorer la capacité d'inférence du modèle en affinant le modèle de base avec des paramètres complets, en combinant des ensembles de données CoT à source ouverte et des données synthétiques issues de la recherche personnelle.
Recherche arborescente de Monte Carlo (MCTS)La confiance dans les résultats du modèle permet de guider la recherche, d'étendre l'espace de solution et d'optimiser le chemin d'inférence.
Raisonnement Stratégie d'actionLes modèles d'action : Mettre en œuvre des stratégies d'action de raisonnement et des mécanismes de réflexion innovants pour explorer les actions à différents niveaux de granularité et améliorer la capacité des modèles à résoudre des problèmes complexes.
Traductions multilingues: Première application d'un modèle d'inférence à grande échelle à une tâche de traduction automatique, explorant les lois d'échelonnement du temps d'inférence dans les domaines multilingues et de la traduction.
Formation au modèle de récompenseDéveloppement de la modélisation de la récompense des résultats (ORM) et de la modélisation de la récompense des processus (PRM) afin de fournir des signaux de récompense plus précis et de réduire le caractère aléatoire des résultats de la recherche arborescente.
Formation intensiveOptimiser le processus de prise de décision du modèle grâce à des techniques d'apprentissage par renforcement afin d'améliorer ses capacités de résolution de problèmes.

Utiliser l'aide

Processus d'installation

Visiter la page GitHub: Aller àPage GitHub Marco-o1.
entrepôt de clones: Utilisez la commandegit clone https://github.com/AIDC-AI/Marco-o1.gitCloner le référentiel en local.
Installation des dépendances: Allez dans le répertoire du projet et exécutezpip install -r requirements.txtInstaller les dépendances nécessaires.

Lignes directrices pour l'utilisation

Modèles de chargementDans l'environnement Python, utilisez le code suivant pour charger le modèle :

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AIDC-AI/Marco-o1"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Exemple de raisonnementRaisonnement à l'aide de modèles : voici un exemple simple : python input_text = "How many 'r' are in strawberry?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
traduction multilingueMarco-o1 donne de bons résultats dans les tâches de traduction multilingue ; un exemple de traduction est présenté ci-dessous : python input_text = "这个鞋拥有踩屎感" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Fonction détaillée du déroulement des opérations

Mise au point de la chaîne de pensée (CoT): :
- Préparation des donnéesLes données du CoT sont collectées et collationnées à partir de sources ouvertes et de données synthétiques issues de l'auto-recherche.
- Modélisation de la mise au pointLes données ci-dessus permettent d'affiner le modèle de base avec des paramètres complets afin d'améliorer l'inférence.
Recherche arborescente de Monte Carlo (MCTS): :
- représentation nodaleDans le cadre des SCTM, chaque nœud représente un état de raisonnement dans le processus de résolution de problèmes.
- Sortie de mouvementLes actions possibles d'un nœud sont générées par le LLM et représentent des étapes potentielles dans la chaîne d'inférence.
- Rollback et calcul du bonusPendant la phase de retour en arrière, le LLM poursuit le processus de raisonnement jusqu'à l'état de terminaison.
- Recherche BootstrapLes chaînes d'inférence : utiliser les scores de récompense pour évaluer et sélectionner les chemins prometteurs afin d'orienter la recherche vers des chaînes d'inférence plus fiables.
Raisonnement Stratégie d'action: :
- Granularité de l'actionLes actions : Explorer les actions à différentes granularités dans le cadre des SCTM afin d'améliorer l'efficacité et la précision de la recherche.
- Mécanismes de réflexionLes modèles d'auto-réflexion améliorent considérablement leur capacité à résoudre des problèmes complexes.
Traductions multilingues: :
- demande de mission: Application de grands modèles d'inférence à des tâches de traduction automatique pour explorer les lois d'échelonnement du temps d'inférence dans les domaines multilingues et de la traduction.
- Exemple de traductionLe modèle de traduction des expressions argotiques : Démontrer la supériorité du modèle dans la traduction d'expressions argotiques.
Formation au modèle de récompense: :
- Modélisation de la récompense des résultats (ORM)Formation : Former des modèles pour fournir des signaux de récompense plus précis et réduire le caractère aléatoire des résultats de la recherche arborescente.
- Modélisation de la rémunération des processus (PRM)Optimisation supplémentaire des chemins d'inférence du modèle grâce à la modélisation de la récompense du processus.
Formation intensive: :
- Optimisation des décisionsOptimisation du processus décisionnel du modèle et amélioration de ses capacités de résolution de problèmes grâce à des techniques d'apprentissage par renforcement.

Dernières ressources sur l'IA # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Postes connexes

BgSub : éliminer ou remplacer les arrière-plans des images, optimiser intelligemment les arrière-plans et les bords des images

Dernières ressources sur l'IA # AI keying pour changer d'arrière-plan

Il y a 7 mois

02.1K

Agent Replit : assistant de programmation intelligent

Dernières ressources sur l'IA # Programmation AI # Application de l'organisme intelligent

Il y a 5 mois

02.5K

Xorbits Inference : déploiement en un clic de plusieurs modèles d'IA, un cadre d'inférence distribué

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 11 mois

02.3K

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP # Extraction et nettoyage de documents

Il y a 4 mois

02.3K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Marco-o1 : une version open source du modèle OpenAI o1 basé sur Qwen2-7B-Instruire un réglage fin pour explorer des modèles d'inférence ouverts pour résoudre des problèmes complexes

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Fonction détaillée du déroulement des opérations

Flow (Laminar) : un moteur de tâches léger pour la construction d'intelligences qui simplifie et gère les tâches de manière flexible.

LAMBDA : Système localisé d'automatisation des courriels pour la génération rapide de projets de réponses aux courriels (Gmail)

Postes connexes

BgSub : éliminer ou remplacer les arrière-plans des images, optimiser intelligemment les arrière-plans et les bords des images

Agent Replit : assistant de programmation intelligent

Xorbits Inference : déploiement en un clic de plusieurs modèles d'IA, un cadre d'inférence distribué

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Pas de commentaires

Dernières collections

Derniers articles

Marco-o1 : une version open source du modèle OpenAI o1 basé sur Qwen2-7B-Instruire un réglage fin pour explorer des modèles d'inférence ouverts pour résoudre des problèmes complexes

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Fonction détaillée du déroulement des opérations

Flow (Laminar) : un moteur de tâches léger pour la construction d'intelligences qui simplifie et gère les tâches de manière flexible.

LAMBDA : Système localisé d'automatisation des courriels pour la génération rapide de projets de réponses aux courriels (Gmail)

Postes connexes

BgSub : éliminer ou remplacer les arrière-plans des images, optimiser intelligemment les arrière-plans et les bords des images

Agent Replit : assistant de programmation intelligent

Xorbits Inference : déploiement en un clic de plusieurs modèles d'IA, un cadre d'inférence distribué

Chatlog : outil open source permettant d'extraire et d'interroger les journaux de discussion de WeChat

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles