AI Personal Learning
und praktische Anleitung
讯飞绘镜

Marco-o1: eine quelloffene Version des OpenAI o1-Modells auf der Grundlage von Qwen2-7B-Feinabstimmung zur Erforschung offener Inferenzmodelle für die Lösung komplexer Probleme

Allgemeine Einführung

Marco-o1 ist ein offenes Denkmodell, das von der Alibaba International Digital Commerce Group (AIDC-AI) entwickelt wurde, um komplexe Probleme der realen Welt zu lösen. Das Modell kombiniert die Feinabstimmung der Gedankenkette (Chain of Thought, CoT), die Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS) und innovative Schlussfolgerungsstrategien, um komplexe Problemlösungsaufgaben zu optimieren. Marco-o1 konzentriert sich nicht nur auf Disziplinen mit Standardantworten wie Mathematik, Physik und Programmierung, sondern strebt auch eine Verallgemeinerung auf Bereiche an, in denen es keine klaren Kriterien gibt und in denen es schwierig ist, Belohnungen zu quantifizieren. Ziel des Projekts ist es, das Potenzial groß angelegter Inferenzmodelle für mehrsprachige Anwendungen zu erforschen und durch kontinuierliche Optimierung und Verbesserung die Argumentationskraft und den Anwendungsbereich der Modelle zu erweitern.

Marco-o1:基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型,探索开放式推理模型,解决复杂问题-1


 

Funktionsliste

  • Feinabstimmung der Gedankenkette (CoT)Verbesserung der Inferenzfähigkeit des Modells durch Feinabstimmung des Basismodells mit vollständigen Parametern, Kombination von Open-Source-CoT-Datensätzen und synthetischen Daten aus eigener Forschung.
  • Monte-Carlo-Baumsuche (MCTS)Die Vertrauenswürdigkeit des Modells als Leitfaden für die Suche nutzen, den Lösungsraum erweitern und den Inferenzpfad optimieren.
  • Begründung AktionsstrategieImplementierung innovativer Handlungsstrategien und Reflexionsmechanismen zur Untersuchung von Handlungen auf verschiedenen Granularitätsebenen und zur Verbesserung der Fähigkeit von Modellen, komplexe Probleme zu lösen.
  • Mehrsprachige ÜbersetzungsaufträgeDie erste Anwendung eines groß angelegten Inferenzmodells auf eine maschinelle Übersetzungsaufgabe, die die Skalierungsgesetze der Inferenzzeit in mehrsprachigen und Übersetzungsdomänen untersucht.
  • Training des BelohnungsmodellsEntwicklung von Outcome Reward Modelling (ORM) und Process Reward Modelling (PRM), um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu verringern.
  • Intensives LerntrainingOptimierung des Entscheidungsfindungsprozesses des Modells durch Techniken des verstärkten Lernens, um seine Problemlösungsfähigkeiten weiter zu verbessern.

 

Hilfe verwenden

Einbauverfahren

  1. Besuchen Sie die GitHub-Seite: Weiter zuMarco-o1 GitHub-Seite.
  2. Klon-Lager: Verwenden Sie den Befehlgit clone https://github.com/AIDC-AI/Marco-o1.gitKlonen Sie das Repository nach lokal.
  3. Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und führen Siepip install -r requirements.txtInstallieren Sie die erforderlichen Abhängigkeiten.

Leitlinien für die Verwendung

  1. Modelle laden: Verwenden Sie in der Python-Umgebung den folgenden Code, um das Modell zu laden:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "AIDC-AI/Marco-o1"
    model = AutoModelForCausalLM.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
  2. Beispiel für eine Argumentation: Reasoning with Models, hier ein einfaches Beispiel: python
    input_text = "How many 'r' are in strawberry?"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  3. mehrsprachige ÜbersetzungMarco-o1 erbringt gute Leistungen bei mehrsprachigen Übersetzungsaufgaben, ein Übersetzungsbeispiel ist unten dargestellt: python
    input_text = "这个鞋拥有踩屎感"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Detaillierte Funktionsabläufe

  1. Feinabstimmung der Gedankenkette (CoT)::
    • Vorbereitung der DatenCollect and collate open-source CoT datasets and self-research synthetic data.
    • Feinabstimmung der ModelleVerwendung der obigen Daten zur Feinabstimmung des Basismodells mit vollständigen Parametern, um dessen Schlussfolgerungen zu verbessern.
  2. Monte-Carlo-Baumsuche (MCTS)::
    • KnotendarstellungMCTS: Im MCTS-Rahmen stellt jeder Knoten einen Argumentationszustand im Problemlösungsprozess dar.
    • Bewegung AusgangDie möglichen Aktionen eines Knotens werden vom LLM generiert und stellen mögliche Schritte in der Inferenzkette dar.
    • Rollback und BonusberechnungWährend der Rollback-Phase setzt der LLM den Argumentationsprozess bis zum Abbruchzustand fort.
    • Bootstrap-SucheBelohnungspunkte verwenden, um vielversprechende Pfade zu bewerten und auszuwählen, um die Suche auf zuverlässigere Inferenzketten zu lenken.
  3. Begründung Aktionsstrategie::
    • Granularität der MaßnahmenErkundung von Aktionen auf verschiedenen Granularitäten innerhalb des MCTS-Rahmens zur Verbesserung der Sucheffizienz und -genauigkeit.
    • ReflexionsmechanismenModelle zur Selbstreflexion anzuregen, verbessert deutlich ihre Fähigkeit, komplexe Probleme zu lösen.
  4. Mehrsprachige Übersetzungsaufträge::
    • MissionsantragAnwendung großer Inferenzmodelle auf maschinelle Übersetzungsaufgaben zur Erforschung der Skalierungsgesetze der Inferenzzeit in mehrsprachigen und Übersetzungsdomänen.
    • Beispiel für eine ÜbersetzungDemonstration der hervorragenden Leistung des Modells bei der Übersetzung von Slangausdrücken.
  5. Training des Belohnungsmodells::
    • Ergebnis-Belohnungs-Modellierung (ORM)Modelle trainieren, um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu reduzieren.
    • Prozess-Belohnungs-Modellierung (PRM)Weitere Optimierung der Inferenzpfade des Modells durch Prozessbelohnungsmodellierung.
  6. Intensives Lerntraining::
    • Optimierung der EntscheidungOptimierung des Entscheidungsfindungsprozesses des Modells und Verbesserung seiner Problemlösungsfähigkeiten durch Techniken des verstärkten Lernens.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Marco-o1: eine quelloffene Version des OpenAI o1-Modells auf der Grundlage von Qwen2-7B-Feinabstimmung zur Erforschung offener Inferenzmodelle für die Lösung komplexer Probleme
de_DEDeutsch