Allgemeine Einführung
Marco-o1 ist ein offenes Denkmodell, das von der Alibaba International Digital Commerce Group (AIDC-AI) entwickelt wurde, um komplexe Probleme der realen Welt zu lösen. Das Modell kombiniert die Feinabstimmung der Gedankenkette (Chain of Thought, CoT), die Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS) und innovative Schlussfolgerungsstrategien, um komplexe Problemlösungsaufgaben zu optimieren. Marco-o1 konzentriert sich nicht nur auf Disziplinen mit Standardantworten wie Mathematik, Physik und Programmierung, sondern strebt auch eine Verallgemeinerung auf Bereiche an, in denen es keine klaren Kriterien gibt und in denen es schwierig ist, Belohnungen zu quantifizieren. Ziel des Projekts ist es, das Potenzial groß angelegter Inferenzmodelle für mehrsprachige Anwendungen zu erforschen und durch kontinuierliche Optimierung und Verbesserung die Argumentationskraft und den Anwendungsbereich der Modelle zu erweitern.
Funktionsliste
- Feinabstimmung der Gedankenkette (CoT)Verbesserung der Inferenzfähigkeit des Modells durch Feinabstimmung des Basismodells mit vollständigen Parametern, Kombination von Open-Source-CoT-Datensätzen und synthetischen Daten aus eigener Forschung.
- Monte-Carlo-Baumsuche (MCTS)Die Vertrauenswürdigkeit des Modells als Leitfaden für die Suche nutzen, den Lösungsraum erweitern und den Inferenzpfad optimieren.
- Begründung AktionsstrategieImplementierung innovativer Handlungsstrategien und Reflexionsmechanismen zur Untersuchung von Handlungen auf verschiedenen Granularitätsebenen und zur Verbesserung der Fähigkeit von Modellen, komplexe Probleme zu lösen.
- Mehrsprachige ÜbersetzungsaufträgeDie erste Anwendung eines groß angelegten Inferenzmodells auf eine maschinelle Übersetzungsaufgabe, die die Skalierungsgesetze der Inferenzzeit in mehrsprachigen und Übersetzungsdomänen untersucht.
- Training des BelohnungsmodellsEntwicklung von Outcome Reward Modelling (ORM) und Process Reward Modelling (PRM), um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu verringern.
- Intensives LerntrainingOptimierung des Entscheidungsfindungsprozesses des Modells durch Techniken des verstärkten Lernens, um seine Problemlösungsfähigkeiten weiter zu verbessern.
Hilfe verwenden
Ablauf der Installation
- Besuchen Sie die GitHub-Seite: Weiter zuMarco-o1 GitHub-Seite.
- Klon-Lager: Verwenden Sie den Befehl
git clone https://github.com/AIDC-AI/Marco-o1.git
Klonen Sie das Repository nach lokal. - Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und führen Sie
pip install -r anforderungen.txt
Installieren Sie die erforderlichen Abhängigkeiten.
Richtlinien für die Verwendung
- Modelle laden: Verwenden Sie in der Python-Umgebung den folgenden Code, um das Modell zu laden:
from transformers import AutoModelForCausalLM, AutoTokenizer modell_name = "AIDC-AI/Marco-o1" model = AutoModelForCausalLM.from_pretrained(model_name) tokeniser = AutoTokenizer.from_pretrained(model_name)
- Beispiel für eine Argumentation: Reasoning with Models, hier ein einfaches Beispiel:
python
input_text = "Wie viele 'r's sind in Erdbeere?"
inputs = tokeniser(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- mehrsprachige ÜbersetzungMarco-o1 erbringt gute Leistungen bei mehrsprachigen Übersetzungsaufgaben. Im Folgenden finden Sie ein Beispiel für eine Übersetzung:
python
input_text = "Dieser Schuh hat das Gefühl, in Scheiße zu treten"
inputs = tokeniser(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Detaillierte Funktionsabläufe
- Feinabstimmung der Gedankenkette (CoT)::
- Vorbereitung der DatenCollect and collate open-source CoT datasets and self-research synthetic data.
- Feinabstimmung der ModelleVerwendung der obigen Daten zur Feinabstimmung des Basismodells mit vollständigen Parametern, um dessen Schlussfolgerungen zu verbessern.
- Monte-Carlo-Baumsuche (MCTS)::
- KnotendarstellungMCTS: Im MCTS-Rahmenwerk stellt jeder Knoten einen Argumentationszustand im Problemlösungsprozess dar.
- Bewegung AusgangDie möglichen Aktionen eines Knotens werden vom LLM generiert und stellen mögliche Schritte in der Inferenzkette dar.
- Rollback und BonusberechnungWährend der Rollback-Phase setzt der LLM den Argumentationsprozess bis zum Abbruchzustand fort.
- Bootstrap-SucheBelohnungspunkte verwenden, um vielversprechende Pfade zu bewerten und auszuwählen, um die Suche auf zuverlässigere Inferenzketten zu lenken.
- Begründung Aktionsstrategie::
- Granularität der MaßnahmenErkundung von Aktionen auf verschiedenen Granularitäten innerhalb des MCTS-Rahmens zur Verbesserung der Sucheffizienz und -genauigkeit.
- ReflexionsmechanismenModelle zur Selbstreflexion anzuregen, verbessert deutlich ihre Fähigkeit, komplexe Probleme zu lösen.
- Mehrsprachige Übersetzungsaufträge::
- MissionsantragAnwendung umfangreicher Inferenzmodelle auf maschinelle Übersetzungsaufgaben und Untersuchung der Skalierungsgesetze für die Inferenzzeit in mehrsprachigen und Übersetzungsdomänen.
- Beispiel für eine ÜbersetzungDemonstration der hervorragenden Leistung des Modells bei der Übersetzung von Slangausdrücken.
- Training des Belohnungsmodells::
- Ergebnis-Belohnungs-Modellierung (ORM)Modelle trainieren, um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu verringern.
- Prozess-Belohnungs-Modellierung (PRM)Weitere Optimierung der Inferenzpfade des Modells durch Prozessbelohnungsmodellierung.
- Intensives Lerntraining::
- Optimierung der EntscheidungOptimierung des Entscheidungsfindungsprozesses des Modells und Verbesserung seiner Problemlösungsfähigkeiten durch Techniken des verstärkten Lernens.