AI Personal Learning
und praktische Anleitung

Marco-o1: eine quelloffene Version des OpenAI o1-Modells auf der Grundlage von Qwen2-7B-Feinabstimmung zur Erforschung offener Inferenzmodelle für die Lösung komplexer Probleme

Allgemeine Einführung

Marco-o1 ist ein offenes Denkmodell, das von der Alibaba International Digital Commerce Group (AIDC-AI) entwickelt wurde, um komplexe Probleme der realen Welt zu lösen. Das Modell kombiniert die Feinabstimmung der Gedankenkette (Chain of Thought, CoT), die Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS) und innovative Schlussfolgerungsstrategien, um komplexe Problemlösungsaufgaben zu optimieren. Marco-o1 konzentriert sich nicht nur auf Disziplinen mit Standardantworten wie Mathematik, Physik und Programmierung, sondern strebt auch eine Verallgemeinerung auf Bereiche an, in denen es keine klaren Kriterien gibt und in denen es schwierig ist, Belohnungen zu quantifizieren. Ziel des Projekts ist es, das Potenzial groß angelegter Inferenzmodelle für mehrsprachige Anwendungen zu erforschen und durch kontinuierliche Optimierung und Verbesserung die Argumentationskraft und den Anwendungsbereich der Modelle zu erweitern.

Marco-o1: Eine quelloffene Version des OpenAI o1-Modells auf der Grundlage von Qwen2-7B-Feinabstimmung zur Erforschung offener Inferenzmodelle für die Lösung komplexer Probleme-1


 

Funktionsliste

  • Feinabstimmung der Gedankenkette (CoT)Verbesserung der Inferenzfähigkeit des Modells durch Feinabstimmung des Basismodells mit vollständigen Parametern, Kombination von Open-Source-CoT-Datensätzen und synthetischen Daten aus eigener Forschung.
  • Monte-Carlo-Baumsuche (MCTS)Die Vertrauenswürdigkeit des Modells als Leitfaden für die Suche nutzen, den Lösungsraum erweitern und den Inferenzpfad optimieren.
  • Begründung AktionsstrategieImplementierung innovativer Handlungsstrategien und Reflexionsmechanismen zur Untersuchung von Handlungen auf verschiedenen Granularitätsebenen und zur Verbesserung der Fähigkeit von Modellen, komplexe Probleme zu lösen.
  • Mehrsprachige ÜbersetzungsaufträgeDie erste Anwendung eines groß angelegten Inferenzmodells auf eine maschinelle Übersetzungsaufgabe, die die Skalierungsgesetze der Inferenzzeit in mehrsprachigen und Übersetzungsdomänen untersucht.
  • Training des BelohnungsmodellsEntwicklung von Outcome Reward Modelling (ORM) und Process Reward Modelling (PRM), um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu verringern.
  • Intensives LerntrainingOptimierung des Entscheidungsfindungsprozesses des Modells durch Techniken des verstärkten Lernens, um seine Problemlösungsfähigkeiten weiter zu verbessern.

 

Hilfe verwenden

Ablauf der Installation

  1. Besuchen Sie die GitHub-Seite: Weiter zuMarco-o1 GitHub-Seite.
  2. Klon-Lager: Verwenden Sie den Befehlgit clone https://github.com/AIDC-AI/Marco-o1.gitKlonen Sie das Repository nach lokal.
  3. Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und führen Siepip install -r anforderungen.txtInstallieren Sie die erforderlichen Abhängigkeiten.

Richtlinien für die Verwendung

  1. Modelle laden: Verwenden Sie in der Python-Umgebung den folgenden Code, um das Modell zu laden:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    modell_name = "AIDC-AI/Marco-o1"
    model = AutoModelForCausalLM.from_pretrained(model_name)
    tokeniser = AutoTokenizer.from_pretrained(model_name)
    
  2. Beispiel für eine Argumentation: Reasoning with Models, hier ein einfaches Beispiel: python
    input_text = "Wie viele 'r's sind in Erdbeere?"
    inputs = tokeniser(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  3. mehrsprachige ÜbersetzungMarco-o1 erbringt gute Leistungen bei mehrsprachigen Übersetzungsaufgaben. Im Folgenden finden Sie ein Beispiel für eine Übersetzung: python
    input_text = "Dieser Schuh hat das Gefühl, in Scheiße zu treten"
    inputs = tokeniser(input_text, return_tensors="pt")
    outputs = model.generate(**inputs)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Detaillierte Funktionsabläufe

  1. Feinabstimmung der Gedankenkette (CoT)::
    • Vorbereitung der DatenCollect and collate open-source CoT datasets and self-research synthetic data.
    • Feinabstimmung der ModelleVerwendung der obigen Daten zur Feinabstimmung des Basismodells mit vollständigen Parametern, um dessen Schlussfolgerungen zu verbessern.
  2. Monte-Carlo-Baumsuche (MCTS)::
    • KnotendarstellungMCTS: Im MCTS-Rahmenwerk stellt jeder Knoten einen Argumentationszustand im Problemlösungsprozess dar.
    • Bewegung AusgangDie möglichen Aktionen eines Knotens werden vom LLM generiert und stellen mögliche Schritte in der Inferenzkette dar.
    • Rollback und BonusberechnungWährend der Rollback-Phase setzt der LLM den Argumentationsprozess bis zum Abbruchzustand fort.
    • Bootstrap-SucheBelohnungspunkte verwenden, um vielversprechende Pfade zu bewerten und auszuwählen, um die Suche auf zuverlässigere Inferenzketten zu lenken.
  3. Begründung Aktionsstrategie::
    • Granularität der MaßnahmenErkundung von Aktionen auf verschiedenen Granularitäten innerhalb des MCTS-Rahmens zur Verbesserung der Sucheffizienz und -genauigkeit.
    • ReflexionsmechanismenModelle zur Selbstreflexion anzuregen, verbessert deutlich ihre Fähigkeit, komplexe Probleme zu lösen.
  4. Mehrsprachige Übersetzungsaufträge::
    • MissionsantragAnwendung umfangreicher Inferenzmodelle auf maschinelle Übersetzungsaufgaben und Untersuchung der Skalierungsgesetze für die Inferenzzeit in mehrsprachigen und Übersetzungsdomänen.
    • Beispiel für eine ÜbersetzungDemonstration der hervorragenden Leistung des Modells bei der Übersetzung von Slangausdrücken.
  5. Training des Belohnungsmodells::
    • Ergebnis-Belohnungs-Modellierung (ORM)Modelle trainieren, um genauere Belohnungssignale zu liefern und die Zufälligkeit der Ergebnisse der Baumsuche zu verringern.
    • Prozess-Belohnungs-Modellierung (PRM)Weitere Optimierung der Inferenzpfade des Modells durch Prozessbelohnungsmodellierung.
  6. Intensives Lerntraining::
    • Optimierung der EntscheidungOptimierung des Entscheidungsfindungsprozesses des Modells und Verbesserung seiner Problemlösungsfähigkeiten durch Techniken des verstärkten Lernens.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Marco-o1: eine quelloffene Version des OpenAI o1-Modells auf der Grundlage von Qwen2-7B-Feinabstimmung zur Erforschung offener Inferenzmodelle für die Lösung komplexer Probleme

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)