AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

Reasoning mit großen Sprachmodellen: Ausgleich zwischen "Unterdenken" und "Überdenken"

Große Sprachmodelle (Large Language Models, LLMs) entwickeln sich rasch weiter, und ihre Schlussfolgerungsfähigkeit ist zu einem Schlüsselindikator für ihr Intelligenzniveau geworden. Insbesondere Modelle mit langen Schlussfolgerungsfähigkeiten, wie das von OpenAI o1undDeepSeek-R1undQwQ-32B im Gesang antworten Kimi K1.5 Diese haben viel Aufmerksamkeit auf sich gezogen, weil sie in der Lage sind, komplexe Probleme zu lösen, indem sie tiefe menschliche Denkprozesse simulieren. Diese Fähigkeit beruht häufig auf einer Technik, die als "Inferenzzeit-Skalierung" bezeichnet wird und es dem Modell ermöglicht, bei der Generierung von Antworten mehr Zeit für die Erkundung und Korrektur zu verwenden.

Bei näherer Betrachtung zeigt sich jedoch, dass diese Modelle oft in zwei Extreme fallen, wenn es um die Argumentation geht:Underthinking im Gesang antworten Zu viel nachgedacht.


nicht genug Stoff zum Nachdenken Dies bezieht sich auf das häufige Wechseln von Ideen in der Argumentation des Modells, was es schwierig macht, sich auf eine vielversprechende Richtung zu konzentrieren, um tiefer zu graben. Die Modellausgabe kann mit Wörtern wie "alternativ", "aber warte", "lass mich noch einmal überlegen" usw. gefüllt sein, die wie in der Abbildung unten dargestellt, zu falschen endgültigen Antworten führen. Dieses Phänomen kann mit der menschlichen Unaufmerksamkeit verglichen werden, die die Gültigkeit der Argumentation beeinträchtigt.

Beispiel für unzureichendes Modelldenken

zu viel nachdenken Stattdessen erzeugt das Modell lange und unnötige "Gedankenketten" bei einfachen Problemen. Zum Beispiel für ein einfaches arithmetisches Problem wie "2+3=?" Für ein einfaches arithmetisches Problem wie "2+3=?" können einige Modelle Hunderte oder sogar Tausende von Arbeitsstunden erfordern. token um mehrere Lösungen iterativ zu überprüfen oder zu erforschen, wie unten gezeigt. Während komplexe Denkprozesse bei schwierigen Problemen von Vorteil sind, führt dies bei einfachen Szenarien sicherlich zu einer Verschwendung von Rechenressourcen.

Beispiel für Überdenken des Modells

Diese beiden Fragen zusammengenommen weisen auf eine zentrale Herausforderung hin: Wie kann die Effizienz des Denkens des Modells verbessert und gleichzeitig die Qualität der Antworten beibehalten werden? Ein ideales Modell sollte in der Lage sein, innerhalb kürzester Zeit die richtige Antwort zu finden und zu geben.

Um diese Herausforderung zu bewältigen.EvalScope Das Projekt führt ein EvalThink Komponente, mit dem Ziel, ein standardisiertes Instrument zur Bewertung der Denkleistung eines Modells bereitzustellen. In diesem Papier werden wir die MATH-500 Die Analyse des Datensatzes umfasst zum Beispiel DeepSeek-R1-Distill-Qwen-7B Die Leistung einer Reihe von Argumentationsmodellen, einschließlich solcher, die sich auf sechs Dimensionen konzentrieren: Modellieren von Schlussfolgerungen token Nummer, erstes Mal richtig token Anzahl, verbleibende Reflexionen token Zahlen,token Effizienz, Anzahl der Teil-Denkketten und Genauigkeit.

 

Bewertungsmethodik und -prozess

Der Bewertungsprozess besteht aus zwei Hauptphasen: der Bewertung des Modelldenkens und der Bewertung der Effizienz des Modelldenkens.

Bewertung der Modellüberlegungen

Das Ziel dieser Phase ist es, das Modell in MATH-500 Rohe Schlussfolgerungsergebnisse und Basisgenauigkeit für den Datensatz.MATH-500 Der Datensatz enthält 500 Mathematikaufgaben mit unterschiedlichem Schwierigkeitsgrad (von Stufe 1 bis Stufe 5).

Vorbereitung der Bewertungsumgebung

Die Auswertung kann durch den Zugriff auf einen OpenAI API-kompatiblen Reasoning Service erfolgen.EvalScope Das Framework unterstützt auch die Verwendung von transformers Die Bibliothek wird vor Ort überprüft. Für diejenigen, die mit langen Gedankenketten umgehen müssen (möglicherweise mehr als 10.000 token) des Inferenzmodells unter Verwendung von vLLM vielleicht ollama Effiziente Inferenzsysteme wie diese setzen Modelle ein, die den Bewertungsprozess erheblich beschleunigen können.

laut DeepSeek-R1-Distill-Qwen-7B Verwenden Sie zum Beispiel die vLLM Der Beispielbefehl für die Bereitstellung des Dienstes lautet wie folgt:

VLLM_USE_MODELSCOPE=True CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --served-model-name DeepSeek-R1-Distill-Qwen-7B --trust_remote_code --port 8801

Überprüfung der Argumentation von Führungskräften

passieren (eine Rechnung oder Inspektion etc.) EvalScope (in Form eines Nominalausdrucks) TaskConfig Konfigurieren Sie die Modell-API-Adresse, den Namen, den Datensatz, die Stapelgröße und die Generierungsparameter und führen Sie dann die Bewertungsaufgabe aus. Im Folgenden finden Sie ein Beispiel für Python-Code:

from evalscope import TaskConfig, run_task
task_config = TaskConfig(
api_url='http://0.0.0.0:8801/v1/chat/completions',  # 推理服务地址
model='DeepSeek-R1-Distill-Qwen-7B',  # 模型名称 (需与部署时一致)
eval_type='service',  # 评测类型:服务
datasets=['math_500'],  # 数据集
dataset_args={'math_500': {'few_shot_num': 0, 'subset_list': ['Level 1', 'Level 2', 'Level 3', 'Level 4', 'Level 5']}},  # 数据集参数,包含难度级别
eval_batch_size=32,  # 并发请求数
generation_config={
'max_tokens': 20000,  # 最大生成 token 数,设置较大值防截断
'temperature': 0.6,  # 采样温度
'top_p': 0.95,  # top-p 采样
'n': 1,  # 每个请求生成一个回复
},
)
run_task(task_config)

Sobald die Bewertung abgeschlossen ist, wird das Modell in MATH-500 Genauigkeit in jedem Schwierigkeitsgrad (AveragePass@1):

| Model                       | Dataset   | Metric        | Subset   | Num | Score  | Cat.0   |
|-----------------------------|-----------|---------------|----------|-----|--------|---------|
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 1  | 43  | 0.9535 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 2  | 90  | 0.9667 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 3  | 105 | 0.9587 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 4  | 128 | 0.9115 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 5  | 134 | 0.8557 | default |

Modellhaftes Denken - Effizienzbewertung

Nach Erhalt der SchlussfolgerungEvalThink Komponenteneingriffe für tiefer gehende Effizienzanalysen. Zu den wichtigsten Bewertungsmetriken gehören:

  • modellhafte Argumentation token (Begründungsmünzen)Denkketten bei der Modellgenerierung von Antworten (wie im Modell O1/R1) </think> (was vor der Flagge steht), die in der token Gesamtbetrag.
  • gleich beim ersten Mal richtig token Anzahl (erste richtige Token)Vom Beginn der Modellausgabe bis zum ersten Auftreten einer identifizierbaren richtigen Antwortstelle token Menge.
  • Verbleibende Überlegungen token Anzahl (Reflexionsmarken):: Von der ersten richtigen Antwortposition bis zum Ende der Gedankenkette token Menge. Dies spiegelt zum Teil die Kosten für die weitere Validierung oder Erkundung wider, nachdem das Modell eine Antwort gefunden hat.
  • Zifferngedanke:: Durch die Zählung bestimmter Signifikanten (z.B. alternativelybut waitlet me reconsider), um abzuschätzen, wie oft das Modell die Ideen wechselt.
  • token Token-Effizienz:: Messung des effektiven Denkens token Indikator für den Prozentsatz, berechnet als korrekte erste Zeit token Zahlen und allgemeines logisches Denken token Der Mittelwert des Verhältnisses der Anzahl der (es wurden nur Proben mit richtigen Antworten gezählt):
    Token-Effizienz = 1N ∑ Erstens: Richtig WertmarkeniBegründung Tokensi
    wobei N die Anzahl der richtig beantworteten Fragen ist. Je höher der Wert, desto "effizienter" ist das Denken des Modells.

Zum Zwecke der Bestimmung des "Erstanwendungsrechts token Zahl", ein Bewertungsrahmen, der sich auf die ProcessBench Die Idee ist, ein separates Richtermodell zu verwenden, zum Beispiel Qwen2.5-72B-Instructum die Inferenzschritte zu untersuchen und die Stelle zu finden, an der die richtige Antwort am frühesten auftritt. Die Implementierung beinhaltet die Zerlegung der Modellausgabe in Schritte (Strategie optional: durch spezifisches Trennzeichen) separatorSchlüsselwörter der Presse keywordsoder mit Hilfe des LLM umgeschrieben und geschnitten werden llm), und lassen Sie dann das Schiedsrichter-Modell jeden einzelnen bewerten.

Beispielcode für die Durchführung einer think efficiency Bewertung:

from evalscope.third_party.thinkbench import run_task
# 配置裁判模型服务
judge_config = dict(
api_key='EMPTY',
base_url='http://0.0.0.0:8801/v1', # 假设裁判模型也部署在此服务
model_name='Qwen2.5-72B-Instruct',
)
# 配置待评估模型的信息
model_config = dict(
report_path='./outputs/2025xxxx',  # 上一步推理结果路径
model_name='DeepSeek-R1-Distill-Qwen-7B',  # 模型名称
tokenizer_path='deepseek-ai/DeepSeek-R1-Distill-Qwen-7B',  # Tokenizer 路径,用于计算 token
dataset_name='math_500',  # 数据集名称
subsets=['Level 1', 'Level 2', 'Level 3', 'Level 4', 'Level 5'],  # 数据集子集
split_strategies='separator',  # 推理步骤分割策略
judge_config=judge_config
)
max_tokens = 20000  # 过滤 token 过长的输出
count = 200  # 每个子集抽样数量,加速评测
# 运行思考效率评估
run_task(model_config, output_dir='outputs', max_tokens=max_tokens, count=count)

In den Bewertungsergebnissen werden die sechs Dimensionen des Modells für jede Schwierigkeitsstufe detailliert aufgeführt.

 

Analyse und Diskussion der Ergebnisse

Das Forschungsteam verwendete EvalThink rechts DeepSeek-R1-Distill-Qwen-7B und verschiedene andere Modelle (QwQ-32BundQwQ-32B-PreviewundDeepSeek-R1undDeepSeek-R1-Distill-Qwen-32B) bewertet und ein nicht-inferentielles mathematisches Spezialmodell hinzugefügt Qwen2.5-Math-7B-Instruct Zum Vergleich.

DeepSeek-R1-Distill-Qwen-7B Nachdenken über Effizienz
Abbildung 1: DeepSeek-R1-Distill-Qwen-7B-Indikator für die Denkeffizienz

Vergleich der Effizienz von 6 Denkmodellen
Abbildung 2: Vergleich der Denkeffizienz der 6 Modelle auf verschiedenen Schwierigkeitsstufen von MATH-500

Aus den Vergleichsergebnissen (Abbildung 2) lassen sich folgende Trends ablesen:

  1. Korrelation zwischen Schwierigkeit und LeistungMit zunehmendem Schwierigkeitsgrad der Aufgabe (Stufe 1 bis Stufe 5) nimmt die Genauigkeit der meisten Modelle ab. Allerdings.QwQ-32B im Gesang antworten DeepSeek-R1 sich bei schwierigen Problemen auszeichnen.QwQ-32B höchste Genauigkeit auf Stufe 5. Gleichzeitig ist die Leistung aller Modelle token Die Zahlen werden mit steigendem Schwierigkeitsgrad immer länger, was der Erwartung des "logischen Denkens beim Expandieren" entspricht - das Modell muss mehr "denken", um das Rätsel zu lösen.
  2. O1/R1 Klasse Reasoning Model Eigenschaften:
    • Effizienzgewinne:: Interessant ist, dass für DeepSeek-R1 im Gesang antworten QwQ-32B Bei dieser Art von Inferenzmodell wird die Ausgabe zwar länger, aber die token Effizienz (effektiv) token Prozent) steigt ebenfalls mit der Schwierigkeit (DeepSeek-R1 Von 36% bis 54%.QwQ-32B (von 31% auf 49%). Dies deutet darauf hin, dass ihr zusätzliches Denken bei schwierigen Problemen "kosteneffizienter" ist, während bei einfachen Problemen ein gewisses Maß an "Überdenken", z. B. unnötige Iterationen, vorkommen kann.QwQ-32B (in Form eines Nominalausdrucks) token Der Verbrauch ist insgesamt hoch, was einer der Gründe dafür sein könnte, dass er auf Stufe 5 eine hohe Trefferquote beibehalten kann, aber auch auf eine Tendenz zum Überdenken hinweist.
    • Pfade des DenkensDeepSeek Die Anzahl der Sub-Denkketten für die Serienmodelle ist auf den Stufen 1-4 relativ stabil, steigt aber auf der schwierigsten Stufe 5 dramatisch an, was darauf hindeutet, dass Stufe 5 eine erhebliche Herausforderung für diese Modelle darstellt und mehrere Versuche erfordert. Im Gegensatz dazu.QwQ-32B Das Serienmodell weist ein gleichmäßigeres Wachstum der Anzahl der Gedankenketten auf, was unterschiedliche Bewältigungsstrategien widerspiegelt.
  3. Grenzen von nicht-inferentiellen Modellen:: Mathematische Fachmodelle Qwen2.5-Math-7B-Instruct Die Genauigkeit sinkt dramatisch, wenn es um schwierige Probleme geht, und der Output token Die Zahl ist viel geringer als bei den logischen Modellen (etwa ein Drittel). Dies deutet darauf hin, dass solche Modelle zwar bei gewöhnlichen Problemen schneller und weniger ressourcenintensiv sein können, dass sie aber aufgrund des Fehlens tieferer Denkprozesse bei komplexen logischen Aufgaben eine erhebliche Leistungsgrenze haben.

 

Methodische Überlegungen und Grenzen

in Anwendung EvalThink Bei der Durchführung einer Bewertung sind mehrere Punkte zu beachten:

  • Definition von Indikatoren:
    • in diesem Papier vorgeschlagen token Effizienzindikatoren, die sich auf die Konzepte des "Überdenkens" und "Unterdenkens" in der Literatur stützen, konzentrieren sich in erster Linie auf token Die Quantität, ein vereinfachtes Maß für den Denkprozess, kann die Qualität des Denkens nicht in allen Einzelheiten erfassen.
    • Die Berechnung der Anzahl der Sub-Denkketten beruht auf vordefinierten Schlüsselwörtern, und die Liste der Schlüsselwörter muss möglicherweise für verschiedene Modelle angepasst werden, um deren Denkmuster genau wiederzugeben.
  • Umfang der Anwendung:
    • Die aktuellen Metriken wurden hauptsächlich anhand von Datensätzen zum mathematischen Denken validiert, und ihre Wirksamkeit in anderen Szenarien, wie z. B. offenes Quiz und Ideenfindung, muss noch getestet werden.
    • Verpflegung DeepSeek-R1-Distill-Qwen-7B basiert auf einem mathematischen Modell der Destillation des MATH-500 Es kann ein natürlicher Leistungsvorteil für den Datensatz bestehen. Die Bewertungsergebnisse müssen im Zusammenhang mit dem Modell interpretiert werden.
  • Abhängigkeit vom Adjudikationsmodell:
    • token Die Berechnung der Effizienz stützt sich auf das Richtermodell (Judge Model, JM), um die Korrektheit der Argumentationsschritte genau zu beurteilen. Unter ProcessBench 4Wie in der Studie festgestellt wird, ist dies eine schwierige Aufgabe für bestehende Modelle und erfordert in der Regel sehr leistungsfähige Modelle, um dieser Aufgabe gerecht zu werden.
    • Fehleinschätzungen im Schiedsrichtermodell können direkte Auswirkungen haben auf token Genauigkeit der Effizienzindikatoren, daher ist die Wahl des richtigen Schiedsrichtermodells entscheidend.

Kurz und bündig.EvalThink Es wird eine Reihe von Rahmen und Metriken zur quantitativen Bewertung der Effizienz des LLM-Denkens bereitgestellt, die aufzeigen, wie gut verschiedene Modelle in Bezug auf die Genauigkeit abschneiden,token Abwägung zwischen Verbrauch und Tiefe des Denkens. Diese Erkenntnisse sind nützlich für die Modellschulung (z. B. GRPO und SFT) ist es aufschlussreich, Modelle der nächsten Generation zu entwickeln, die effizienter sind und die Tiefe des Denkens adaptiv an die Schwierigkeit des Problems anpassen können.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Reasoning mit großen Sprachmodellen: Ausgleich zwischen "Unterdenken" und "Überdenken"
de_DEDeutsch