Raisonner avec de grands modèles linguistiques : trouver un équilibre entre "sous-réflexion" et "sur-réflexion".

Les grands modèles de langage (LLM) évoluent rapidement et leur capacité de raisonnement est devenue un indicateur clé de leur niveau d'intelligence. En particulier, les modèles dotés de longues capacités de raisonnement, tels que le modèle de l'OpenAI o1,DeepSeek-R1,QwQ-32B répondre en chantant Kimi K1.5 Ceux-ci ont attiré beaucoup d'attention pour leur capacité à résoudre des problèmes complexes en simulant des processus de pensée humains profonds. Cette capacité implique souvent une technique appelée Inference-Time Scaling, qui permet au modèle de passer plus de temps à explorer et à corriger lorsqu'il génère des réponses.

Cependant, un examen plus approfondi révèle que ces modèles se situent souvent dans deux extrêmes en matière de raisonnement :Sous-pensée répondre en chantant Réflexion excessive.

pas assez de matière à réflexion Il s'agit des changements fréquents d'idées dans le raisonnement du modèle, ce qui rend difficile de se concentrer sur une direction prometteuse pour une recherche plus approfondie. La sortie du modèle peut être remplie de mots tels que "alternativement", "mais attendez", "laissez-moi reconsidérer", etc. comme le montre la figure ci-dessous, aboutissant à une réponse finale erronée. Ce phénomène peut être comparé à l'inattention humaine, qui affecte la validité du raisonnement.

大语言模型推理:在“思考不足”与“过度思考”之间寻求平衡

surréflexion Au lieu de cela, le modèle génère des "chaînes de pensée" longues et inutiles pour des problèmes simples. Par exemple, pour un problème arithmétique de base tel que "2+3= ?", certains modèles peuvent nécessiter des centaines, voire des milliers d'heures de travail. Par exemple, pour un problème arithmétique de base tel que "2+3= ?", certains modèles peuvent nécessiter des centaines, voire des milliers d'heures de travail. token pour vérifier ou explorer plusieurs solutions de manière itérative, comme indiqué ci-dessous. Si les processus de réflexion complexes sont utiles pour les problèmes difficiles, dans les scénarios simples, ils entraînent certainement un gaspillage des ressources informatiques.

大语言模型推理:在“思考不足”与“过度思考”之间寻求平衡

Ensemble, ces deux questions mettent en évidence un défi central : comment améliorer l'efficacité de la réflexion du modèle tout en maintenant la qualité des réponses ? Un modèle idéal devrait être capable de trouver et de donner la bonne réponse dans le délai le plus court.

Pour relever ce défi.EvalScope Le projet présente EvalThink afin de fournir un outil standardisé pour évaluer l'efficacité de la réflexion d'un modèle. Dans le présent document, nous utiliserons l'outil MATH-500 À titre d'exemple, l'analyse de l'ensemble des données comprend DeepSeek-R1-Distill-Qwen-7B La performance d'une série de modèles de raisonnement, y compris ceux qui se concentrent sur six dimensions : le raisonnement de modèle token Nombre, première fois correcte token Nombre, réflexions restantes token Les chiffres,token Efficacité, nombre de chaînes de sous-réflexion et précision.

 

Méthodologie et processus d'évaluation

Le processus d'évaluation comprend deux étapes principales : l'évaluation du raisonnement du modèle et l'évaluation de l'efficacité du raisonnement du modèle.

Évaluation du raisonnement du modèle

L'objectif de cette phase est d'obtenir le modèle en MATH-500 Résultats bruts de l'inférence et précision de base sur l'ensemble des données.MATH-500 L'ensemble de données contient 500 problèmes de mathématiques de difficulté variable (du niveau 1 au niveau 5).

Préparation de l'environnement d'évaluation

L'évaluation peut être effectuée en accédant à un service de raisonnement compatible avec l'API OpenAI.EvalScope Le cadre soutient également l'utilisation de transformers La bibliothèque fait l'objet d'une évaluation locale. Pour ceux qui doivent traiter de longues chaînes de pensée (peut-être plus de 10 000 token) du modèle d'inférence en utilisant vLLM peut-être ollama Les cadres d'inférence efficaces tels que ceux-ci déploient des modèles qui peuvent accélérer considérablement le processus d'évaluation.

afin de DeepSeek-R1-Distill-Qwen-7B A titre d'exemple, utilisez le vLLM L'exemple de commande pour déployer le service est le suivant :

VLLM_USE_MODELSCOPE=True CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --served-model-name DeepSeek-R1-Distill-Qwen-7B --trust_remote_code --port 8801

Examen du raisonnement exécutif

faire passer (un projet de loi, une inspection, etc.) EvalScope (utilisé comme expression nominale) TaskConfig Configurez l'adresse API du modèle, le nom, le jeu de données, la taille du lot et les paramètres de génération, puis exécutez la tâche d'évaluation. Voici un exemple de code Python :

from evalscope import TaskConfig, run_task
task_config = TaskConfig(
api_url='http://0.0.0.0:8801/v1/chat/completions',  # 推理服务地址
model='DeepSeek-R1-Distill-Qwen-7B',  # 模型名称 (需与部署时一致)
eval_type='service',  # 评测类型:服务
datasets=['math_500'],  # 数据集
dataset_args={'math_500': {'few_shot_num': 0, 'subset_list': ['Level 1', 'Level 2', 'Level 3', 'Level 4', 'Level 5']}},  # 数据集参数,包含难度级别
eval_batch_size=32,  # 并发请求数
generation_config={
'max_tokens': 20000,  # 最大生成 token 数,设置较大值防截断
'temperature': 0.6,  # 采样温度
'top_p': 0.95,  # top-p 采样
'n': 1,  # 每个请求生成一个回复
},
)
run_task(task_config)

Une fois l'évaluation terminée, le modèle sera exporté en format MATH-500 Précision à chaque niveau de difficulté (AveragePass@1) :

| Model                       | Dataset   | Metric        | Subset   | Num | Score  | Cat.0   |
|-----------------------------|-----------|---------------|----------|-----|--------|---------|
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 1  | 43  | 0.9535 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 2  | 90  | 0.9667 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 3  | 105 | 0.9587 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 4  | 128 | 0.9115 | default |
| DeepSeek-R1-Distill-Qwen-7B | math_500  | AveragePass@1 | Level 5  | 134 | 0.8557 | default |

Évaluation de l'efficacité de la réflexion sur les modèles

Après avoir obtenu les résultats du raisonnementEvalThink Interventions sur les composants pour des analyses d'efficacité plus approfondies. Les mesures d'évaluation de base comprennent

  • raisonnement modélisé token (Jetons de raisonnement)Les chaînes de réflexion pendant la génération des réponses (comme dans le modèle O1/R1) </think> (ce qui précède le drapeau) contenu dans le token Montant total.
  • bien dès la première fois token Nombre (premiers jetons corrects)Le modèle est un outil d'aide à la décision qui permet d'identifier la bonne réponse à une question donnée, et ce depuis le début de la sortie du modèle jusqu'à la première occurrence d'une réponse correcte identifiable. token Quantité.
  • Réflexions restantes token Nombre (jetons de réflexion): : De la première position de réponse correcte à la fin de la chaîne de pensée. token La quantité. Cela reflète en partie le coût de la poursuite de la validation ou de l'exploration après que le modèle a trouvé une réponse.
  • Pensée numérique: : En comptant les signifiants spécifiques (par ex. alternativelybut waitlet me reconsider) pour estimer la fréquence à laquelle le modèle change d'idée.
  • token Efficacité des jetons: : Mesurer l'efficacité de la pensée token Indicateur de pourcentage, calculé comme étant correct la première fois token Chiffres et raisonnement général token La moyenne du ratio du nombre de (seuls les échantillons avec des réponses correctes ont été comptés) :
    Efficacité des jetons = 1N ∑ Premier correctif JetonsiRaisonnement Tokensi
    où N est le nombre de questions auxquelles il a été répondu correctement. Plus la valeur est élevée, plus la pensée du modèle est "efficace".

Aux fins de la détermination du "premier droit token nombre", un cadre d'évaluation qui s'appuie sur l'expérience de l'Union européenne. ProcessBench L'idée est d'utiliser un modèle de juge distinct, par exemple Qwen2.5-72B-Instructafin d'examiner les étapes de l'inférence et de localiser la position où la bonne réponse apparaît le plus tôt. La mise en œuvre consiste à décomposer les résultats du modèle en étapes (stratégie facultative : par séparateur spécifique) separatorMots-clés de la presse keywordsou réécrite et découpée à l'aide du LLM llm), puis laisser le modèle d'arbitre juger chacune d'entre elles.

Exemple de code pour effectuer une évaluation de l'efficacité de la pensée :

from evalscope.third_party.thinkbench import run_task
# 配置裁判模型服务
judge_config = dict(
api_key='EMPTY',
base_url='http://0.0.0.0:8801/v1', # 假设裁判模型也部署在此服务
model_name='Qwen2.5-72B-Instruct',
)
# 配置待评估模型的信息
model_config = dict(
report_path='./outputs/2025xxxx',  # 上一步推理结果路径
model_name='DeepSeek-R1-Distill-Qwen-7B',  # 模型名称
tokenizer_path='deepseek-ai/DeepSeek-R1-Distill-Qwen-7B',  # Tokenizer 路径,用于计算 token
dataset_name='math_500',  # 数据集名称
subsets=['Level 1', 'Level 2', 'Level 3', 'Level 4', 'Level 5'],  # 数据集子集
split_strategies='separator',  # 推理步骤分割策略
judge_config=judge_config
)
max_tokens = 20000  # 过滤 token 过长的输出
count = 200  # 每个子集抽样数量,加速评测
# 运行思考效率评估
run_task(model_config, output_dir='outputs', max_tokens=max_tokens, count=count)

Les résultats de l'évaluation détailleront les six mesures dimensionnelles du modèle pour chaque niveau de difficulté.

 

Analyse et discussion des résultats

L'équipe de recherche a utilisé EvalThink droit DeepSeek-R1-Distill-Qwen-7B et plusieurs autres modèles (QwQ-32B,QwQ-32B-Preview,DeepSeek-R1,DeepSeek-R1-Distill-Qwen-32B) a été évaluée et un modèle mathématique spécialisé non inférentiel a été ajouté Qwen2.5-Math-7B-Instruct À titre de comparaison.

大语言模型推理:在“思考不足”与“过度思考”之间寻求平衡
Figure 1 : Indicateur d'efficacité de la réflexion DeepSeek-R1-Distill-Qwen-7B

大语言模型推理:在“思考不足”与“过度思考”之间寻求平衡
Figure 2 : Comparaison de l'efficacité de réflexion des 6 modèles à différents niveaux de difficulté de MATH-500

Les tendances suivantes peuvent être observées à partir des résultats de la comparaison (figure 2) :

  1. Corrélation entre la difficulté et la performanceLa précision de la plupart des modèles diminue au fur et à mesure que la difficulté du problème augmente (du niveau 1 au niveau 5). Cependant.QwQ-32B répondre en chantant DeepSeek-R1 exceller dans les problèmes difficiles.QwQ-32B la plus grande précision au niveau 5. Dans le même temps, les résultats de tous les modèles token Les nombres deviennent de plus en plus longs à mesure que la difficulté augmente, ce qui est conforme à l'attente de "raisonner en élargissant" - le modèle doit "penser" davantage pour résoudre l'énigme.
  2. Propriétés du modèle de raisonnement de la classe O1/R1:
    • Gains d'efficacité: : Il est intéressant de noter que pour les DeepSeek-R1 répondre en chantant QwQ-32B Ce type de modèle d'inférence, bien que la sortie devienne plus longue, la token Efficience (efficace) token ) augmente également avec la difficulté (DeepSeek-R1 De 36% à 54%.QwQ-32B (de 31% à 49%). Cela suggère que leur réflexion supplémentaire sur les problèmes difficiles est plus "rentable", alors que sur les problèmes simples, il peut y avoir une certaine quantité de "réflexion excessive", par exemple une validation itérative inutile.QwQ-32B (utilisé comme expression nominale) token La consommation est globalement élevée, ce qui peut être l'une des raisons pour lesquelles il peut maintenir un taux de précision élevé au niveau 5, mais cela indique également une tendance à trop réfléchir.
    • Les chemins de la penséeDeepSeek Le nombre de chaînes de sous-réflexion pour les modèles en série est relativement stable aux niveaux 1 à 4, mais augmente considérablement au niveau 5, le plus difficile, ce qui suggère que le niveau 5 représente un défi important pour ces modèles et qu'il nécessite plusieurs tentatives. En revanche.QwQ-32B Le modèle en série présente une croissance plus régulière du nombre de chaînes de pensée, ce qui reflète des stratégies d'adaptation différentes.
  3. Limites des modèles non inférentiels: : Modèles mathématiques spécialisés Qwen2.5-Math-7B-Instruct La précision diminue considérablement lorsqu'il s'agit de traiter des problèmes difficiles, et le rendement de l'appareil diminue considérablement lorsqu'il s'agit de traiter des problèmes difficiles. token Ce chiffre est bien inférieur à celui des modèles de raisonnement (environ un tiers). Cela suggère que, bien que ces modèles puissent être plus rapides et moins gourmands en ressources pour les problèmes courants, l'absence de processus de réflexion plus profonds leur confère un "plafond" de performance significatif pour les tâches de raisonnement complexes.

 

Considérations méthodologiques et limites

dans l'application EvalThink Il y a plusieurs points à garder à l'esprit lors d'une évaluation :

  • Définition des indicateurs:
    • proposée dans le présent document token Les indicateurs d'efficacité, qui s'appuient sur les concepts de "surpensée" et de "sous-pensée" de la littérature, se concentrent principalement sur les éléments suivants token La quantité, mesure simplifiée du processus de réflexion, ne permet pas de saisir tous les détails de la qualité de la réflexion.
    • Le calcul du nombre de sous-chaînes de pensée repose sur des mots-clés prédéfinis, et la liste des mots-clés peut devoir être adaptée à différents modèles afin de refléter fidèlement leurs schémas de pensée.
  • Champ d'application:
    • Les mesures actuelles sont principalement validées sur des ensembles de données de raisonnement mathématique, et leur efficacité dans d'autres scénarios tels que les quiz ouverts et la génération d'idées doit encore être testée.
    • théâtre DeepSeek-R1-Distill-Qwen-7B est basé sur un modèle mathématique de distillation de l'eau de mer. MATH-500 Il peut y avoir un avantage naturel dans la performance sur l'ensemble de données. Les résultats de l'évaluation doivent être interprétés dans le contexte du modèle.
  • Modèle d'adjudication dépendance:
    • token Le calcul de l'efficacité s'appuie sur le modèle du juge (JM) pour juger avec précision de la justesse des étapes du raisonnement. En tant que ProcessBench 4Comme l'indique l'étude, il s'agit d'une tâche difficile pour les modèles existants, qui nécessitent généralement des modèles très performants pour être à la hauteur.
    • Les erreurs de jugement dans le modèle d'arbitrage peuvent avoir un impact direct sur token Le choix du bon modèle d'arbitre est donc crucial.

En bref.EvalThink Un ensemble de cadres et de mesures permettant d'évaluer quantitativement l'efficacité de la pensée LLM est fourni, révélant les performances de différents modèles en termes de précision,token compromis entre la consommation et la profondeur de la réflexion. Ces résultats sont utiles pour guider la formation des modèles (par exemple, la formation de l'équipe de recherche). GRPO et SFT), il est instructif de développer des modèles de nouvelle génération plus efficaces et capables d'ajuster de manière adaptative la profondeur de la réflexion en fonction de la difficulté du problème.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...