为何多智能体协作系统更容易出错？

2.3K 00

导言

近年来，多智能体系统（MAS）在人工智能领域引起了广泛关注。这些系统通过多个大语言模型（LLM）智能体的协作，试图解决复杂的、多步骤的任务。然而，尽管人们对 MAS 充满期待，其在实际应用中的表现却不尽如人意。与单智能体框架相比，MAS 在各类基准测试中的性能提升微乎其微。为了深入探究这一现象背后的原因，一项由Mert Cemri等人主导的全面研究应运而生。

研究背景与目标

该研究旨在揭示阻碍MAS有效性的关键挑战。研究团队分析了五种流行的MAS框架，涵盖超过150项任务，并邀请了六位专家进行人工标注。通过对150多个对话轨迹的深入分析，研究团队识别出14种独特的失败模式，并提出了一个适用于各种MAS框架的全面分类法——多智能体系统失败分类法（MASFT）。

主要发现

1. 失败模式的分类

MASFT将智能体执行过程划分为三个阶段：预执行、执行和后执行，并识别出每个阶段可能出现的细粒度失败模式。这些失败模式被归类为以下三大类：

规范与系统设计失败：包括系统架构设计缺陷、对话管理不当、任务规范不明确或违反约束，以及对智能体角色和职责的定义或遵循不足。例如，ChatDev在执行国际象棋游戏任务时，未能正确理解用户输入，导致生成的游戏不符合初始要求。
智能体间错位：涵盖无效沟通、协作不畅、智能体之间行为冲突，以及逐渐偏离初始任务。例如，在ChatDev创建类似Wordle游戏的过程中，程序员智能体与多个角色进行了七轮对话，但未能更新初始代码，导致生成的游戏缺乏可玩性。
任务验证与终止：涉及执行提前终止，以及缺乏确保交互、决策和结果准确性、完整性和可靠性的机制。例如，在ChatDev的国际象棋游戏实现场景中，验证智能体仅检查代码是否编译，而未运行程序或确保其符合国际象棋规则。

2. 失败模式分析

研究团队发现，MAS的失败并非单一原因所致，而是多种因素共同作用的结果。以下是一些关键发现：

规范与系统设计失败和智能体间错位是导致MAS失败的主要原因。这表明，MAS的架构设计和智能体之间的交互机制需要进一步优化。
不同MAS框架在失败模式分布上存在显著差异。例如，AG2在智能体间错位方面的失败案例较少，但在规范和验证问题上表现不佳；而ChatDev在验证问题上的失败案例较少，但在规范和智能体间错位方面面临更多挑战。这些差异源于不同的系统拓扑设计、通信协议和交互管理方式。
验证机制在MAS中扮演着至关重要的角色，但并非所有失败都可以归咎于验证不足。其他因素，如规范不明确、设计不当和沟通效率低下，也是导致失败的重要因素。