AGENTVERSE：促进多智能体协作和探索涌现行为（Agentverse: Facilitating multi-agent collaboration and exploring emergen）

论文题目：Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents
论文链接：https://arxiv.org/pdf/2308.10848

AGENTVERSE：促进多智能体协作和探索涌现行为

在人工智能的世界里，合作与协作是赋予智能体超越个体极限的神秘力量。正如我们在社会中观察到的那样，群体综合作用往往能迸发出惊人的智慧和能力。由此启发，研究人员们提出了一个多智能体框架：AGENTVERSE。这不仅仅是一个框架，它是一个宏大的宇宙，智能体们在这里学习如何协同作战，共同完成比单打独斗时更复杂的任务。

摘要

AGENTVERSE的骨架是建立在大型语言模型（LLMs）之上的。这些模型已经在各种任务上证明了自己的价值，但AGENTVERSE的诞生，是将这种能力推向了一个新的高度。在这个框架中，智能体不再是孤立的个体，它们被编织成一个网络，共同构成了一个比各自单独能力总和还要强大的系统。
系统架构：AGENTVERSE能够有效地指挥一群智能体，在诸如文本理解、推理、编码等领域，表现出了优于单个智能体的能力。这种群组智能的形成，彰显了工具利用和具身化人工智能的巨大潜力。
智能体间的协作行为：更深入的分析显示，AGENTVERSE不仅仅提高了任务效率，它还引导智能体之间涌现出了特定的协作行为。这是一种类似于人类在团队合作中产生的协同效应。智能体学会了如何更好地互动，以达到共同的目标，而这种互动又反过来提升了整个群体的效能。
开源代码: AGENTVERSE项目的代码已经公开发布在GitHub上，地址为：https://github.com/OpenBMB/AgentVerse/。感兴趣的研究者和开发者可以自由地访问和利用这些资源，以探索更多关于多智能体协作的可能性。

引言

本文将介绍AGENTVERSE，一个模拟人类团队解决问题流程的通用多代理框架，它不仅能动态调整团队成员，还能在一系列任务中展现出协作的力量。

AGENTVERSE框架的核心阶段

AGENTVERSE框架按照以下四个核心阶段进行操作：

专家招募：根据问题的当前进展，智能地调整代理组合，以确保有最合适的专家参与。
协作决策：选定的代理共同讨论，制定出解决问题的策略。
行动执行：代理根据策略与环境互动，执行必要的行动。
评估：比较当前状态与期望结果，不满意的话则反馈并提供下一轮迭代的改进方向。

如下图所示：
在这里插入图片描述

整个过程可以建模为马尔可夫决策过程（MDP），被描述为元组（S，A，T，R，G）。其中包括自主智能体和环境状态空间S，解决方案和行动空间A，转移函数T：S×A→S，奖励函数R以及目标空间G。

AGENTVERSE实验展示

本文设计了一系列实验，囊括了文本理解、推理、编码、工具使用和具体化智能等方面，以此来验证AGENTVERSE的有效性。实验结果表明，该框架能显著提升代理在这些领域的表现。

社会行为：多代理协作的优势与风险

AGENTVERSE的研究不仅仅停留在技术层面，还深入到代理的社会行为中。我们观察到代理在合作中表现出以下行为：

诱导行为：代理主动提供帮助，提升团队整体效率。
遵从行为：代理在批评下调整自己的行动，以保证与团队目标的一致性。
破坏性行为：在某些情况下，代理可能会导致不希望出现的结果，这提示我们在设计时需要考虑风险预防。

结论与贡献

AGENTVERSE框架是在多代理协作和人类团队协作过程之间架起了一座桥梁。我们的实验验证了其在多种智能任务处理上的有效性，并且通过观察代理的社会行为，我们更深刻地理解了合作中的机制和潜在风险。这项工作为构建更加智能和协作的多代理系统奠定了坚实的基础。

方法：

专家招募：AGENTVERSE中的关键

在AGENTVERSE框架中，专家招募阶段是至关重要的一环。这一阶段的设计灵感来源于人类团队中的多样性和专业分工原则，其目标是打造一个能力上限远超单一智能体的多智能体团队。

研究表明，人类团队的多样性为团队带来了各种观点，从而提高了处理不同任务的能力（Woolley et al., 2015; Phillips & O’Reilly, 1998）。在智能体领域，最新的研究同样发现，为智能体分配特定角色，类似于聚合各领域专家，能够大幅提升其整体效能（Li et al., 2023; Salewski et al., 2023; Qian et al., 2023）。

然而，目前分配智能体角色的方法多依赖于手动配置，这要求事先深入理解任务本身，在面对多变且复杂的问题时，这一方法的可扩展性变得存疑。

AGENTVERSE的创新之处在于，它引入了自动化的专家招募机制，极大地增加了智能体配置的灵活性和扩展性。具体来说，当设定了特定目标g ∈ G后，系统会激活一个特定的智能体M_r作为“招聘者”，这类似于我们熟悉的人力资源经理角色。值得注意的是，M_r并不依赖于预设的专家角色描述，而是基于目标g动态生成专家描述列表。随后，这些描述将用于激活不同的智能体，组成针对目标g的专家团队M = M_r(g)。

AGENTVERSE系统的一个显著特点是，多智能体团队的构成并不是固定不变的，而是会根据评估阶段的反馈进行动态调整。这种设计使得AGENTVERSE能够根据当前任务状态和反馈，匹配出最佳的智能体组合，为未来的决策和行动带来更精准的指导。

AGENTVERSE框架中的专家招募不仅提高了任务处理的效率，还为智能体系统赋予了前所未有的适应性和灵活性，是向更高层次智能迈进的关键一步。

协作决策：群体智慧中的沟通结构

在多智能体系统的协作决策环节，如何设计有效的沟通结构是提升群体决策质量的关键。早期研究已经展示了不同沟通结构对决策过程的深远影响（Chan et al., 2023; Zhang et al., 2023b; Wu et al., 2023）。本文主要探讨两种代表性的沟通模式：水平结构与垂直结构，并评估它们在不同场景下的适用性。

水平结构：集体智慧的体现

在一个水平结构中，代理人间的交流类似于民主讨论。每个代理人m_i负责分享和完善自己的决策a_mi。通过一个集成函数f，将这些个体决策综合起来，形成群体的集体决策A = f({a_mi}_i) ∈ A。这种函数可能采用各种算法，如概括、集成或投票等。水平结构特别适合于需要广泛咨询和工具多样性的场景，例如群体讨论和共识建立。

垂直结构：专业化与角色分工

与水平结构相对的是垂直结构，其特点是角色分明和分工明确。在这种结构中，存在一个核心代理人，称为求解器m*，负责提出初步决策a*0。其他代理人扮演评审者的角色，围绕这个初始决策提供反馈，推动求解器不断迭代改进，直至达成一致或完成既定的迭代轮数。最终的决策A被定义为A = a*k ∈ A，其中k代表迭代次数。垂直结构通常适用于像数学问题求解或软件开发这类问题，这些场景中往往需要一个精细化并不断优化的决策。

在多智能体系统的设计和实施中，合理选择沟通结构对于提升决策质量和效率至关重要。水平结构适合于需要集体智慧和广泛参与的情境，而垂直结构则适用于需要专业化知识和角色分工的复杂问题解决。通过对这两种结构的比较和理解，我们可以更好地设计出符合特定需求的多智能体决策系统。

动作执行：智能体如何在现实世界中落地决策

在决策阶段，智能体们共同构建了一个反映当前环境需求的决策集合A。随后，进入动作执行阶段，智能体们将这些共同决策的动作在实际环境中实施。根据系统设计的差异，某些智能体可能不参与动作的具体执行。动作的执行将导致环境状态从s_old转变为s_new = T(s_old, A)，其中T是环境转换函数。

动作执行的挑战与影响

动作执行阶段的设计必须考虑到动作如何被分配以及执行的同步性。此外，环境中不可预见的变化也可能对执行结果产生影响，需要智能体有应对突发状况的能力。

评估阶段：AGENTVERSE的进化引擎

评估阶段是AGENTVERSE框架中不可或缺的一环。在这个阶段，反馈机制R对新的状态s_new与预定目标g∈G之间的差异进行评估。该机制输出的反馈r = R(s_new, g)，不仅指出了当前的不足，而且提供了指导，帮助智能体团队提高其整体表现。反馈机制R可能由人类在交互式环境中提供，也可能由智能体自动产生，取决于系统设计。

评估反馈的循环利用

当目标g未被完全实现时，反馈r会被送回到专家招募阶段。这样形成了一个闭环学习过程，专家招募阶段会利用这一反馈与目标g进行调整，优化团队组成，以便在下一轮中形成一个更加高效的多智能体集合。

动作执行和评估阶段是多智能体系统中实现目标的关键步骤。通过精心设计的执行和反馈机制，智能体不仅能够在现实环境中实施决策，还能从执行结果中学习和适应，不断优化其行为以适应复杂多变的任务要求。这种动态调整和持续学习的能力，是构建高效可靠的多智能体系统的核心。

多智能体群体中的新兴行为分析

在探索智能体群体如何在复杂任务中共同决策的过程中，我们已经见证了AGENTVERSE框架带来的影响，尤其是针对基于GPT-4的智能体。超越基准数据集的性能提升，我们更加关注智能体在实际智能场景中表现出的协同行为。Justin等哥伦比亚大学学者（2021）深入分析了AI的核心要素，包括新兴AI（emergent AI），用户经常使用的用户代理（user agent）在场法以及设计工具等概念。

对新兴行为的观察

新兴行为的分类

通过分析智能体的决策过程，我们识别出了几种新兴行为，并将它们分类为三个主要类型：

志愿行为（Voluntary Behaviors）：智能体主动提供帮助或资源。
一致行为（Conformant Behaviors）：智能体之间的行动趋于一致，形成共识。
破坏性行为（Disruptive Behaviors）：智能体的行为可能对任务目标产生干扰。

志愿行为分析

在多智能体系统的研究中，我们发现智能体会展现出类似人类的志愿行为，即为了提升整体的协作效率而采取的自发行动。这些行为可以分为以下几类：

时间贡献

在我们的实验中，智能体表现出愿意投入额外的时间来优化任务执行效率。例如，在制作纸张的任务中，虽然Alice最初的计划是自己收集甘蔗，让Bob等待，但Bob意识到这样会浪费时间，因此建议同时采集甘蔗，以加速完成任务。

资源贡献

智能体愿意共享它们所拥有的资源。在需要制作纸张的任务中，Alice在收集完所有甘蔗后，主动提出将材料交给有工作台的Bob，这样Bob就可以立即开始制作纸张。

辅助贡献

当个别智能体完成了自己的子任务后，它们会主动帮助其他智能体完成其任务。这种互帮互助的行为显著提高了整体任务的解决速度。

多智能体系统中的顺从行为分析

顺从行为是个体为了与群体的规范或目标保持一致而调整自己的行为。在多智能体系统中，我们也观察到了这种行为。例如，当Charlie开始进行无关任务时，Alice和Bob及时提出批评，并使Charlie回归正轨，重新专注于共同目标。

多智能体系统中的破坏性行为分析

值得注意的是，智能体有时也会展示出可能影响效率的破坏性行为。例如，为了快速获取材料，智能体可能会伤害其他智能体或破坏环境。这种行为在实际应用中可能带来安全风险，需要在未来的研究中充分考虑如何通过设计策略来防止这种行为的发生。

本文的观察揭示了多智能体系统中的志愿行为、顺从行为和破坏性行为，这些发现不仅有助于我们理解智能体的协作机制，也对于设计更安全、更高效的多智能体系统具有重要意义。

完结！