《AI×SCIENCE十大前沿观察》5:复杂世界的多智能体建模
导语
上海科学智能研究院、集智科学研究中心和阿里云联合发布了《AI × Science十大前沿观察》,梳理出35个研究前沿,来推动科学发展的黄金时代到来。本篇为前沿观察5,扫描下方二维码,可获得完整版下载地址、快速链接论文原文。

复杂世界的多智能体建模
复杂世界的多智能体建模
背景介绍
过去几十年里,社会科学家和相关领域的研究者,一直致力于通过实证数据与模型揭示人类行为和智能社会运行的基本规律,试图找出隐藏在各种社会现象和治理痛点背后的因果机制,从而回答“是什么”、“为什么”、“如何治”等一系列问题。相对于传统实证主义方法的局限,基于多智能体的建模作为一种科学方法论在上世纪八九十年代被提出。科学家们围绕经济学等社会科学及工程领域广泛存在的复杂系统和复杂现象所开展的探索工作,如Joshua Epstein 等开发的糖域模型、Brain Arthur 领导开发的人工股票市场模型、Thomas Schelling 的居住隔离模型、Christopher Langton 的人工生命模型[1-4]等等,几乎都是在这一时期提出和发展起来的。其核心思想是借助于计算机平台,在一个人工搭建的虚拟环境中创建若干彼此之间以及与环境之间能够交互的主体(Agent),对现实个体行为与环境进行精细刻画,进而辅助研究者的直觉推理,实现从微观个体行动到宏观群体行为与决策效应/模式的低成本、高可控的探索性研究,揭示复杂系统的非线性、动态性和不确定性等重要特征[5-6]。
多智能体系统的建模方法经历了知识驱动的早期阶段和数据驱动的近期阶段[6-7]。前者倾向于依靠精心设计的带有规划、推理、决策过程的内部世界模型的框架来对现实世界进行仿真,导致很难对其内部世界模型和规划推理模块进行优化,也因此促进了数据驱动的“感知-反馈”式架构的发展。这种方法主要依赖于直接的感知-行动循环,而不是复杂的内部世界模型或深层推理过程来做出决策。虽然以深度学习为代表的人工智能技术促进了多智能体建模技术的发展,但仍然面临以下局限[7]:
-
单个智能体不具备处理长期复杂任务的能力。尽管在数据驱动的“感知-反馈”式架构支持下,智能体能够适应不同的环境变化,但在处理复杂特别是不确定的任务或需要长期规划的情况时可能受到限制。
-
智能体不具有通用能力。真实世界的复杂性、动态性与不确定性是多变的,目前在某一种环境中表现优异的智能体可能在另一种环境中完全无效。
-
多智能体建模方法无法支持对真实环境的综合模拟。一个实用的多智能体模型应该可以描述系统在已知条件下如何运行并对出现的现象具有解释能力,同时可以对开放环境进行观察并预测系统未来的状态。目前的建模方法只能实现二者其一的能力,不能兼而有之。
以大语言模型为代表的人工智能技术的出现,不仅增强了单个智能体在感知、决策、记忆、工具使用和自适应方面的能力,而且从群体层面提高了智能体的异质性、智能体间及与环境交互的场景复杂性与不确定性,以更好表征个体-群体的决策行为。这些能力共同促进了多智能体建模方法的跨越式发展[7-8]。
下边我们介绍三个用于社会科学领域的研究:1、EconAgent,构建了基于LLM的宏观经济复杂系统[9];2、AgentSociety 1.0,精确模拟了社会舆论传播、认知观点极化、公众政策响应等[11];3、RLLNC,提出了一种基于多智能体强化学习的模型驱动的去中心化优化方法,并应用于城市治理中的若干问题,为大规模复杂的真实复杂系统的逼真模拟和优化提供了可行技术手段[12]。
研究进展
研究进展
进展目录
基于LLM的多智能体系统研究宏观经济学
基于LLM的多智能体系统研究社会群体行为
基于多智能体系统的未来城市治理
基于LLM的多智能体系统研究宏观经济学
推荐理由:相较于以往的智能体,如今基于LLM的智能体能够表现出类人的决策模式。因而基于LLM的多智能体系统能模拟更符合实际的宏观经济系统,反映更真实的人类复杂经济行为。
现有的智能体建模宏观经济系统通常采用预定规则或基于学习的神经网络进行决策。前者面临的问题是不能对智能体进行个性化设计;后者则需要大规模行为数据对模型进行训练。此外,现有模型通常关注当前时期的个别宏观经济影响因子,多期市场动态和多方面宏观经济因素的影响在决策过程中往往被忽视。

基于LLM的多智能体系统模拟宏观经济系统,智能体能够依据财政、货币等宏观经济因子进行劳动和消费决策,并且能够基于记忆模块反思自己的行为。|来源:Nian Li, Chen Gao, Mingyu Li, Yong Li, and Qingmin Liao. 2024. EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15523–15536, Bangkok, Thailand. Association for Computational Linguistics.
为了解决上述问题,清华大学李勇团队首次提出一个具有人类特征的、由LLM赋能的智能体EconAgent,用于宏观经济模拟。他们搭建了一个包括100个智能体在长达20年时间内(模型以年为单位进行迭代)的工作与消费行为组成的动态市场仿真环境。其中,仿真环境随着智能体的行为以及财政与货币政策等宏观经济因子的变化而演化。每个智能体都是基于真实世界经济状况的目标画像进行建模的,因而系统中的智能体具有异构性,能够自动展现不同的决策机制。除了感知模块和行动模块外,模型还引入了记忆模块使智能体能够反思过去的个人经历和市场动态,从而反映宏观经济趋势变化对个体的影响。实验表明,基于大语言模型的多智能体系统能够更合理、稳定地模拟宏观经济系统,再现消费市场的通货膨胀、劳动力市场的失业率等经典宏观经济现象[9]。
基于LLM的多智能体系统研究社会群体行为
推荐理由:社会系统的本质在于其构成元素间的非线性涌现。相较于以往,基于智能体的社会群体行为模拟可以充分发挥大模型智能体自适应性、真实社会环境仿真能力与大规模模拟加速框架的技术优势,实现对社会复杂性的更真实还原。
基于多智能体的模拟在社会领域的研究中取得了一系列的成果[1-3, 9-10, 14-15, 17, 25 ]。但是,如何在保证模拟规模足够庞大以支持复杂性研究的同时,提升模拟的真实性,使其更贴近现实社会的运行逻辑,仍是亟待突破的重要方向。

基于LLM的AgentSociety 1.0整体框架,可精确模拟社会舆论传播、认知观点极化、公众政策响应等。|来源:AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv preprint arXiv:2502.08691
为了解决上述问题,清华大学李勇团队率充分发挥大模型智能体、真实社会环境仿真与大规模模拟加速框架的技术优势,结合智能社会治理的前沿理论与实践探索,成功构建了基于大模型的大型社会模拟器 AgentSociety1.0 版本,可精确模拟社会舆论传播、认知观点极化、公众政策响应等[11]。为了让智能体的行为更加贴近现实世界,团队将智能体设计分为三个层面:心智、心智-行为耦合和行为,并构建了一个高度真实、可交互的城市社会环境,支持移动、社交和经济活动等核心行为的模拟。与仅依赖大模型推理不同,团队构建的环境结合物理约束、社会规则和资源限制,以确保智能体的行为符合现实逻辑,避免大模型生成的“幻觉”影响。

基于LLM的AgentSociety 1.0大规模社会模拟引擎,结合LLM驱动的多智能体系统和真实城市社会环境,并系统架构上进行了深度优化,以确保模拟结果既具备现实合理性,又能大规模、高效运行。|来源:AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv preprint arXiv:2502.08691
大型社会模拟器通过数字化和虚拟化的方式,使研究者能够在无需进行实际实验的情况下,模拟并观察社会现象的变化过程,显著降低了研究的风险与成本。同时,模拟器能够在不同情境下进行多维度的数据采集和实验设计,克服传统研究因受限于时间、空间和资源等因素所带来的局限。团队提供可视化交互工具和智能社会治理研究工具箱,支持实时监测、主动干预和数据收集,助力社会研究和治理实验。
基于多智能体系统的未来城市治理
推荐理由:作为融合了人类活动、交通、医疗、电力、建筑环境等因素的复杂动态系统课题,城市科学的研究需要融合多领域、跨学科的方法。随着物联网技术和人工智能技术的发展,未来城市将会配备越来越多的传感器以及能够自主决策的边缘智能系统。因此,未来城市将是典型的大规模多智能体系统。
大规模多智能体系统面临的主要挑战在于其可扩展性和性能的平衡。传统的集中式多智能体方法在处理复杂任务时,往往需要大量的通信和数据采样,这不仅增加了系统的复杂性和成本,还可能导致性能的下降。此外随着系统规模的扩大,通信延迟和数据传输的瓶颈也变得更加明显。多智能体强化学习(MARL)通过将复杂任务分解并分配给多个协作节点,可以显著提高系统的可扩展性。但是,其在实际部署中的仍面临横向扩展能力受限、计算效率衰减等瓶颈。

大规模网络控制的强化学习(Reinforcement Learning for Large-scale Network Control,简称RLLNC)框架及其工作原理,以及与传统的中心化是的学习和基于模型的去中心化控制等框架的对比|来源:Ma, C., Li, A., Du, Y. et al. Efficient and scalable reinforcement learning for large-scale network control. Nat Mach Intell6, 1006–1020 (2024).
为了解决上述问题,北京大学杨耀东团队结合多智能体强化学习方法,提出了一种模型驱动的去中心化策略优化框架:RLLNC,对大规模多智能体系统进行了以智能体为单位的建模,将智能体之间的关系描述为一种拓扑连接结构下的网络化关系。其中包括线状、环状、网状等各种同构/异构节点,减少了多智能体系统对全局通信和大量交互数据的依赖,降低了系统决策复杂性[12]。此外,研究者还在框架中引入了分支回滚技术,通过采样先前策略的状态分布进行固定步数的回滚。实验表明,研究提出的去中心优化策略在车辆控制、疫情网络控制、电力控制等复杂系统的控制中都表现出良好的有效性和可扩展性。
目前,在交通[13]、城市规划[14]、公共卫生[15]等领域,如何利用多智能体强化学习技术实现未来城市中自主决策的边缘智能体更好协同,从而构建更高效、可持续的城市运行体系,已成为重点研究方向。未来,基于多智能体系统的未来城市研究与治理有望为人们提供更良好的生活环境。
挑战与展望
挑战与展望
如果多智能体系统能够对世界中的真实复杂系统进行模拟,那么,它不仅能够赋能城市规划[14]、公共卫生[15]、群体博弈[16-18]、教育[19]、未来战场[20]等领域的复杂系统研究,而且能够进一步推动多领域融合的跨学科研究,适应真实世界中系统的复杂性,满足人类可持续发展的重大需求。
因此,建议从以下几方面关注并推动未来多智能体系统的发展。首先,我们需要继续探索智能体的能力边界(特别是在一些不确定的场景与任务背景下[21-23]),包括实时感知与处理外部多模态信息并学习的能力、高效的信息整合与决策能力、任务拆解与调用工具的能力,甚至是具身执行任务与操作的能力。其次,在目前强化学习方法的基础上,在多智能体系统中引入博弈论,可以实现协同策略的动态优化,提升智能体在复杂博弈环境中的决策能力,优化协同作业的系统效率[6,24]。最后,我们需要支持开源。通过研究能够兼容异构智能体架构、支持实时扩展且具备安全合规保障的大规模节能多智能体系统架构,以支持多智能体之间以及多智能体与环境的复杂交互,从而实现真正的“斯坦福小镇”[25]。
参考文献
[1] Epstein, J. M., & Axtell, R. (1996). Growing Artificial Societies: Social Science from the Bottom Up. Brookings Institution Press.
https://direct.mit.edu/books/monograph/2503/Growing-Artificial-SocietiesSocial-Science-from
|
这是来自MIT出版社的一本书,是圣塔菲研究所(Santa Fe Institute)、世界资源研究所(World Resources Institute)和布鲁金斯学会(the Brookings Institution)的面向2050的联合项目。主要利用计算机模拟技术研究社会结构和群体行为如何从个体的相互作用中产生。其中“糖域模型”作为一种自下而上的社会科学研究范式,吸引了广泛关注。 |
[2] Arthur, W. B., Holland, J. H., LeBaron, B., Palmer, R., & Tayler, P. (1997). Asset pricing under endogenous expectations in an artificial stock market. The Economy as an Evolving Complex System II, 15, 15–44.
https://www.taylorfrancis.com/chapters/edit/10.1201/9780429496639-2/asset-pricing-endogenous-expectations-artificial-stock-market-brian-arthur-john-holland-blake-lebaron-richard-palmer-paul-tayler
|
这是来自CRC出版社的书籍《The Economy as an Evolving Complex System》的一部分,提出了一种基于异质智能体的资产定价理论。研究使用圣塔菲研究所(Santa Fe Institute)提出的人工股票市场模型。 |
[3] Schelling, Thomas C. “Dynamic models of segregation.” Journal of mathematical sociology 1.2 (1971): 143-186.
|
谢林提出的居住隔离模型 |
[4] Langton, Christopher G. “Studying artificial life with cellular automata.” Physica D: nonlinear phenomena 22.1-3 (1986): 120-149.
|
朗顿提出的人工生命模型 |
[5] Berry, Brian JL, L. Douglas Kiel, and Euel Elliott. “Adaptive agents, intelligence, and emergent human organization: Capturing complexity through agent-based modeling.” Proceedings of the National Academy of Sciences 99.suppl_3 (2002): 7187-7188.
|
2002年召开的主题为“适应性Agent,智能和人类组织的涌现:通过ABM刻画复杂性”的座谈会,在PNAS发表了专刊,此文为总结性文章 |
[6] Fatima, Shaheen, Nicholas R. Jennings, and Michael Wooldridge. “Learning to resolve social dilemmas: a survey.” Journal of Artificial Intelligence Research 79 (2024): 895-969.
|
这是三位研究多智能体系统的计算机科学家撰写的关于社会困境的一篇综述文章。系统综述了面临困境的个人如何根据过去的经验调整自己的行为来学会合作,并概述了三种学习方法。 |
[7] Gao, C., Lan, X., Li, N. et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives. Humanit Soc Sci Commun11, 1259 (2024).
|
清华大学利用课题组在以大语言模型为基础的多智能体建模研究中十分活跃,先后对基于多智能体的经济系统、城市系统进行了研究,并对领域发展进行了综述,将多智能体仿真分为物理世界、社会网络、赛博空间以及混合现实四种类型。 |
[8] Large Language Model based Multi-Agents: A Survey of Progress and Challenges, arXiv:2402.01680
|
这篇文献从多智能体建模框架、基准、任务解决能力、能力进化、世界仿真能力几个角度对基于大语言模型的多智能体建模相关的研究进行了系统的调研。 |
[9] Nian Li, Chen Gao, Mingyu Li, Yong Li, and Qingmin Liao. 2024. EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15523–15536, Bangkok, Thailand. Association for Computational Linguistics.
https://aclanthology.org/2024.acl-long.829/
|
这篇来自ACL会议的文章提出了搭建了一个包括100个智能体在长达20年时间内(模型以年为单位进行迭代)的工作与消费行为组成的动态市场仿真环境对宏观经济行为进行模拟。 |
[10] Gao, Chen, et al. S³: Social-network Simulation System with Large Language Model-Empowered Agents.” arXiv preprint arXiv:2307.14984 (2023).
https://arxiv.org/abs/2307.14984
|
这篇来自arxiv的预印文章实现了基于LLM的社会网络模拟系统S³。使用现实世界的数据实现了个体和群体两个模拟级别的评估。 |
[11] AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv, 2025
https://arxiv.org/abs/2502.08691
|
这篇来自arxiv的预印文章实现了基于LLM的AgentSociety 1.0,可精确模拟社会舆论传播、认知观点极化、公众政策响应等. |
[12] Ma, Chengdong, et al. “Efficient and scalable reinforcement learning for large-scale network control.” Nature Machine Intelligence (2024): 1-15.
https://www.nature.com/articles/s42256-024-00879-7
|
这篇来自Nature Machine Intelligence文章提出了一种模型驱动的去中心化策略优化框架:RLLNC。框架减少了智能体系统决策的复杂性,提升了系统的可扩展性。 |
[13] Noaeen, Mohammad, et al. “Reinforcement learning in urban network traffic signal control: A systematic literature review.” Expert Systems with Applications 199 (2022): 116830.
https://www.sciencedirect.com/science/article/pii/S0957417422002858
|
这篇来自Expert Systems with Application的文章综述了城市交通信号控制中强化学习的应用,涵盖了从1994到2020年的160篇同行评审的文章。 |
[14] Zheng, Yu, et al. “Spatial planning of urban communities via deep reinforcement learning.” Nature Computational Science 3.9 (2023): 748-762.
https://www.nature.com/articles/s43588-023-00503-5
|
这篇来自Nature Computational Science的文章基于15分钟城市的概念提出了一个深度强化学习算法模型,可以结合人工输入、机器学习辅助土地和道路空间规划的表现,进行复杂的城市空间规划,超越其他算法和专业人类设计师。 |
[15] Williams, Ross, et al. “Epidemic modeling with generative agents.” arXiv preprint arXiv:2307.04986 (2023).
https://arxiv.org/abs/2307.04986
|
这篇来自arxiv的预印文章基于大语言模型的多智能体系统模拟了传染病预警与传播,为公共卫生治理提供了更有效的解决方案。 |
[16] Kramár, János, et al. “Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy.” Nature Communications 13.1 (2022): 7214.
https://www.nature.com/articles/s41467-022-34473-5
|
这篇来自Nature Communication的文章给智能体系统中的个体引入了协商机制,从而研究个体间合作与背叛的条件。 |
[17] Koster, Raphael, et al. “Human-centred mechanism design with Democratic AI.” Nature Human Behaviour 6.10 (2022): 1398-1407.
https://www.nature.com/articles/s41562-022-01383-x
|
这篇来自Nature Human Behaviour的文章开发了民主AI模型,用于设计与验证符合大多数人利益的社会机制。 |
[18]Ashery, Ariel Flint, Luca Maria Aiello, and Andrea Baronchelli. “The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points.” arXiv preprint arXiv:2410.08948 (2024).
|
这篇来自arxiv的预印文章构建了基于LLM的多智能体系统研究了社会中观点的产生、传播机制,包括自发出现、集体偏见和临界点。 |
[19] Jiang, Yuan-Hao, et al. “AI Agent for Education: Von Neumann Multi-Agent System Framework.” Proceedings of the 28th Global Chinese Conference on Computers in Education (GCCCE 2024).
|
这篇来自GCCCE 的会议文章提出了面向教育的冯·诺伊曼多智能体系统框架。 |
[20] Huang, Jen-tse, et al. “On the Resilience of Multi-Agent Systems with Malicious Agents.” arXiv preprint arXiv:2408.00989 (2024).
https://arxiv.org/abs/2408.00989
|
这篇来自arxiv的预印文章提出了AUTOTRANSFORMER 和 AUTOINJECTION 两种方法为评估多智能体系统的安全性,以及提高面对恶意智能体时的弹性提供了方法。 |
[21] Feng, Yu, et al. “BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models.” arXiv preprint arXiv:2404.12494 (2024).
https://arxiv.org/abs/2404.12494
|
这篇来自arxiv的预印文章提出了基于贝叶斯推断的LLM-based智能体框架BIRD,提高智能体在面对不完整信息进行规划与决策时的能力。 |
[22] Liu, Ollie, et al. “DeLLMa: Decision Making Under Uncertainty with Large Language Models.” arXiv preprint arXiv:2402.02392 (2024).
https://arxiv.org/abs/2402.02392
|
这篇来自arxiv的预印文章提出了基于人类的决策理论与效用理论优化LLM-based智能体框架DeLLMa,通过优化智能体的推理过程在提高智能体在不确定环境中决策准确性。 |
[23] Han, Jiuzhou, Wray Buntine, and Ehsan Shareghi. “Towards Uncertainty-Aware Language Agent.” arXiv preprint arXiv:2401.14016 (2024).
https://arxiv.org/abs/2401.14016
|
这篇来自arxiv的预印文章在LLM-based智能体框架中加入了量化评估不确定性的模块,并通过寻求外部解决方案或者人类帮助来帮助智能体不断进行学习应对不确定性的能力。 |
[24]Hua W, Liu O, Li L, et al. Game-theoretic LLM: Agent Workflow for Negotiation Games[J]
|
这篇发表在的文章提出了博弈论工作流:将博弈论作为基础,以理性和帕累托最优性作为两大基本评估指标–即个体是否理性,以及是否基于个体理性得出全局最优解,旨在观察并提升智能体在以自我利益最大化为指导的交互中的表现。 |
[25] Park, Joon Sung, et al. “Generative agents: Interactive simulacra of human behavior.” Proceedings of the 36th annual acm symposium on user interface software and technology. 2023.
https://dl.acm.org/doi/abs/10.1145/3586183.3606763
|
这篇来自ACM会议的文章介绍了生成式智能体模拟人类行为,形成了一个由25个智能体组成的基于自然语言交互的小镇。初步探讨了基于大语言模型对人类行为模拟的架构和交互模式。 |
出品:漆远、吴力波、张江
运营:孟晋宇、王婷
撰稿:张江、杨燕青、王婷、王朝会、十三维、周莉、梁金、袁冰、江千月、刘志毅
鸣谢(按姓氏拼音顺序,排名不分先后):
曹风雷 、陈小杨 、程远、杜沅岂 、段郁、方榯楷 、付彦伟、 高悦、黄柯鑫、李昊、刘圣超、谭伟敏、吴泰霖、吴艳玲、向红军、张骥、张艳、朱思语

AI+Science 读书会
8. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募





