AI 经济学家：从税收公平到新冠政策

导语

优化经济政策设计非常具有挑战性，因为无法完全捕捉现实世界的复杂性，而进行严格的现实世界实验的机会是有限的，并且伴随着道德问题。来自 Salesforce 研究院的科研团队利用人工智能技术提出了一个用于政策设计的两级深度强化学习框架——AI 经济学家（AI Economist），并将其应用于税收和应对新冠的经济政策研究。在该框架下，社会主体与政策制定者共同适应，可用于研究不同的政策目标和约束，并且随着 AI 驱动的模拟越来越复杂，它可能有助于解决现代经济政策设计的鸿沟。

集智俱乐部组织的「计算社会科学读书会」第二季已经启动报名，将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合，并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会6月18日开始，持续10-12周，详情见文末。

研究领域：计算社会科学，强化学习，多主体建模，政策优化

刘志航、Leo | 编译

邓一雪 | 编辑

论文题目：

The AI Economist: Taxation policy design via two-level deep multiagent reinforcement learning

论文链接：

https://www.science.org/doi/10.1126/sciadv.abk2607

经济上的不平等现象在全球范围内都在加剧，这一问题对经济机会、民众健康和社会福利带来的持续负面影响引发了人们的关注；同时，新冠疫情、气候变化等全球性事件的冲击对经济政策制定的及时性和时效性提出了挑战。这些挑战意味着政策制定者面临着公平与效率、居民健康与经济增长、发展生产与保护环境的权衡。因此，研究人员一直致力于寻找一种能促进平等并提升生产效率的政策设计工具。

Salesforce 研究院的科研团队提出了基于强化学习的 AI 经济学家（AI Economist）政策设计研究框架（图1），通过两级多主体模型，首次将强化学习引入了税收政策的设计中，仅需在模型和数据的基础上就可提供解决方案。AI 经济学家可以将收入平等与生产力提高之间的权衡关系改善16%。在关于设计应对新冠疫情政策的模拟中，AI 经济学家模拟平衡公共卫生和经济发展的政策，能将美国的死亡率降低50%。

此外，AI经济学家做出的决策在有人类参与的模拟中是有效的，与随机模型相比，平等与生产力之间的关系得以改善，同时提高了依收入加权的平均社会福利。这表明，利用人工智能方法可以改善真实的经济系统。

图1. AI Economist 框架将数据驱动的模拟与 AI 主体和政策制定者相结合，并使用两级强化学习优化他们的行为。

AI经济学家框架特点

模拟复杂的经济：建立与政策目标相关的正确经济过程。
适应真实数据：模拟以真实数据为基础。
使用多种政策杠杆：该框架可以包括不同类型的政策选择，如税收、补贴、封控等。强化学习可以优化任何类型的政策。
考虑到许多政策目标：政策设计者可以将任何感兴趣的指标纳入政策目标，这些指标不需要是分析性的或可区分的。
寻找战略平衡点：最佳政策会考虑经济主体如何应对（政策的变化）。
模仿人类的行为：经济主体的行为和反应与人类相似。
稳健：学习的策略性能对模拟和真实世界之间的差异具有鲁棒性。
解释决策：政策决定的因果因素是可解释的。
可执行性：政策的行为是简单和一致的，能适应现实世界。

‍‍‍‍‍‍‍‍‍‍‍‍‍

一、通过强化学习模拟税收环境

税收是政府进行财政转移支付、减少不平等现象的重要工具。许多研究表明，高收入的不平等都会对经济增长和就业机会带来负面的影响。虽然税收政策可以减弱不平等的影响，但完美的税收政策是难以实现的。因为经济理论模型无法模拟复杂的真实世界，而税收理论又依赖于难以验证的简单假设：比如说，税收对工作人数的影响；此外，想要在真实世界里进行税收实验也是不现实的。

税收的困境

重新分配收入以促进平等是政府的一项执政目标，因此政府也乐于通过税收来实现这一目标。不过较高的税收也会打击人们工作的积极性，特别是对于高收入人群而言，影响更大。如果能制定出最佳的税收政策，就可以在生产力与公平之间进行平衡。

图2. 税收对社会效用收益的影响示意图。左图：税收可以通过转移收入来改善平等。然而，因为税收会打击工作的积极性，也会降低生产力。AI 经济学家就试图在这个两个问题之间寻求一种平衡，而帕累托边界就是解决方案构成的集合。右图：税收对生产效率的影响（总收入，整体大方块的面积）和社会平等（内部小方块之间的大小差异）。在这样的实验中，AI 经济学家给出了最佳的解决方案。

加州大学伯克利分校经济学教授伊曼纽尔·赛斯（Emmanuel Saez）提出了一个著名的税收政策，并得出来一个简单的最优税收公式。然而，在这个公式中，人们需要知道劳动力对税率变化的反应（弹性），并作出诸多假设——比如说，经济形势静态不变，工人只具备已有的技能。其他的研究工作包含了动态的经济系统，但仍需要对假设进行简化才能进行分析。进一步的研究工作请参阅作者的补充材料。

将经济模拟作为学习环境

AI 经济学家使用了两级的强化学习框架（模拟主体和税收政策），在有规则的经济模拟中来学习动态的税收政策。该框架并不适用人们预先知道的世界知识和假设，而是直接优化任何经济目标，并从中观察学习。

该模拟选择的是一个二维的平面世界。其中包含了两种类型的资源：木材和石头。资源是稀缺的，只能以有限的速度产出。工人可以走动采集、交易资源，通过建造房屋获得收益，这其中的成本就是木材、石材的消耗。而房屋又会影响通行，玩家无法通过别人建造的房屋。这样的一个游戏就模拟了类似于职业生涯的经济发展。

图3. 左图：在图中的经济模拟中，四个主体收集并交易资源、建造房屋进而获得收益。右图：财富分配不均。圆盘的大小表示生产力总值，而颜色表示每个主体的占比。公平与生产力之间的权衡分数是通过二者的乘积来衡量的。

另外一个值得注意的问题是，工人的技术能力并不相同，技术水平高的工人能建造更实用的房屋，因此能获得更高的效用收益。但是盖房子期间要付出的劳作也会降低效用。此外，工人也要课税，收缴上来的税款会在工人间进行二次分配。多种因素的叠加，就使得工人必须有所谋划才能让自己的效用最大化。

专业化的涌现

当参与这个游戏的主体是由人工智能控制的时候，AI去学习如何使得自身效用最大化的过程会带来更加丰富的实验结果。该模型的一个特点就是专业化的涌现，劳动技能不强的主体会成为交易商贩、“倒爷”，通过买卖建材盈利。而劳动技能强的主体则会直接购买建材，以便于更快地建造房屋。

图4. 上图：单次游戏的模拟场景。中图：劳动技能强的主体通过更多的房屋建造以获得更高的收入。下图：参与模拟游戏的主体会在游戏过程中互相交易，向上的柱状图表示的是出售资源，向下的柱状图则表示购买资源。

研究人员并没有直接干预角色及其行为。这种专业分工分化的出现是因为参与游戏的主体学会了去平衡他们的付出与收益。这也体现了经济模拟实验的丰富内涵。虽然之前已有通过主体模拟进行经济学研究的工作成果，但大多没有从人工智能领域的发展中受益。

两级强化学习

当劳动者和政策的制定者都在学习的时候，寻找最佳税收就是一个两级强化学习模型。

在内部循环中，自利的工人从事劳动，获得收入并缴纳税款。他们通过反复的学习实验，以调整自己的行为，当自己的效用收益最大化。在给定税收政策的情况下，这是一个有固定目标的多主体强化学习问题。

在外部循环中，政策制定者会调整税收政策以优化社会目标。这样就形成了一个非固定的学习任务，在这样的学习任务中，主体需要不断地调整目标。换言之，因为相同类型和劳动数量的税后收入会随时间变化，因此主体过去最优的决策，现在就可能不再是最优的。

这种两级学习问题带来了技术上的挑战，因为主体的行为变化和税收政策的变化同时发生，会导致不稳定的学习行为。利用课程学习和熵正则化等技术，可以实现稳定的收敛。这些技术都涵盖在了本篇论文中。

图5. 两级强化学习模型：一个由劳动主体和政策制定者共同组成的学习框架。主体面临着一个不稳定的学习问题。政策制定者会改变税收，并影响到主体的税后实际收入。因此，对于相同的工作量，随着时间的推移，主体的效用也不相同，因此他们需要调整优化行为以实现效用的最大化。

二、AI经济学家改善生产力与公平的关系

强化学习方法产生的动态税收政策，在改善了生产力与公平之间的关系方面产生了比随机方法更好的结果。

定期所得税

研究人员对AI经济学家给出的政策和以下政策进行了对比：

没有税收与再分配的自由市场
折算后的美国2008年联邦税率（边际税收随收入增加而增加的累进税率）
伊曼纽尔·赛斯（Emmanuel Saez）提出的税收政策（边际税率随着收入的增加而降低）

所有的税收方案都区分了7个收入档次，只是税率有所不同，将每个档次的税款相加，就是总纳税额。模拟实验中设计了10个时间长度相同的税收周期。每一周期，主体与环境互动获得收入，并缴纳税款。而后税款会进行二次分配重新分配给别人，AI经济学家的税收政策允许税率表在不同的时期进行变化。在设定的模拟环境中，每个阶层的收入比例和美国真实的比例相一致。

用 AI 经济学家改善经济

经过该实验表明，与Saez的税收政策相比，AI税收政策为公平与效率问题带来了16%的改进。与自由市场相比，该模型在生产效率下降11%的情况下，将公平性提升了47%。

图6. AI经济主体的社会收益。生产效率（左图，越高越好）衡量的一个模拟周期内生产带来的总收入（类似于GDP），相比较于自由市场，征税会导致生产力下降，但是在AI经济学家的指导下，生产力的损失降到了最小，收入公平（中图，越高越好）表现最好。二者的乘积（右图）则遥遥领先。（图中的黑线是标准差）

图7. 不同税收政策：Saez税收政策（上）、AI经济学家给出的方案（中）和自由市场（下）的模拟比较。AI经济学家给出的方案对效率与公平给出了最好的平衡。

转移支付与税收影响

与参考政策相比，AI经济学家的特点是税收政策结构更加特殊：混合了累进和累退的税率表。最高税率较高（收入高于510的部分），在160-510区间税收更低，而对于低于160的部分也有税率的高低变化。

图8. 左图：不同收入水平的总交税额度，在AI和Saez税收政策中，总税额最初增长较快，但在高收入中增长较慢。右图：税率表比较，边际税率表示，每增加一枚硬币收入要缴纳多少税款。

在这个方案中，所征收到的税款会在主体间平均分配。也就意味着，即便低收入者的税率较高，但也能获得补贴。总之，与参考方案相比，这个税收政策中最低收入者的税负更低。

图9. 税收和补贴后的转移支付。低收入群体能得到净补贴

论文作者还观察到，在Saez税收政策下，采集者和售卖者收集的资源比AI主体要少。这也就会迫使买卖双方自己花费更多的时间去收集资源，也就减低了他们的生产效率。而Saez税收政策的再分配对公平问题的解决效果也更低，总之，Saez税收政策对效率与公平权衡能力更差。

平等与效率的改善

在有人类参与的实验中，AI经济学家才采用了驼峰式税率表（Camelback Tax Schedule）。研究人员从 Amazon Mechanical Turk 上招募了志愿者，并将结果与参考政策进行了比较。

图10. 无论是模拟实验还是真人参与的实验，驼峰式税率表都表现良好。在这种税收模式中，我们会看到税率的上升与下降。

在有100多名美国人参与的125次实验中，驼峰式税率表实现了效率与公平的权衡。这一结果明明显优于自由市场政策等其他参考政策。参与者每小时能获得超过20美元的报酬。人类参与者更容易出现对抗性的竞争——这加大了生产力的差异。

图11. 在人类参与下，Saez（上）、AI经济学家（中）与自由市场（下）三种政策的比较。AI经济学家的结果要优于其他的政策。

有趣的是，虽然驼峰式政策方案优于参考方案，但是在只有AI或者只有人类的实验中，驼峰式方案表现一致。

图12. 有人类参与实验的社会收益。AI经济学家实现了效率与平等的权衡。其结果可以与美国联邦税收制度和Saez政策相抗衡，并在统计学意义上显著超过了自由市场政策。图中黑线是标准差，因为人类引入了竞争封锁行为，导致生产力差异更大。

三、AI经济学家设计应对新冠的政策

为了推广该框架，作者还展示了根据 COVID-19 的数据，将这一框架应用于设计新冠疫情的应对政策，以美国为案例，用强化学习训练各州和联邦的政策。

在该案例中，每个州和联邦政府都需要平衡公共卫生和经济以提高社会福利。社会福利是两个指数的（加权）组合。一个是健康指数，它随着死亡人数的增加而减少；另一个经济指数，跟踪国内生产总值（GDP）、失业和联邦补贴。为了进行公平的比较，首先确定现实世界的政策在哪种健康优先级方面实现了最高的社会福利。然后对人工智能政策进行训练，使其达到相同的社会福利目标。

图12. 主体的互动方式框架。

AI 政策降低死亡率

与2020年3月至2021年4月期间实施的现实世界政策相比，人工智能政策可以“拉平曲线”，使死亡人数减少50%，而日均失业率增加1%。该框架还预测，在这些有人工智能信息的政策下，死亡人数将保持大幅降低，而失业率可能暂时升高，但预测会迅速恢复到正常水平。

图13. 由上往下分别为确诊、死亡和失业的人数。绿线：模拟的 AI 策略，粉线：真实世界的数据，黄线：模拟的现实世界政策

AI 政策可以更严格，补贴更少

严格程度概括了现实世界的国家政策，如限制室内用餐。一个国家越严格（例如，也限制户外用餐或关闭学校），其严格程度就越高。与现实世界相比，人工智能政策的严格程度平均高出5%。人工智能政策在早期通过设置高的严格程度来遏制感染，然后逐渐降低严格程度。一旦开始接种疫苗，人工智能政策就能更快地降低严格程度。

联邦政府通过直接付款等政策对公民进行补贴。人工智能政策平均只需要大约360亿美元的补贴。

AI 经济学家的框架是灵活的。人工智能政策可以为任何一组优先事项进行训练，以驾驭大流行病造成的健康和经济之间的复杂关系。当各州优先考虑健康时，健康指数的提高是以经济指数为代价的。当联邦政府优先考虑健康问题时，它倾向于花费更多的补贴来帮助各州在停工期间的经济，这导致了更高的健康指数。

补贴驱动的停工对联邦政府来说有很高的经济成本，因为联邦政府为补贴提供资金。另一方面，补贴增加了州一级的经济指数。

联邦政府的补贴策略不仅仅取决于它自己的政策重点，也取决于各州对补贴的反应。这种反应随着各州自己的优先事项而变化。人工智能政策非常适合于驾驭这些复杂的相互依赖关系。

四、展望

AI 经济学家证明，使用强化学习和有原则的经济模拟进行经济政策设计是合理、可行、灵活和有效的。它提出了一个令人兴奋的研究议程：使用人工智能实现经济设计的新方法。AI 经济学家框架可用于研究不同的政策目标和约束，并且随着 AI 驱动的模拟越来越复杂，它可能有助于解决现代经济鸿沟。特别是，人工智能驱动的模拟使经济政策能够在比分析方法可用的环境更现实的环境中进行测试，并在验证政策建议中的假设和评估来自经济理论的想法方面显示出前景。然而，这些结果只是第一步，还没有准备好作为现实世界的政策实施。

未来的研究可以扩大 AI 驱动的模拟并将其校准为真实世界的数据，同时学习可解释且对模拟与现实之间的差距具有鲁棒性的 AI 策略。除了强化学习训练之外，人们还可以收集行为数据并使用领域专业知识来约束或校准政策，以创建更现实的人类行为模型和可行的政府政策。设计包含不同社会价值观并代表社会不同部分的模拟是未来工作的另一个重要方向。

尽管当前版本的 AI 经济学家仅提供了对现实世界的有限表示，但我们认识到可以操纵 AI 经济学家的未来大规模迭代以增加不平等并将这种行为隐藏在 AI 的结果后面系统。此外，出于无知或恶意，非代表性的模拟环境可能会导致有偏见的政策建议。例如，培训数据中社区和劳动力群体的代表性不足可能会导致人工智能驱动的税收模型存在偏见。

论文作者鼓励任何人发表关于AI经济学家的伦理约束要求、数据表。并以此增进系统的通明度，提高系统的可信度。

原文：

https://blog.einstein.ai/the-ai-economist/

https://www.salesforceairesearch.com/covid19_sim/index.html

计算社会科学读书会第二季

计算社会科学作为一个新兴交叉领域，越来越多地在应对新冠疫情、舆论传播、社会治理、城市发展、组织管理等社会问题和社科议题中发挥作用，大大丰富了我们对社会经济复杂系统的理解。相比于传统社会科学研究，计算社会科学广泛采用了计算范式和复杂系统视角，因而与计算机仿真、大数据、人工智能、统计物理等领域的前沿方法密切结合。为了进一步梳理计算社会科学中的各类模型方法，推动研究创新，集智俱乐部发起了计算社会科学系列读书会。

新一季【计算社会科学读书会】由清华大学罗家德教授领衔，卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起，自2022年6月18日开始，持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合，并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末，欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。

详情请见：

数据与计算前沿方法整合：计算社会科学读书会第二季启动

推荐阅读

点击“阅读原文”，报名读书会