AI经济学家：强化学习如何促进市场平等并提升生产效率

导语

政府收缴的税款可用于维系社会发展、维护社会公平。而面对日新月异的创新经济和层出不穷的避税手段，通过传统的经济学手段恐怕难以构建出更加完善的税收制度。来自 Salesforce 研究院的科研团队利用人工智能技术实现了一个可以自动提供税收政策的AI经济学家，并在实验中发现人工智能提供的政策要优于以往现行的税收政策。

集智俱乐部正在以「企业建模与发展预测」为主题组织为期2-3个月的读书会，探讨复杂科学与企业研究的结合，研读相关论文，激发科研灵感。经济系统建模是读书会探讨的课题之一。欢迎从事复杂系统技术研究、对企业发展问题感兴趣的朋友参加，详情见文末。

Stephan Zheng, Alexander Trott, Sunil Srinivasa等 | 作者

Leo | 翻译

赵雨亭 | 审校

邓一雪 | 编辑

经济上的不平等现象在全球范围内都在加剧，这一问题对经济机会、民众健康和社会福利带来的持续负面影响引发了人们的关注；同时，税收是政府进行财政转移支付、减少不平等现象的重要工具。研究人员一直致力于寻找一种能促进平等并提升生产效率的工具。人工智能经济学首次将强化学习引入了税收政策的设计中，仅需在模型和数据的基础上就可提供解决方案。
AI经济学家使用了两级的强化学习框架（模拟主体和税收政策），在有规则的经济模拟中来学习动态的税收政策。该框架并不适用人们预先知道的世界知识和假设，而是直接优化任何经济目标，并从中观察学习。
与 Emmanuel Saez 提出的税收政策相比，报道中的AI经济学家可以将收入平等与生产力提高之间的权衡关系改善16%。与美国现有的联邦税收制度与自由市场体质相比，AI 能让政府获得更大的收益。
在不依赖于税收表的情况下，AI经济学家所使用的税收表与随机模型并不相同：最高税收税率被提高，而中等收入的税率下降。而且面对新的避税博弈，这一税收方案的表现也是最稳定的。
此外，AI经济学家做出的决策在有人类参与的模拟中是有效的，与随机模型相比，平等与生产力之间的关系得以改善，同时提高了依收入加权的平均社会福利。这表明，利用人工智能方法可以改善真实的经济系统。
研究人员希望，AI经济学家可以用于研究真实世界的经济运作规律，这个问题的复杂程度是传统的研究方法所无法解决的。他们相信，机器学习与经济学的交集会发展出吸引人的研究方向，并对社会带来影响。

1. 强化学习以造福社会

我们的工作涵盖了强化学习的最新进展。强化学习已经在竞技类游戏中战胜人类——例如围棋、Dota和星际争霸。在这些项目中，深度学习的目标是对抗-击败对手。同时，机器学习算法也可以被用于设计拍卖规则。在这项工作中，由人工智能设计的最优税收政策可以促进社会福利。

2. 最佳税收设计挑战

许多研究表明，高收入的不平等都会对经济增长和就业机会带来负面的影响。虽然税收政策可以减弱不平等的影响，但完美的税收政策是难以实现的：因为经济理论模型无法模拟复杂的真实世界，而税收理论又依赖于难以验证的简单假设：比如说，税收对工作人数的影响；此外，想要在真实世界里进行税收实验也是不现实的。

3. 收入、劳动、技能和效用的经济模型

经典的税收理论关注于那些通过付出劳动获得收入的人。虽然劳动者获得的效用来自于收入，但在有些时候，付出更多的劳动并不能带来更高的效用收益。比如，周末加班能挣到更多的钱，但也许并不值得牺牲休息去多挣钱。

税收理论的一个假设是，工人的技能水平不同，能力低的工人薪水较低，因此在同样的工时下，高水平的工人获得更高的收益导致了不平等。

4. 中央税收的困境

重新分配收入以促进平等是政府的一项执政目标，因此政府也乐于通过税收来实现这一目标。不过较高的税收也会打击人们工作的积极性，特别是对于高收入人群而言，影响更大。如果能制定出最佳的税收政策，就可以在生产力与公平之间进行平衡。

图1. 税收对社会效用收益的影响示意图。左图：税收可以通过转移收入来改善平等。然而，因为税收会打击工作的积极性，也会降低生产力。AI经济学家就试图在这个两个问题之间寻求一种平衡，而帕累托边界就是解决方案构成的集合。右图：税收对生产效率的影响（总收入，整体大方块的面积）和社会平等（内部小方块之间的大小差异）。在这样的实验中，AI经济学家给出了最佳的解决方案。

加州大学伯克利分校经济学教授伊曼纽尔·赛斯（Emmanuel Saez）提出了一个著名的税收政策，并得出来一个简单的最优税收公式。然而，在这个公式中，人们需要知道劳动力对税率变化的反应（弹性），并作出诸多假设——比如说，经济形势静态不变，工人只具备已有的技能。其他的研究工作包含了动态的经济系统，但仍需要对假设进行简化才能进行分析。进一步的研究工作请参阅作者的补充材料。

5. 将经济模拟作为学习环境

AI经济学家是通过纯模拟和数据驱动的方法研究经济，并设计最优的税收政策。在这个有规则的经济模拟中，包含了参加劳动的工人和税收政策的制定者。所有的参与主体都在利用强化学习来进行集体学习。

‍

图2. 左图：在图中的经济模拟中，四个主体收集并交易资源、建造房屋进而获得收益。右图：财富分配不均。圆盘的大小表示生产力总值，而颜色自表示每个主体的占比。公平与生产力之间的权衡分数是通过二者的乘积来衡量的。

采集、交易与建设

该模拟选择的是一个二维的平面世界。其中包含了两种类型的资源：木材和石头。资源是稀缺的，只能以有限的速出产出。工人可以走动采集、交易资源，通过建造房屋获得收益，这其中的成本就是木材、石材的消耗。而房屋又会影响通行，玩家无法通过别人建造的房屋。这样的一个游戏就模拟了类似于职业生涯的经济发展。

技能与效用

另外一个值得注意的问题是，工人的技术能力并不相同，技术水平高的工人能建造更实用的房屋，因此能获得更高的效用收益。但是盖房子期间要付出的劳作也会降低效用。此外，工人也要课税，收缴上来的税款会在工人间进行二次分配。多种因素的叠加，就使得工人必须有所谋划才能让自己的效用最大化。

专业分化

当参与这个游戏的主体是由人工智能控制的时候，AI去学习如何使得自身效用最大化的过程会带来更加丰富的实验结果。该模型的一个特点就是专业分化，劳动技能不强的主体会成为交易商贩、“倒爷”，通过买卖建材盈利。而劳动技能强的主体则会直接购买建材，以便于更快地建造房屋。

图3. 上图：单次游戏的模拟场景。中图：劳动技能强的主体通过更多的房屋建造以获得更高的收入。下图：参与模拟游戏的主体会在游戏过程中互相交易，向上的柱状图表示的是出售资源，向下的柱状图则表示购买资源。

研究人员并没有直接干预角色及其行为。这种专业分工分化的出现是因为参与游戏的主体学会了去平衡他们的付出与收益。这也体现了经济模拟实验的丰富内涵。虽然之前已有通过主体模拟进行经济学研究的工作成果，但大多没有从人工智能领域的发展中受益。

6. 利用强化学习

把最优税收设计视为学习的奖励

强化学习是一个功能强大的学习框架，主体通过反复的学习以收集经验。在本篇论文中，研究人员使用的是无模型的强化学习框架，也就是说主体在学习的时候不参考已有的经验与知识。而强化学习的另一个优点就是可以针对任何目标进行优化。

这样 AI 就可以去学习任何目标、社会政策，而无需了解具体的劳动技能与效用回报。

图4. 两级强化学习模型：一个由劳动主体和政策制定者共同组成的学习框架。主体面临着一个不稳定的学习问题。政策制定者会改变税收，并影响到主体的税后实际收入。因此，对于相同的工作量，随着时间的推移，主体的效用也不相同，因此他们需要调整优化行为以实现效用的最大化。

当劳动者和政策的制定者都在学习的时候，寻找最佳税收就是一个两级强化学习模型。

在内部循环中，自利的工人从事劳动，获得收入并缴纳税款。他们通过反复的学习实验，以调整自己的行为，当自己的效用收益最大化。在给定税收政策的情况下，这是一个有固定目标的多主体强化学习问题。
在外部循环中，政策制定者会调整税收政策以优化社会目标。这样就形成了一个非固定的学习任务，在这样的学习任务中，主体需要不断地调整目标。
换言之，因为相同类型和劳动数量的税后收入会随时间变化，因此主体过去最优的决策，现在就可能不再是最优的。

这种两级学习问题带来了技术上的挑战，因为主体的行为变化和税收政策的变化同时发生，会导致不稳定的学习行为。利用课程学习和熵正则化等技术，可以实现稳定的收敛。这些技术都涵盖在了本篇论文中。

7. AI驱动的税收政策

改善了生产力与公平之间的关系

强化学习方法产生的动态税收政策，在改善了生产力与公平之间的关系方面产生了比随机方法更好的结果。

定期所得税

研究人员对AI经济学家给出的政策和以下政策进行了对比：

没有税收与再分配的自由市场
折算后的美国2008年联邦税率（边际税收随收入增加而增加的累进税率）
伊曼纽尔·赛斯（Emmanuel Saez）提出的税收政策（边际税率随着收入的增加而降低）

所有的税收方案都区分了7个收入档次，只是税率有所不同，将每个档次的税款相加，就是总纳税额。

模拟实验中设计了10个时间长度相同的税收周期。每一周期，主体与环境互动获得收入，并缴纳税款。而后税款会进行二次分配重新分配给别人，AI经济学家的税收政策允许税率表在不同的时期进行变化。

在设定的模拟环境中，每个阶层的收入比例和美国真实的比例相一致。

用AI经济学家改善经济

经过该实验表明，与Saez的税收政策相比，AI税收政策为公平与效率问题带来了16%的改进。与自由市场相比，该模型在生产效率下降11%的情况下，将公平性提升了47%。

图5. AI经济主体的社会收益。生产效率（左图，越高越好）衡量的一个模拟周期内生产带来的总收入（类似于GDP），相比较于自由市场，征税会导致生产力下降，但是在AI经济学家的指导下，生产力的损失降到了最小，收入公平（中图，越高越好）表现最好。二者的乘积（右图）则遥遥领先。（图中的黑线是标准差）

图6. 不同税收政策：Saez税收政策（上）、AI经济学家给出的方案（中）和自由市场（下）的模拟比较。AI经济学家给出的方案对效率与公平给出了最好的平衡。

转移支付与税收影响

与参考政策相比，AI经济学家的特点是税收政策结构更加特殊：混合了累进和累退的税率表。最高税率较高（收入高于510的部分），在160-510区间税收更低，而对于低于160的部分也有税率的高低变化。

图7. 左图：不同收入水平的总交税额度，在AI和Saez税收政策中，总税额最初增长较快，但在高收入中增长较慢。右图：税率表比较，边际税率表示，每增加一枚硬币收入要缴纳多少税款。

在这个方案中，所征收到的税款会在主体间平均分配。也就意味着，即便低收入者的税率较高，但也能获得补贴。总之，与参考方案相比，这个税收政策中最低收入者的税负更低。

图8. 税收和补贴后的转移支付。低收入群体能得到净补贴。

论文作者还观察到，在Saez税收政策下，采集者和售卖者收集的资源比AI主体要少。这也就会迫使买卖双方自己花费更多的时间去收集资源，也就减低了他们的生产效率。而Saez税收政策的再分配对公平问题的解决效果也更低，总之，Saez税收政策对效率与公平权衡能力更差。

对抗税收博弈策略的稳健性

制定税收政策的难点在于，市场上的主体可以和规则博弈。在本篇模拟实验中，税收对象学会了用交替赚取高低不同的收入替代稳定的“死工资”，并以此来平衡税收。这样的收益组合出现在了Saez和AI税收政策下，因为这里两种税收政策是递减的。研究表明，即便是在博弈对抗的环境中，该税收政策也是有效的。这也表明仿真实验的丰富性。

图9. 每一模拟周期中的收入与税收，可以看到不同时期的收入相差很大，左图显示了熟练工人的每期收入与假想收入的对比。右图是交税对比图。

人工智能驱动的税收政策与真实场景

研究人员也探索了在有人参与的实验中，AI经济学家是否依旧有效。为了让实验容易上手，他们简化了实验规则，比如，去除了交易规则。参与者会因为他们建造的房屋而赚取真实的收入，从而参与者会最大化他们的收入。而本试验的报酬也够高——平均收入达到美国最低工资的两倍。因为如果要重新训练税收政策模型需要大量的人类数据，所以研究人员通过零次学习（zero-shot transfer learning）训练了所有模型，同时在没有重新训练的情况下测试了所有的税收政策模型。唯一的改动在于，因为和机器人相比，人类的生产力较低，所以本项研究把收入等级缩小到三分之一。具体细节请参见论文。

图10. AI主体（上）和人类参与者（下）的行为比较。人类似乎容易出现对抗性行为，比如，深蓝色的工人通过建造房屋封锁了一个象限，以此阻止别人获取资源。

驼峰式税率表带来了平等与效率关系的改善

在有人类参与的实验中，AI经济学家才采用了驼峰式税率表（Camelback Tax Schedule）。研究人员从 Amazon Mechanical Turk 上招募了志愿者，并将结果与参考政策进行了比较。

图11. 无论是模拟实验还是真人参与的实验，驼峰式税率表都表现良好。在这种税收模式中，我们会看到税率的上升与下降。

在有100多名美国人参与的125次实验中，驼峰式税率表实现了对效率与公平权衡。这一结果明明显优于自由市场政策等其他参考政策。参与者每小时能获得超过20美元的报酬。人类参与者更容易出现对抗性的竞争——这加大了生产力的差异。

图12. 在人类参与下，Saez（上）、AI经济学家（中）与自由市场（下）三种政策的比较。AI经济学家的结果要优于其他的政策。

虽然，驼峰式政策方案优于参考方案，但是在只有AI或者只有人类的实验中，驼峰式方案表现一致。

图13. 有人类参与实验的社会收益。AI经济学家实现了效率与平等的权衡。其结果可以与美国联邦税收制度和Saez政策相抗衡，并在统计学意义上显著超过了自由市场政策。图中黑线是标准差，因为人类引入了竞争封锁行为，导致生产力差异更大。

加权社会福利显著提高

对于更关照低收入群体的逆向加权社会福利而言，驼峰式方案也优于参考方案。

图14. 有人类参与实验中，AI经济学家的逆向加权社会福利指标也优于参考政策。

8. 发展方向

在人类参与的博弈实验中，零次学习表现出了强大的能力。驼峰式税收政策能与参考方案相抗衡甚至优于参考方案，无需重新学习就可以适用于不同的规则和人类行为。这表明，AI经济学家所指定的政策有望成为一种寻找优秀税收政策的证据。

这一模型也存在局限性，目前并没有考虑人与人之间的互动以及社群影响。而且研究涉及的是规模较小的经济体。不过这一模拟研究对不同的政策提供了透明且客观的观点。主体模拟与数据驱动的方法可以结合任何社会目标，最终找到有效的税收政策。真实世界的数据可以提高模拟实验的真实程度，强化学习的研究于发展可以扩大模拟实验的范围。

研究人员相信，该研究有助于提高经济活动的效率与公平，有助于社会的健康发展。也希望这一研究的发表，可以改善研究的透明性、可重复性，增进机器学习与经济决策的发展。在未来，研究人员希望人工智能作出的经济决策可以改进社会的决策，并改善社会福利。

9. 伦理问题

伦理、信任与透明性是 Salesforce 人工智能研究方法的一部分。虽然，当下的人工智能模型对真实世界的表现能力仍然有限，也无法用于恶意的操纵税率。但整个社会应当意识到，在未来可能出现通过操纵AI经济学家来增加不平等的现象。心怀鬼胎的人会把这一真实动机隐藏在人工智能系统的背后。

此外，无论是无意还是有意为之，糟糕的数据会训练出有偏见的模型。尤其是使用者使用自己的数据来进行训练的情况下：比如对社区和部分工种的数据缺乏就会导致AI模型训练出的税收政策出现偏差。当然，这也为提供个性化的税收政策提供了机会。研究人员认为，在未来相关议题还会存在争论。

论文作者鼓励任何人发表关于AI经济学家的伦理约束要求、数据表。并以此增进系统的通明度，提高系统的可信度。

作者为消除偏见所作出的努力

为了发表这篇研究，论文作者进行了以下工作：

为了明确责任，他们与其他审稿人分享了该论文，并对伦理风险、应对策略和安全性进行了评估。新加坡国立大学教务长兼教务长 Dr. Simon Chesterman、法学博士和世界经济论坛第四次工业革命分论坛AI项目负责人 Lofred Madzou 参与了这项工作。没有人发现新的伦理问题，以别的应对策略。所有人都认为这项研究是安全可以发表的。

为了提高透明度，作者发表了这篇论文及补充材料，从而可以对这项的工作展开更广泛的讨论。

为了进一步提高透明度。研究人员开源了模拟实验和模型训练的代码——这无法阻止代码被滥用，但作者认为提高透明度是促进讨论和研究进步的关键。

原文：https://blog.einstein.ai/the-ai-economist/

参考文献

Mastering The Game Of Go Without Human Knowledge. Silver, David, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert et al. Nature 550, no. 7676 (2017): 354-359.
Grandmaster Level In Starcraft Ii Using Multi-Agent Reinforcement Learning. Vinyals, Oriol, Igor Babuschkin, Wojciech M. Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H. Choi et al. Nature 575, no. 7782 (2019): 350-354.
Dota 2 With Large Scale Deep Reinforcement Learning. Berner, Christopher, Greg Brockman, Brooke Chan, Vicki Cheung, Przemysław Dębiak, Christy Dennison, David Farhi et al. arXiv preprint arXiv:1912.06680 (2019).
Optimal Auctions Through Deep Learning. Dütting, Paul, Zhe Feng, Harikrishna Narasimhan, David C. Parkes, and Sai Srivatsa Ravindranath. In International Conference on Machine Learning, pp. 1706-1715 (2019).
Inequality Matters. United Nations.
Literature Review On Income Inequality And The Effects On Social Outcomes. Beatrice d’Hombres, Anke Weber, and Leandro Elia. JRC Scientific and Policy Reports, 2012
Income Inequality and Health: What Have We Learned So Far? S. V. Subramanian, Ichiro Kawachi. Epidemiologic Reviews, Volume 26, Issue 1, July 2004, Pages 78–91
Rising Inequality Affecting More Than Two-Thirds Of The Globe, But It’s Not Inevitable: New UN Report. UN News.
Global Inequality. Inequality.org.
World Inequality Report. 2018
Using Elasticities To Derive Optimal Income Tax Rates. Saez, Emmanuel The Review Of Economic Studies 68.1 (2001): 205-229.
The New Dynamic Public Finance. Kocherlakota, Narayana R. Princeton; Oxford: Princeton University Press, 2010.
Agent-Based Modeling: Methods And Techniques For Simulating Human Systems. Bonabeau, Eric.Proceedings Of The National Academy Of Sciences 99, no. suppl 3 (2002): 7280-7287.
An Agent Based Model For Studying Optimal Tax Collection Policy Using Experimental Data: The Cases Of Chile And Italy. Garrido, Nicolás and Mittone, Luigi. The Journal of Socio-Economics 42 (2013): 24-30.

（参考文献可上下滑动查看）

企业建模与发展预测读书会启动招募

技术进步推动复杂系统研究。随着机器学习、深度学习、图网络、因果科学等领域的发展，针对复杂系统建模的研究也愈发深入，其中针对企业和微观经济系统的建模研究已经成为热点。集智俱乐部以「企业建模与发展预测」为主题，组织为期2-3个月的读书会，研读经典和前沿文献，交流激发科研灵感。

点击查看读书会详情：

企业建模与发展预测读书会启动招募，探索复杂系统自动建模技术前沿

推荐阅读

点击“阅读原文”，即可报名读书会