导语


人工智能已经从基于符号和逻辑的专家系统逐渐转发展采用统计和逻辑推理技术的混合系统,这也让 AI 模型和机器学习技术变得愈发复杂且不透明。伴随这种转变的还有 AI 技术在跨行业和消费者应用领域的普及。在医疗、交通等重要场景中,搞清楚 AI 技术背后的运行逻辑是至关重要的,甚至是生死攸关的。因此近年来,人们对可解释人工智能领域的兴趣正不断增长,AI 技术的可解释性也变得越来越重要。研究人员已经意识到,面对日益复杂的 AI 模型,只停留在系统工作原理层面的机械性解释难以满足终端用户的需求。换句话说,对 AI 模型的解释不应只停留在技术层面,而是要更进一步采用一种务实且自然的方式,提高普通用户对 AI 技术及其工作原理的理解程度。


日前,美国 IBM 研究院和伦斯勒理工学院的研究人员共同对可解释 AI 领域的进展、成果和研究方向进行了详细地分析与调查,总结了不同的解释类型,同时提出了一些可能有助于改善 AI 可解释性的研究方向。

Ren | 作者

数据实战派 | 来源



论文题目:
Directions for Explainable Knowledge-Enabled Systems。
论文地址:
https://arxiv.org/abs/2003.07523


研究成果以论文的形式发表,题目是 Directions for Explainable Knowledge-Enabled Systems。



值得一提的是,这篇论文也受到了贝叶斯网络之父 Judea Pearl 的推荐。“很高兴终于看到以‘可解释性’为主题的论文讨论了为什么无法通过‘数据为中心’来实现可解释性,而提出需要对所要解释的内容有世界性的认识”,他在推特上如此说道。






重新定义可解释性




在讨论改善可解释性之前,我们需要首先明确什么是解释性,以及它引申出来的 “可解释的知识驱动系统(Explainable Knowledge-enabled systems)”。


在本文中,解释性指的是 “对于系统及其运作方式而言,那些它所使用的,用于得出一般结论和特定决策的隐性和显性知识,通常对终端用户的理解方式、上下文大背景和当前需求很敏感。”


由此引申出了可解释的知识驱动系统。这种 AI 系统的特征是 “包括应用领域的知识表征”,“拥有联系用户上下文背景的机制”,“可以解释interpretable)”,并且 “能够用用户可以理解的、联系上下文背景的、可以溯源的方式解释 AI 系统的功能和所用知识”。


研究人员在分析 AI 解释性的过程中发现,解释性普遍由 AI 的能力驱动,而非用户需求。这意味着针对 AI 系统的解释 —— 过程也好,结果也罢 —— 都是从 AI 系统所执行的任务及其所用的方法出发,而不是用户使用的角度。


但对于用户来说,虽然他们才是 AI 驱动产品的使用者,但却难以理解产品背后 AI 技术的运行机制,导致他们不愿遵守 AI 系统给出的决策。


“可解释性” 与 “可解释的知识驱动系统” 的定义


因此,AI 社区应该从新的角度审视解释类型(types of explanation)


此前有学者提出,AI 社区可以尝试从社会科学和心理学领域借鉴和学习解释方法。因为这两个领域的学者可以很好地从科普和科学的角度解释抽象的信息和概念,其中一个方法就是提高针对性。


“不同的人有不同的选择偏好和社交偏好,因此给出的解释必须兼具对比性和交流性,” 论文指出,“可解释的 AI 意味着提供那些与用户需求直接挂钩的解释。”


另一项已有研究指出,AI 社区也可以利用相关领域的解释科学文献,譬如约束程序设计、法医学、基于案例的推理、因果发现等等。这些领域的学者使用的解释方法或许可以启发 AI 领域对机器学习模型的解释。





9 种解释类型




在整理了现有研究成果的基础上,研究人员归纳了九种解释类型,并以医疗保健提供者的角度作为范例:


1. 基于案例(case-based):此类解释包括基于事实先例的结果,做出的决定可以向用户提供有令人信服的支持。要使用此类解释,AI 系统需要类似的先例。可用来应对问题:“这项(医疗保健建议)适用于哪些情况?”


2. 语境(contextual):此类解释指的是关于实体的信息,而非具体的输入或输出,比如会影响计算的有关用户、情况和大环境的重要信息。可用来应对问题:“目前情况下的哪些信息使你(AI 系统)给出了这些建议?”


3. 对比性(contrastive):指的是 AI 系统给出的结果与事实或过去出现的案例相悖。显而易见的是,此时用户格外需要 AI 系统给出有说服力的解释。可用来应对问题:“为什么你(AI 系统)开了新药,而不是我(医生)经常开的那种?”


4. 反事实(counterfactual):指的是向 AI 系统提供与现有情况不同的信息并查看其输出结果。可用来应对:“假设病人属于心血管疾病高风险人群,你(AI 系统)还会推荐同样的治疗方案吗?”


5. 常识(everyday):指的是基于用户的常识和知识给出的解释。可用来应对问题:“要处理高风险病人,推荐使用哪种手套?”


6. 科学(scientific):指的是经过严格科学方法、观察和测量的系统性解释。可用来应对问题:“这个推荐方案依照的生物学基础是什么?”


7. 基于模拟(simulation-based):指的是基于想象或实施过的系统或过程模拟,并解释由此观测的过程与得出的结果。可用来应对问题:“如果采用这套推荐方案,会发生什么?”


8. 统计学的(statistical):指的是统计实验中或特定状态下某些事件发生的频率,并对数据结果加以分析和解释。可用来应对问题:“在所有接受这套推荐方案的类似的病人中,康复的比例是多少?”


9. 可溯源的(trace-based):指的是 AI 系统做出决定后,其决策过程和步骤可以追溯并解释。可用来应对问题:“AI 系统通过哪些步骤得出了这套推荐方案?”





4 个提升可解释性的方向




总结了解释类型后,研究人员表示这些解释需要以用户为中心来生成,应该起到 “促进用户、开发人员、算法系统和其他利益相关者之间的对话”。


因此,他们整理了四个现有的、有潜力的研究方向。


1、因果方法


至少从 1990 年代开始,科学家就已经将因果关系作为解释的重要组成部分,追求因果关系和因果推理的研究,而且是独立于机器学习和语义网研究努力之外的。


近年来,AI 研究人员已经意识到并开始提出因果关系对于向终端用户提供解释的重要性:因果推理可以用来解释 “在系统实际运行中,何时会出现由于干扰而导致输出值出现可预测变化”。


图灵奖获得者 Judea Pearl 曾提出,因果关系可以用一系列贝叶斯方程来表示,同时他还归纳了三种不同关系,分别是关联性(association),干涉性(intervention)和反事实性(counterfactuals),对应的行为分别是观察,采取干涉行动和回顾 / 想象。


三种关系对应不同的解释性问题。


比如关联性可以用于解释症状与疾病之间的关联,干涉性可以解释 “如果我做了 XXX,会不会 XXX?” 类型的问题,而反事实性可以解释基于想象的假设类问题(通常是对已经发生过的事情用新的视角或行动重新回顾)


Judea Pearl 将因果关系分为三层


Pearl 还曾提出,现有机器学习技术已经能够解决关联性问题,但想要解释干涉类问题,AI 系统必须对理解和编码人类世界的知识,如果更进一步解释反事实性问题,AI 就必须理解因果关系。


研究人员表示,这种循序渐进的过程是 AI 系统解释知识的必经之路,加入 “因果表示” 可以让 AI 系统提供更丰富的解释。


他们还总结了 Pearl 教授提出的七种需要使用因果方法的工具,其中的反事实问题算法化、因果发现、直接和间接影响评估可以用在 AI 系统对终端用户的解释中,用来向用户证明其结论背后的因果关系。



2、神经符号 AI 方法


神经符号集成(Neuro-Symbolic integration)是一个混合领域,它将机器学习方法的归纳和统计学习能力与知识表示领域的符号和概念表示能力相结合。神经符号集成并不是一个新领域,但是由于它与可解释 AI 紧密关联,研究人员对它很感兴趣。


该领域试图集神经机器学习和符号 AI 方法两家之大成。


一方面,神经机器学习方法有很好的鲁棒性,能够抵抗噪音,并且具有找出人类难以发现的规律的能力,但缺点是不够智能和缺乏透明性。另一方面,符号 AI 方法拥有知识的语义表征,可以推导出更深层次的关系,提供更可信且可追溯的结果,但缺点是对数据错误和噪音的抵抗力较差。


由此来看,两者的优缺点刚好可以互补。在一个典型的神经符号 AI 系统中,神经机器学习方法辅助符号系统生成知识,而符号系统提供知识编码以解释神经方法的功能和结果。


一个典型的神经符号集成系统


研究人员认为,虽然神经符号集成可能不会直接帮助提升 AI 可解释性,但对于打造一个混合型 “可解释的知识驱动系统” 还是很重要的,能够帮它变得更透明、可理解、可验证和可信赖。


3、可解释空间的语义表示


2000 年代后期,语义网技术出现,解释分类法、知识图谱和本体论等成果出现,但鲜有值得注意的工作来表示解释与语义在 AI 世界中的依存关系,尽管人们对可解释性的兴趣在逐渐提升。


研究人员认为,建立对解释的语义理解将有助于我们识别什么组件可以帮助我们更好地解释,并使开发能够熟练生成它们的混合 AI 模型成为可能。

一些学者在调查了解释性在语言学,计算机科学,神经科学和社会学等各个领域的作用后,开发了一种解释的设计模式,其中包含的组件有 “相关联的事件”,“底层的理论”,“解释适用于的情况和条件”。


这种理念借鉴了语义网领域的研究方法,比如将本体论与解释性结合起来,分析 “解释的是什么” 与 “是什么做出了解释” 之间的关系。


知识图谱框架也可以套用在解释性上。一些研究人员利用归纳逻辑编程(ILP)和启发式方法来识别背景知识群,用于解释 AI 模型得出的结果。


随后,研究人员从语义的角度总结了一系列解释的目的,包括(提升)透明度、有效度、信任、说服力、满意度、教育、开放度、效率和纠错等等。这些类型概括了 AI 系统做出解释时需要达到的目的。


“用语义表征的形式解读解释性,不仅能帮助准确理解和组织可解释 AI 空间,还可以改善构建 AI 模型的灵活性,更好地服务用户对可解释性的需求,” 研究人员表示,“它们虽然不直接生成解释,但对构建可解释的知识驱动系统很有价值。”


4、用于支持知识驱动 AI 的分布式账本技术


最近几十年中,AI 研究的一个主要优先事项是追求最佳性能,而这通常是以牺牲可解释性为代价的。然而,目前社会主流仍不愿接受 AI 做出的关键决策,这对技术的可解释性和可信赖性提出了更高的要求。


分布式账本技术(DLT)有望成为解决 AI 模型中信任问题的方案之一,并通过提供数据和可加密验证的 AI 模型溯源来解决缺乏可解释性的问题。


DLT 提供了以下四个关键功能,它们是可解释 AI 所需要的:


1. 数据和 AI 算法的透明度及可视度

2. 输入数据和参数的不可修改性

3. 输出值的溯源和不可否认性

4. 智能合约的自动执行逻辑


在数据提供者担心数据滥用的情况下,DLT 会以加密方式保护数据记录的来源,从而让使用者无法否认数据被滥用的事实。另一方面,智能合约的自动执行可以确保 AI 代理在符合条件的情况下自动运行,其可解释性自然而然地包含在智能合约的运行逻辑中。


如果 AI 系统得出了预期之外或不正常的结果,DLT 技术的不可篡改性也可以帮助人们有效追溯所有步骤,搞清楚是人还是机器犯了错误。


一些学者已经开始尝试结合 AI 系统和 DLT 技术,涵盖应用领域包括医疗保健、军事、无人驾驶、物联网等等。研究结果显示,DLT 确实可以让用户更好地了解 AI 系统的执行过程和决策。


经过对现有可解释 AI 领域研究成果的分析、总结和归纳,研究人员认为,上述四种研究方向具有很好的指导意义,值得进一步探索其提升 AI 可解释性的潜力。


随着人们对可解释 AI 的日益关注,整个 AI 领域正处于新时代的风口浪尖。未来,可解释性在 AI 能否获得人类社会普遍信赖的关键问题中起着举足轻重的作用 —— 人们需要更多的以用户为中心的可解释性。


总而言之,随着人工智能系统的应用不断增加,人们不仅需要理解其决策背后的原理,更需要结合大背景来使用结果,发挥 AI 系统的最大价值。


这要求 AI 研究者灵活组合使用解释类型和目的,在不同的知识孤岛和资源之间建立连接。这也将有助于进一步推进人机交互和 AI 系统的发展,开发新的可解释 AI 技术,建立以用户为中心的解释机制。


Refrence:

https://arxiv.org/pdf/2003.07523.pdf



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:


推荐阅读


点击“阅读原文”,追踪复杂科学顶刊论文