什么是什么是贝叶斯网络：图模型、推理与学习 | 集智百科

“集智百科精选”是一个长期专栏，持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目，集智百科希望打造复杂性科学领域最全面的百科全书，欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入！

本文是对集智百科中“贝叶斯网络”词条部分内容的摘录，参考资料及相关词条请参阅百科词条原文。

本词条由集智俱乐部众包生产，难免存在纰漏和问题，欢迎大家留言反馈或者前往对应的百科词条页面进行修改，一经修改，可以获得对应的积分奖励噢！

一、图模型

二、举例

三、集智百科词条志愿者招募

贝叶斯网络 Bayesian network（BN）、信念网络 belief network、决策网络 decision network、贝叶斯模型 Bayes(ian) model或概率有向无环图模型 probabilistic directed acyclic graphical model是一种概率图模型（一种统计模型），它通过有向无环图无环图 directed acyclic graph（DAG）表示一组随机变量及其条件依赖关系。贝叶斯网络是一种理想的分析工具，用来预测一个事件的发生是由已知原因中的哪一个（些）引起的。例如，贝叶斯网络可以表示疾病和症状之间的概率关系。在给定症状的情况下，该网络可用于计算各种疾病出现的概率。

贝叶斯网络有多种变体。用来建模序列变量（例如，语音信号或蛋白质序列）的贝叶斯网络被称为动态贝叶斯网络 dynamic Bayesian network。贝叶斯网络可以进一步扩展，用来表示和解决在不确定性因素下的决策问题，这种扩展称为影响图 influence diagram。现在已有高效的算法学习出贝叶斯网络的结构，并通过贝叶斯网络做推理。

图模型

在形式上，贝叶斯网络是有向无环图 Directed acyclic graph（DAG），其节点表示随机变量（其概率为贝叶斯概率）；它们可以是可观测量变量、隐变量、未知参数或假设。图中的边表示条件依赖；未连接（没有路径连接一个节点到另一个节点）的节点表示彼此之间条件独立。每个节点都与一个概率函数 Probability function 节点相关联，该函数把所有父节点代表的变量值作为输入，并给出该节点表示的随机变量的概率（或概率分布）。例如，如果 m 父节点表示 m 布尔变量，那么概率函数可以用一个包含 2^m行的表格表示，每一行代表一种（父节点）变量值的组合，以及对应的子节点变量的概率值。类似的想法可以应用于有环无向图，如马尔可夫网络 Markov network。

举例

草地变得湿润，可能有两种原因：主动洒水或者下雨。雨对洒水车的使用有直接的影响（也就是说，当下雨时，洒水车通常是不工作的）。这种情况可以用贝叶斯网络来模拟（如右图所示）。每个变量有两个可能的值，T (表示真)和 F (表示假)。

对应的联合概率函数 Joint probability distribution是:

其中G表示“草地湿了（是/否）”，S表示“洒水器打开（是/否）”，R表示“下雨（是/否）”。

这个模型可以回答在给定一个结果的情况下一个原因是否存在的问题，比如“给定草是湿的，下雨的概率是多少? ”通过使用条件概率公式并对所有干扰变量 nuisance variable的求和:

展开概率函数 Pr (G,S,R) ，并使用图中列出的条件概率，我们可以算出分子和分母中的各个项。比如说,

算出来的结果是

这个模型还回答干预性的问题，比如“现在我们把草弄湿了，那么下雨的可能性有多大? ”答案取决于干预后的联合分布函数：

该分布通过从干预前的分布中去除因子Pr (G|S,R) 得到，其中do算子强行使 G 的值为真。演算后可知下雨的可能性不受此干预的影响:

现在再预测开启洒水装置的影响:

移除Pr (S=T|R) 这个项表明这种行为影响的是草，而不是雨。

考虑到未观测变量，这些预测可能并不可行，就像大多数策略评估问题一样。但是，只要满足后门准则，仍然可以预测do(x) 的效果。如果一组观察到的变量Z能d-分隔(或阻塞)[3]从 X 到 Y 的所有”后门路径 back-door path，则有

后门路径是一条箭头指向X的路径。满足后门标准的（观测变量）集合称为“充分的”或“有效的”。例如，集合 Z = R 能有效地预测 S = T 对 G 的影响，因为 R d-分隔了(仅有的)后门路径 S ← R → G。但是，如果 S 没有被观测到，没有其他观测变量集合来 d-分隔这条路径，那就不能从观测数据中预测到“喷头被打开”(S = T)对于草地G的影响。在这种情况下，P(G | do(S = T))就没有被“识别”。这反映了一个事实：在缺乏干预性数据的情况下无法确认观察到的 S 和 G 之间的依赖关系是不是一种因果关系(可能由共同原因引起的强相关，比如辛普森悖论)。

为了确定一个因果关系是否可以从一个含有未观测变量的贝叶斯网络中识别出来，我们可以使用“ do-演算”的三个规则来检验是否所有的 do 项都可以从这个关系的表达式中去掉，从而确认所需的量可以从数据中估计出来。

如果依赖关系在联合分布中是稀疏的（变量间依赖较少，即对应的图模型里的边较少），那么相对于存储一张完整的概率表，使用贝叶斯网络可以节省相当多的内存。例如，将10个二值变量的条件概率存储为一个表的，需要存储 2^10=1024 个值。而在每个变量最多依赖3个父变量的情况下，使用贝叶斯网络表示最多只存储 10·2^3=80 个值。

相比于完全版的联合概率分布，理解（一组稀疏的）直接的变量间依赖关系和局部的概率分布对于人类来说要更加直观易懂。这正是贝叶斯网络的一个优点。

编者推荐

因果科学与 Causal AI 读书会第二季

因果推断与机器学习领域的结合已经吸引了越来越多来自学界业界的关注，为深入探讨、普及推广因果科学议题，智源社区携手集智俱乐部将举办第二季「因果科学与CausalAI读书会」。本季读书会着力于实操性、基础性，将带领大家精读因果科学方向两本非常受广泛认可的入门教材。

1. Pearl, Judea, Madelyn Glymour, and Nicholas P. Jewell. Causal inference in statistics: A primer. John Wiley & Sons, 2016.（本书中译版《统计因果推理入门（翻译版）》已由高等教育出版社出版）

2. Peters, Jonas, Dominik Janzing, and Bernhard Schölkopf. Elements of causal inference: foundations and learning algorithms. The MIT Press, 2017.

读书会每周将进行直播讨论，进行问题交流、重点概念分享、阅读概览和编程实践内容分析。非常适合有机器学习背景，希望深入学习因果科学基础知识和重要模型方法，寻求解决相关研究问题的朋友参加。详情参见：连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再启航。