什么是什么是贝叶斯网络:图模型、推理与学习 | 集智百科
本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!
目录
贝叶斯网络 Bayesian network(BN)、信念网络 belief network、决策网络 decision network、贝叶斯模型 Bayes(ian) model或概率有向无环图模型 probabilistic directed acyclic graphical model是一种概率图模型(一种统计模型),它通过有向无环图无环图 directed acyclic graph(DAG)表示一组随机变量及其条件依赖关系。贝叶斯网络是一种理想的分析工具,用来预测一个事件的发生是由已知原因中的哪一个(些)引起的。例如,贝叶斯网络可以表示疾病和症状之间的概率关系。在给定症状的情况下,该网络可用于计算各种疾病出现的概率。
贝叶斯网络有多种变体。用来建模序列变量(例如,语音信号或蛋白质序列)的贝叶斯网络被称为动态贝叶斯网络 dynamic Bayesian network。贝叶斯网络可以进一步扩展,用来表示和解决在不确定性因素下的决策问题,这种扩展称为影响图 influence diagram。现在已有高效的算法学习出贝叶斯网络的结构,并通过贝叶斯网络做推理。
图模型
在形式上,贝叶斯网络是有向无环图 Directed acyclic graph(DAG),其节点表示随机变量(其概率为贝叶斯概率);它们可以是可观测量变量、隐变量、未知参数或假设。图中的边表示条件依赖;未连接(没有路径连接一个节点到另一个节点)的节点表示彼此之间条件独立。每个节点都与一个概率函数 Probability function 节点相关联,该函数把所有父节点代表的变量值作为输入,并给出该节点表示的随机变量的概率(或概率分布)。例如,如果 m 父节点表示 m 布尔变量,那么概率函数可以用一个包含 2^m行的表格表示,每一行代表一种(父节点)变量值的组合,以及对应的子节点变量的概率值。类似的想法可以应用于有环无向图,如马尔可夫网络 Markov network。
举例
草地变得湿润,可能有两种原因:主动洒水或者下雨。雨对洒水车的使用有直接的影响(也就是说,当下雨时,洒水车通常是不工作的)。这种情况可以用贝叶斯网络来模拟(如右图所示)。每个变量有两个可能的值,T (表示真)和 F (表示假)。
对应的联合概率函数 Joint probability distribution是:
其中G表示“草地湿了(是/否)”,S表示“洒水器打开(是/否)”,R表示“下雨(是/否)”。
这个模型可以回答在给定一个结果的情况下一个原因是否存在的问题,比如“给定草是湿的,下雨的概率是多少? ”通过使用条件概率公式并对所有干扰变量 nuisance variable的求和:
展开概率函数 Pr (G,S,R) ,并使用图中列出的条件概率,我们可以算出分子和分母中的各个项。比如说,
算出来的结果是
这个模型还回答干预性的问题,比如“现在我们把草弄湿了,那么下雨的可能性有多大? ”答案取决于干预后的联合分布函数:
该分布通过从干预前的分布中去除因子Pr (G|S,R) 得到,其中do算子强行使 G 的值为真。演算后可知下雨的可能性不受此干预的影响:
现在再预测开启洒水装置的影响:
移除Pr (S=T|R) 这个项表明这种行为影响的是草,而不是雨。
考虑到未观测变量,这些预测可能并不可行,就像大多数策略评估问题一样。但是,只要满足后门准则,仍然可以预测do(x) 的效果。如果一组观察到的变量Z能d-分隔(或阻塞)[3]从 X 到 Y 的所有”后门路径 back-door path,则有
后门路径是一条箭头指向X的路径。满足后门标准的(观测变量)集合称为“充分的”或“有效的”。例如,集合 Z = R 能有效地预测 S = T 对 G 的影响,因为 R d-分隔了(仅有的)后门路径 S ← R → G。但是,如果 S 没有被观测到,没有其他观测变量集合来 d-分隔这条路径,那就不能从观测数据中预测到“喷头被打开”(S = T)对于草地G的影响。在这种情况下,P(G | do(S = T))就没有被“识别”。这反映了一个事实:在缺乏干预性数据的情况下无法确认观察到的 S 和 G 之间的依赖关系是不是一种因果关系(可能由共同原因引起的强相关,比如辛普森悖论)。
为了确定一个因果关系是否可以从一个含有未观测变量的贝叶斯网络中识别出来,我们可以使用“ do-演算”的三个规则来检验是否所有的 do 项都可以从这个关系的表达式中去掉,从而确认所需的量可以从数据中估计出来。
如果依赖关系在联合分布中是稀疏的(变量间依赖较少,即对应的图模型里的边较少),那么相对于存储一张完整的概率表,使用贝叶斯网络可以节省相当多的内存。例如,将10个二值变量的条件概率存储为一个表的,需要存储 2^10=1024 个值。而在每个变量最多依赖3个父变量的情况下,使用贝叶斯网络表示最多只存储 10·2^3=80 个值。
相比于完全版的联合概率分布,理解(一组稀疏的)直接的变量间依赖关系和局部的概率分布对于人类来说要更加直观易懂。这正是贝叶斯网络的一个优点。
编者推荐
百科项目志愿者招募
作为集智百科项目团队的成员,本文内容由水流心不竞,Ricky,薄荷参与贡献。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页,更多信息可以访问其集智百科个人主页。
在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。
如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!
来源:集智百科
编辑:王建萍
点击“阅读原文”,阅读贝叶斯网络词条原文与参考文献