什么是条件互信息 | 集智百科

“集智百科精选”是一个长期专栏，持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目，集智百科希望打造复杂性科学领域最全面的百科全书，欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入！

本文是对集智百科中“条件互信息”词条的摘录，参考资料及相关词条请参阅百科词条原文。

本词条由集智俱乐部众包生产，难免存在纰漏和问题，欢迎大家留言反馈或者前往对应的百科词条页面进行修改，一经修改，可以获得对应的积分奖励噢！

一、定义

二、关于离散分布的概率质量函数

三、关于连续分布的概率密度函数

四、部分特性

五、其他通用定义

六、注释符号

七、属性

八、多元互信息

九、编者推荐

十、百科项目志愿者招募

以上是三个变量x,y和z信息理论测度的维恩图，分别由左下，右下和上部的圆圈表示。条件互信息I(x;z|y)，I(y;z|x)和I(x;y|z)分别由黄色，青色和品红色区域表示。

定义

对于具有支持集 Probability theory

的随机变量X,Y和Z，我们将条件互信息定义为：

这可以用期望运算符来表示：

因此，相较于互信息的定义，I(X;Y|Z)可以表达为期望的Kullback–Leibler散度（相对于Z），即从条件联合分布P(X,Y)|Z到条件边际PX|Z和PY|Z

的乘积。

关于离散分布的概率质量函数

对于具有支持集X,Y和Z的离散随机变量条件互信息I(X;Y|Z)如下:

其中边缘概率质量函数，联合概率质量函数，和（或）条件概率质量函数可以由p加上适当的下标表示。这可以简化为:

关于连续分布的概率密度函数

对于具有支持集X,Y和Z的（绝对）连续随机变量条件互信息I(X;Y|Z)如下:

其中边缘概率密度函数，联合概率密度函数，和（或）条件概率密度函数可以由p加上适当的下标表示。这可以简化为：

部分特性

同时我们也可以将联合和条件熵写为：I(X;Y|Z) = H(X,Z) + H(Y,Z) – H(X,Y,Z) – H(Z) = H(X|Z) – H()X|Y,Z) = H(X|Z) + H(Y|Z) – H(X,Y|Z)

这么表达以显示其与互信息的关系：I(X;Y|Z) = I(X;Y,Z) – I(X;Z)

通常情况下，表达式被重新整理为“互信息的链式法则”:

I(X;Y|Z) = I(X;Z) + I(X;Y|Z)

上述式子的另一种等价形式是：I(X;Y|Z) = H(Z|X) + H(X) + H(Z|Y) + H(Y) -H(Z|X,Y) – H(X,Y) – H(Z) = I(X;Y) + H(Z|X) + H(Z|Y) – H(Z|X,Y)

或作为更简单的KL散度的期望值：

其他通用定义

条件互信息的其他通用定义（适用于具有连续或其他任意分布的随机变量）将取决于正则条件概率 Regular conditional probability 的概念。

令

为一个概率空间 Probability space ，并将随机变量X,Y和Z分别定义为一个从Ω到具有拓扑结构的状态空间的波莱尔可测函数 Borel-measurable function 。

考虑到在每个随机变量状态空间中的波莱尔测度 Borel measure（关于开放集生成的σ代数）

这被称为前推测度 Pushforward measure

随机变量的支撑集定义为该测度的拓扑支撑集，即

现在，我们可以在给定其中一个随机变量值（或通过积拓扑 product topology 获得更多）的情况下正式定义条件概率测度 Conditional probability distribution 。令M为Ω的可测子集（即M∈F)，令x∈suppX。然后，使用分解定理 Disintegration theorem ：

在x的开放邻域U处取极限，因为相对于集包含 Set inclusion，它们可以任意变小。

最后，我们可以通过勒贝格积分 Lebesgue integration来定义条件互信息：

其中被积函数是拉东-尼科迪姆导数 Radon–Nikodym derivative的对数，涉及我们刚刚定义的一些条件概率测度。

注释符号

在诸如I(A;B|C)的表达式中，A,B和C不限于表示单个随机变量，它们同时可以表示在同一概率空间上定义的任意随机变量集合的联合分布。类似概率论中的表达方式，我们可以使用逗号来表示这种联合分布，例如I(A0,A1;B1,B2,B3|C0,C1)。因此，使用分号（或有时用冒号或楔形∧）来分隔互信息符号的主要参数。（在联合熵的符号中，不需要作这样的区分，因为任意数量随机变量的联合熵 Joint entropy与它们联合分布的熵相同。）

属性

非负性

对于离散，联合分布的随机变量X，Y和Z，如下不等式永远成立：

I(X;Y|Z)>=0。

该结果已被用作证明信息理论中其他不等式的基础，尤其是香农不等式。对于某些正则条件下的连续随机变量，条件互信息也是非负的。

交互信息

考虑到第三个随机变量条件可能会增加或减少互信息：

例如其差值I(X;Y)-I(X;Y|Z)，称为交互信息 Interaction information (注意区分互信息Mutual information)，可以为正，负或零。即使随机变量是成对独立的也是如此。比如以下情况下：

X，Y和Z是成对独立的，特别是I(X;Y)=0，不过这里I(X;Y|Z)=1。

互信息的链式法则

I(X;Y,Z)=I(X;Z)+I(X;Y|Z)

多元互信息

结合信息图中的集合或度量理论，可以用条件互信息来归纳定义多元互信息。其定义表达式如下：

其中

该定义与交互信息的定义相同，只是在随机数为奇数的情况下符号发生了变化。一个复杂的问题是，该多元互信息（以及交互信息）可以是正，负或零，这使得其数量难以直观地解释。实际上，对于n个随机变量，存在2n-1个自由度。那么如何在信息理论上将它们关联，并对应于这些变量的每个非空子集，就是解决问题的关键。特别是这些自由度受到信息论中各种香农和非香农不等式的制约。

编者推荐

集智课程

信息论

https://campus.swarma.org/course/3164

信息论（information theory）涉及信息的量化、存储和通信等。信息论是由克劳德·香农发展来的，用来找出信号处理与通信操作的基本限制，如数据压缩、可靠的存储和数据传输等。自创立以来，它已拓展应用到许多其他领域，包括统计推断、密码学、神经生物学、进化论、量子计算、剽窃检测和其他形式的数据分析。

在本课程中，融合经典和现代信息论的成果，为信息科学方向学生提供一个统一的信息论基础，也可作为专业入门课程。主要讲解了熵，熵率，微分熵，AEP，数据压缩和信道的相关知识。

Python 信息熵条件信息熵互信息（信息增益）的理解以及计算代码

https://www.pianshen.com/article/465233008/
R语言互信息和条件互信息

https://blog.csdn.net/tandelin/article/details/104216570

百科项目志愿者招募

作为集智百科项目团队的成员，本文内容由Jie翻译，Flipped审校，薄荷编辑。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页，更多信息可以访问其集智百科个人主页。

以上内容都是我们做这项目的起点，作为来自不同学科和领域的志愿者，我们建立起一个有效的百科团队，分配有审校、翻译、编辑、宣传等工作。我们秉持：知识从我而来，问题到我为止的信念，认真负责编撰每一个词条。

在这里从复杂性知识出发与伙伴同行，同时我们希望有更多志愿者加入这个团队，使百科词条内容得到扩充，并为每位志愿者提供相应奖励与资源，建立个人主页与贡献记录，使其能够继续探索复杂世界。

如果你有意参与更加系统精细的分工，扫描二维码填写报名表，我们期待你的加入！

集智百科报名表

来源：集智百科

编辑：王建萍

推荐阅读

点击“阅读原文”，阅读词条条件互信息原文与参考文献

什么是条件互信息 | 集智百科

对于具有支持集 Probability theory

对于具有支持集X,Y和Z的离散随机变量条件互信息I(X;Y|Z)如下:

对于具有支持集X,Y和Z的（绝对）连续随机变量条件互信息I(X;Y|Z)如下:

同时我们也可以将联合和条件熵写为：I(X;Y|Z) = H(X,Z) + H(Y,Z) – H(X,Y,Z) – H(Z) = H(X|Z) – H()X|Y,Z) = H(X|Z) + H(Y|Z) – H(X,Y|Z)

条件互信息的其他通用定义（适用于具有连续或其他任意分布的随机变量）将取决于正则条件概率 Regular conditional probability 的概念。

非负性

交互信息

互信息的链式法则

结合信息图中的集合或度量理论，可以用条件互信息来归纳定义多元互信息。其定义表达式如下：

集智课程

信息论

相关文章

传染病监测的数据科学方法特刊：大数据怎样应对大流行

什么是生命？生物学哲学的视角 | 周五直播·自生成结构系列读书会

发表评论点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

Nat. Rev. Phys.重磅综述：复杂网络的鲁棒性和韧性

长文综述：大脑中的熵、自由能、对称性和动力学｜新春特辑

诺奖之后的复杂科学：18位学者勾勒未来20年复杂系统研究图景｜新春特辑

当AI欺骗AI，谁为狂飙的机器学习保驾护航？

Sora物理悖谬的几何解释

最新文章

李婵颖：自适应控制 | 周二直播·控制科学前沿理论与方法系列课程

学习开放日：开放探索复杂科学、AI+X 海量学习资源

智能体如何构建环境认知？世界模型学习的基础、进展与挑战｜自由能原理与强化学习读书会·周日直播

微软亚研院：实现大模型价值对齐的BaseAlign算法丨大模型安全与对齐读书会·周六直播

“复杂 AI 次方”开放实验室招募，挑战“涌现”难题

什么是条件互信息 | 集智百科

对于具有支持集 Probability theory

对于具有支持集X,Y和Z的离散随机变量条件互信息I(X;Y|Z)如下:

对于具有支持集X,Y和Z的（绝对）连续随机变量条件互信息I(X;Y|Z)如下:

同时我们也可以将联合和条件熵写为：I(X;Y|Z) = H(X,Z) + H(Y,Z) – H(X,Y,Z) – H(Z) = H(X|Z) – H()X|Y,Z) = H(X|Z) + H(Y|Z) – H(X,Y|Z)

条件互信息的其他通用定义（适用于具有连续或其他任意分布的随机变量）将取决于 正则条件概率 Regular conditional probability 的概念。

非负性

交互信息

互信息的链式法则

结合信息图中的集合或度量理论，可以用条件互信息来归纳定义多元互信息。其定义表达式如下：

集智课程

信息论

相关文章

微信扫一扫,分享到朋友圈

传染病监测的数据科学方法特刊：大数据怎样应对大流行

什么是生命？生物学哲学的视角 | 周五直播·自生成结构系列读书会

猜你喜欢

李婵颖：自适应控制 | 周二直播·控制科学前沿理论与方法系列课程

学习开放日：开放探索复杂科学、AI+X 海量学习资源

智能体如何构建环境认知？世界模型学习的基础、进展与挑战｜自由能原理与强化学习读书会·周日直播

微软亚研院：实现大模型价值对齐的BaseAlign算法丨大模型安全与对齐读书会·周六直播

“复杂 AI 次方”开放实验室招募，挑战“涌现”难题

Nature新子刊“npj complexity”开篇评论：通往复杂性之路

发表评论 点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

Nat. Rev. Phys.重磅综述：复杂网络的鲁棒性和韧性

长文综述：大脑中的熵、自由能、对称性和动力学｜新春特辑

诺奖之后的复杂科学：18位学者勾勒未来20年复杂系统研究图景｜新春特辑

当AI欺骗AI，谁为狂飙的机器学习保驾护航？

Sora物理悖谬的几何解释

最新文章

李婵颖：自适应控制 | 周二直播·控制科学前沿理论与方法系列课程

学习开放日：开放探索复杂科学、AI+X 海量学习资源

智能体如何构建环境认知？世界模型学习的基础、进展与挑战｜自由能原理与强化学习读书会·周日直播

微软亚研院：实现大模型价值对齐的BaseAlign算法丨大模型安全与对齐读书会·周六直播

“复杂 AI 次方”开放实验室招募，挑战“涌现”难题

关注我们的公众号

条件互信息的其他通用定义（适用于具有连续或其他任意分布的随机变量）将取决于正则条件概率 Regular conditional probability 的概念。

发表评论点击这里取消回复。