写给物理学家的生成模型
导语
1. 引言
1. 引言
费曼在他的黑板上留下一句话:“what I can not create,I do not understand”[1]。三十年后,这句话被如今大红大紫的OpenAI当作信条挂在网站上[2]。确实,无论是在物理学还是人工智能的研究中,有能力创造往往才意味着最高层次的理解。
什么是创造?生成式人工智能 (Generative AI) 对此的回答是:学习数据样本背后的概率分布,并通过随机采样生成新的样本。这两年,人们用人工智能产品创造了无数令人惊艳的画作、引人入胜的故事、动人心弦的音乐。当然,还有广告文案、新闻报道、审稿报告、商业计划书、推荐信等等 (例如这句话本身)。人工智能创造的源泉是数据本身,而人工智能创造的引擎则是“生成模型”:一种用于表达、学习和采样数据背后的概率分布的人工神经网络。生成模型和统计物理的关系非常紧密。一旦了解生成模型的物理学基因,就比较容易理解和改造它们,甚至发明新的生成模型。本文从物理学的角度介绍几类常见的生成模型,并举例说明它们在科学研究中的应用。
相对于性质预测之类的“判别式”任务,“生成式”人工智能更难、更基础、也更有用。用数学语言描述,性质预测的目的是拟合函数y=f(x)。这里x是神经网络的输入,通常是代表微观结构的高维变量。y是输出,通常是代表宏观性质的低维变量。在性质预测之外,人们往往还更关心从宏观性质到微观结构的反向设计问题。由于从结构到性质的函数不可逆,简单地寻找它的反函数往往不能成功。概率建模提供了一个有用的视角。这时,性质预测就是要学习条件概率分布p(y|x)。而反向设计意味着给定宏观性质y,从条件概率p(x|y)中采样生成新的微观构型x。贝叶斯公式告诉我们p(x|y)∝p(x)p(y|x)。可见,把握微观构型的概率分布p(x)是“生成式”任务区别于“判别式”任务的关键。
图1形象地展示了生成模型在做什么。图1(a)中的蓝色点代表数据样本,生成模型需要学会数据背后的概率分布,并据此生成新的样本。生成模型能够处理的数据类型无所不包。如图1(b)所示,图像生成模型表达了像素取值的概率分布,而材料生成模型表达了原子类型和坐标的联合概率分布。可以想象,无论是所有像素取值所构成的图像空间,还是所有原子种类和排布所构成的材料空间,都巨大无比。而人们真正关注的自然图片和稳定材料,仅仅占据这些空间中一个小角落。生成模型需要尽量提取数据样本中的统计规律,才能生成浑然天成的新图片和新材料。
2. 自然界中的概率分布
2. 自然界中的概率分布
BOX 1
相对熵是信息论的一个基本量,也被称为Kullback—Leibler散度。它度量了概率分布之间的相似度。对于两个归一化的概率分布q和p,相对熵总是非负的[3]:
其中等号仅在两个概率分布相等时取到。因此,相对熵常常被用作训练生成模型的目标函数。通过最小化生成模型所表达的概率分布和目标概率分布之间的相对熵,可以让生成模型学会目标概率分布。
为什么要选择相对熵这个看起来奇怪的度量,而不直接使用类似于这样的均方差度量?主要有两个原因:第一,概率分布p(x)和q(x)在数量级上可能差别巨大,均方差距离不能充分体现这点差别,而相对熵中比较概率函数的对数可以更好地处理这种数量级差异;第二,其实不值得在两个概率分布都取值极其小的区域比较它们的差异,因此,相对熵的定义中按照概率q(x)加权计算,即集中检查对于概率q(x)而言有意义的空间中两个概率分布对数的差别。
从定义(1)可见,相对熵对于概率分布q和p的互换并不是对称的。相对熵的AB面刚好对应了生成模型在数据建模和理论计算中的两种应用,见下表。首先,最小化数据集所代表的经验概率分布和模型分布之间的相对熵,等价于最小化以下的目标函数:
因为ln p(x)在统计学中被称为对数似然函数,最小化(2)式也被称为最大似然估计(maximum likelihood estimation)。注意,训练数据仅仅是目标概率分布中有代表性的样本,而不是目标分布本身。因此,过分地优化(2)式会导致过拟合现象。以图1(a)为例,如果模型学到的概率分布仅仅在蓝色数据点上非零,它就只会死记硬背训练数据,而不能再生成新的样本。
其次,在统计物理研究中人们往往知道体系的能量函数E(x),而需要得到的是服从玻尔兹曼分布的样本x以及配分函数Z。这种场景和数据驱动的最大似然估计恰恰相反。此时,可以将模型分布p(x)当作变分概率分布,并最小化它和物理系统的玻尔兹曼分布之间的相对熵。这等价于变分自由能:
其中不等号来自于相对熵的非负性。(3)式中两项的物理含义分别是变分概率分布的熵和能量期望值。当不等式取等号时,变分概率分布等于真实的玻尔兹曼分布,变分自由能计算也就严格地解决了问题。注意到变分计算并不依赖于事先准备好的训练样本,因为样本可以从生成模型概率分布p(x)中采样得来。此外,变分计算也不需要担心过拟合,变分自由能这个目标函数值越低越好。
生成模型的最大似然估计和变分自由能计算是同一枚硬币的两面
3. 生成模型速览
3. 生成模型速览
图2 四类生成模型和它们背后关键的数学公式 (a)扩散模型:朗之万方程;(b)自回归模型:条件概率分解;(c)流模型:变量替换;(d)变分自编码器:变分贝叶斯推断
3.1 玻尔兹曼机和扩散模型
4. 应用于物质科学的生成模型
4. 应用于物质科学的生成模型
图3 (a)Chroma基于对称性(i)、子结构(ii)和形状(iii)生成的蛋白结构[37];(b)DaLLE-3基于文字提示生成图片[38]
图4 使用深层的残差神经网络实现粒子和准粒子坐标之间的洄流变换。为了保证准粒子的统计性质,神经网络变换需要满足置换等变性质,即粒子置换操作和神经网络变换对易
5. 结语
5. 结语
致谢 本文的写作受益于与张林峰、王涵、尤亦庄、吕健、李烁辉、谢浩、刘金国、吴典、董馨阳、欧仕刚等的合作与讨论。
(参考文献可上下滑动查看)
AI By Complexity读书会招募中
大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。
集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会,从复杂网络、统计物理、算法信息论、因果涌现、自由能原理、自组织临界等视角出发,探讨如何理解复杂系统的机制,这些理解是否可以启发我们设计更好的AI模型。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!
AI+Science 读书会
点击“阅读原文”,报名读书会