导语


概率密度估计是统计学和机器学习领域最重要的问题之一。众所周知,由于“维数灾难”问题,对高维数据进行概率密度估计十分困难,现有基于神经网络的概率密度估计方法由于对模型结构进行严格的约束,大大削弱了神经网络的表达能力,从而可能导致性能下降。为解决这一问题,清华大学自动化系江瑞教授团队和斯坦福大学统计系Wing Hung Wong教授团队合作提出了一种名为Roundtrip的原创方法来进行概率密度估计。该方法利用深度生成式模型的强大生成能力,使用循环式生成对抗网络来对低维隐空间与高维原始数据空间的双向映射进行建模,随后通过重要性采样和拉普拉斯近似的手段对数据空间的概率密度进行估计,从而支持数据生成和概率密度估计的协同进行。研究成果于2021年4月13日发表于美国科学院院刊PNAS,题为“Density estimation using deep generative neural networks”。

测序中国 |来源



论文题目:

Density estimation using deep generative neural networks

论文地址:

https://www.pnas.org/content/118/15/e2101344118


Roundtrip的核心思想是通过变换基本分布来将目标分布近似为高维空间中低维流行上的高斯卷积,其中该变换由两个GAN模型表示(图2)。通过数据训练学习了两个GAN模型的权重后,随后通过基于重要性采样或者拉普拉斯近似的算法实现了密度估计。

图2.  Roundtrip的模型框架图。来源:PNAS

该研究首先利用仿真数据对多种方法的性能进行测评。从图3可以看出,与已有方法相比,Roundtrip能够有效地捕获数据中的不同成分,并准确地估计数据密度,随后将仿真数据的维度由2维提升到10维,Roundtrip仍然在概率密度估计上优于已有方法。在真实数据的实验中,由于没有真实的概率密度值,采用测试集数据的平均对数似然函数值来衡量不同方法概率密度估计的准确性,Roundtrip仍在不同的真实数据集上(维度跨度从6维到90维)的表现一致优于已有方法。

图3. 仿真数据的真实密度和利用不同方法估计得到的密度,每一行代表一个仿真数据。来源:PNAS

图像由于其高维度特性,其概率密度估计一直是一个难题。研究团队通过引入图像标签的方式在MNIST(784维)和CIFAR-10数据集(3072维)进行了条件概率密度估计以及条件数据生成(图4),其中每一类的图片按照估计的概率密度从高到低排序,可看出生成图片质量和估计的概率密度具有一定的关联性。研究团队进一步利用条件概率密度估计以及贝叶斯后验的方法构建了图片分类模型,比如在MNIST数据集上Roundtrip在测试集的分类准确率高达0.983。

图4.  MNIST和CIFAR-10数据集中真实的图片以及Roundtrip和MAF生成的图片,每一行代表一种类型。来源:PNAS

在下游的应用中,研究团队选取了离群点检测(Outlier detection)这一任务,即认为概率密度过低的点更有可能为异常值(Outlier)。并将两种常见的离群点检测算法OC-SVM与I-Forest作为对比,实验结果表明Roundtrip在三种不同的离群点检测数据集中的表现均优于已有方法或者达到相似准确率。




小 结 




该研究提出了基于循环生成对抗模型的Roundtrip方法用于通用性的概率密度估计问题。与以往研究着重于对基本密度和目标密度之间的可逆转换建模不同,Roundtrip允许直接使用深度生成网络来对从隐空间到原始数据空间的转换进行建模,这种思路使得对模型结构与低维隐空间的限制更小、使用更为灵活。

该概率密度估计模型在生物信息学中有广阔的应用前景。例如,清华大学自动化系江瑞团队和斯坦福大学Wing Hung Wong团队已基于该模型提出了一种基于单细胞数据的细胞类型发现方法,可以对单细胞染色质开放性数据同时进行降维、聚类,以及生成,还能实现单细胞转录组数据与染色质开放性数据的融合分析,从而发现基于单种组学数据难以辨识的细胞类型。这一方法将于近期发表于 Nature Machine Intelligence。

参考文献:

Liu et al., Proc Natl Acad Sci USA, 118(15): e2101344118; 

https://doi.org/10.1073/pnas.2101344118



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:


推荐阅读


点击“阅读原文”,追踪复杂科学顶刊论文