关键词:胶囊网络,层级结构,非线性,复杂网络



论文题目:Predicting the prevalence of complex genetic diseases from individual genotype profiles using capsule networks
论文来源:Nature Machine Intelligence
论文链接:https://www.nature.com/articles/s42256-022-00604-2

具有复杂遗传结构的疾病往往会包含相当数量的遗传变异,尽管这些变异在疾病中发挥了作用,但上述变异往往未被发现。造成这种现象的两个主要原因是:这些变异不会有叠加效应,而是以复杂的方式相互作用;此外,正如最近提出的,全基因模型(omnigenic)假设变异以整体方式相互作用以促成疾病表型。Nature Machine Intelligence 的这篇文章提出疾病胶囊(DiseaseCapsule),一种胶囊网络为基础的方法,显式地解决捕获基因组数据中的等级结构问题,并有可能充分捕获变异和疾病之间的非线性关系。当从个体基因型谱预测疾病发生时,疾病胶囊是第一个以全基因组方式进行操作的方法。

在实验中,研究人员评估了“疾病胶囊”对肌萎缩性嵴髓侧索硬化症(ALS)和帕金森氏病的作用,特别关注 ALS,它已知具有复杂的遗传结构,并且呈现出 40% 的遗传度缺失。在 ALS 上,疾病胶囊在预测疾病发生方面达到了 86.9% 的准确率,因此大大优于其他所有方法。此外,疾病胶囊需要足够少的训练数据才能达到最佳性能。最后但并非最不重要的是,疾病胶囊发现了922个特别感兴趣的基因,以及644个“非加性”基因,这些基因是疾病胶囊预测中用到的关键因素,但在线性方案中被忽视。

整合全基因组数据意味着处理数百万维的特征空间,这与人类基因组中多态位点的数量相对应。这些基因特异性主成分可以以非线性方式组合,以反映基因之间的非线性相互作用,其中非线性可以跨越整个基因组。疾病胶囊有两个直接的理论优势。首先,因为它是在整个基因组中运作的,所以疾病胶囊不需要专注于几个与疾病相关的核心基因,所以它不会错过丰富的外周基因的微弱作用。其次,由于胶囊网络能够捕获高度复杂性,在捕获基础遗传相互作用的等级结构方面有所改进,体现在通过使用完全连接的架构,而不是将卷积层作为胶囊网络的早期层。可以最大限度地捕获整个基因组中基因之间的相互作用,并对输入数据的顺序自适应。

疾病胶囊的表现优于所有最先进的方法: 在测试数据上的准确率达到了87% 。这意味着比 PRS 相对增加了28%的错误分类。该方法还兑现了其在临床实践中应用的两个主要理论承诺: 可持续地输入训练数据,这在提高临床数据时降低了成本和努力,以及在预测的可解释性方面取得进步,表现就是揭示了922个与 ALS 相关的候选基因,其中许多在遵循标准 GWAS 方案时没有被指出。

图1. 疾病胶囊的运作流程,基于来自4个批次的10456个全基因数据,经过质控,批次效应去除,选出合适4.3M个SNP,之后分为测试和训练数据集,通过 PCA 降维,将降维后的结果经由胶囊网络得到分类结果。


图2. 疾病胶囊的网络架构,输入是来自所有 Gene-PCA 模型的压缩特征向量,其中每个特征对应于一个 Gene-PCA。基因主成分分析的数量为 75,584,因此输入维数为 75,584 × 1。疾病胶囊由三层组成: 完全连接层(FC)、初级胶囊层 (PrimaryCaps) 和表型胶囊层 (phenoCaps)。FC 层由150个神经元组成,其次是激活函数。PrimaryCaps 由32个主胶囊组成。它们每个都包含四个不同的卷积滤波器(内核大小5 × 1,步长2,无填充)。表型胶囊由两个16维向量组成。每个表型胶囊接受来自所有32个初级胶囊的输入。输出是一个二元分类标签(健康或 ALS)。


图3. 初级胶囊与表型胶囊在ALS上所有基因中的的偶联系数分布。红色虚线表示95%百分位。以上922个基因作为分类的决定性核心基因。B,使用922个随机选择的基因作为疾病胶囊模型的输入(重复1,000次) ,而其他基因被掩盖(设置为零)的测试准确性分布。红色虚线表示使用922个核心基因作为输入的测试准确性。C,以922个核心基因为输入的平均耦合系数矩阵热图(测试数据)。



高阶网络社区



详情请见:

探索复杂系统高阶交互的奥秘 | 高阶网络读书会启动



推荐阅读



点击“阅读原文”,报名读书会