AI不再黑箱：利用可解释的胶囊网络算法识别细胞亚型

2020-12-17 2,424 0

导语

理解细胞差异、为细胞分类，对生命科学具有重要意义，一系列基于基因转录数据和深度学习的分类方法正在兴起，但方法可解释性往往不足。近日由北京师范大学张江组、中科研基因所蔡军组合作发表的论文中，利用改进后的胶囊网络深度架构，应用于转录组分析和细胞分类，取得良好效果并具有较强的可解释性。

我们邀请论文第一作者王力飞博士，在周四（12月17日）的生命复杂性读书会中做线上分享，解读这项研究。分享将在B站和腾讯会议同步进行，参与方式见文末。

赵雨亭 | 作者

王力飞 | 审校

邓一雪 | 编辑

论文题目：

An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data

论文地址：

https://www.nature.com/articles/s42256-020-00244-4

生物学领域中，不同类型的细胞具有独特的转录组。单细胞转录组作为单个细胞的特征，能更加精确地定义细胞的类型。单细胞 RNA 测序（Single-cell RNA sequencing, scRNA-seq）技术可测量单个细胞的转录组，并可进一步应用到细胞类型的划分、细胞发育轨迹的推断以及细胞空间位置的定位等各方面。

目前已有一些用于单细胞转录组分析的生物信息学算法（如 Seurat、Moana 等）被开发出来。但可解释性不好，不能将基因与细胞类型联系起来，用于下游的分析。因此，科研工作者们需要设计出可解释高的方法，从而将基因与细胞类型联系起来。

近日，北京师范大学张江研究组、中国科学院北京基因组研究所（国家生物信息中心）蔡军研究组合作在 Nature Machine Intelligence 期刊发表论文，构建了决策过程可解释的深度学习网络模型：单细胞胶囊网络（single cell Capsule Network, scCapsNet），并将其应用到单细胞转录组分析中。

图1：以hPBMCs细胞系和mRBCs细胞系的scRNA-seq数据集进行测试，scCapsNet在分类任务上表现优异

1. 从胶囊网络到单细胞胶囊网络

深度学习已经广泛地应用到图像识别，自然语言处理中，极大地推动了这些领域的发展。同时，随着生物学数据的积累，不同的深度学习构架也被用来处理不同类型的生物学数据。但深度学习模型的运行缺乏透明度，可解释性不高，限制了这种方法的应用范围。

而在 Geoffrey Hinton 等提出的胶囊网络中，胶囊代表多个神经元组成的向量，作为基本的运算单位。每个向量（胶囊）代表特定对象的一种属性。所以，胶囊网络具有模块化的架构，适用于同样具有模块化特征的生物学数据。

最初版本的胶囊网络模型使用卷积神经网络作为特征提取器，用于图像分类任务。在这篇论文中，作者将其改造成为“单细胞胶囊网络”（scCapsNet ），以多个并联的神经网络替换原有卷积神经网络，作为特征提取器，用于单细胞表达谱的分类。

之所以叫单细胞胶囊网络，是因为其输入数据来自单个细胞的mRNA测序结果。网络结构分为两部分三层：

第一层为输入层，输入为单个细胞样本的基因表达谱；
第二层：初级胶囊，表示从表达谱中提取到的特征；
第三层：类型胶囊，用于最终的分类；

其中第一层和第二层为特征提取部分，第二层和第三层为胶囊网络部分。

图2：单细胞胶囊网络的构架，包括两部分：特征提取胶囊网络

2. 单细胞胶囊网络模型增加可解释性

单细胞胶囊网络从多个层面弥补了传统机器学习透明度低及缺乏可解释性的问题。模型的可解释性可包括计算模型层面以及生物学意义两方面：

在计算模型层面，单细胞胶囊网络由两部分共三层组成：耦合系数将第三层的细胞类型与第二层的初级胶囊联系起来，进而确定了细胞类型相关的初级胶囊。

图3：胶囊网络的耦合系数矩阵，联系其第二层与第三层间的可解释性

来自连接第一层输入层和第二层初级胶囊的神经网络权重矩阵则可以将模型的第一层与第二层联系起来。这样就在模型内部实现了细胞类型到基因的可解释性。

图4：模型可解释性：从细胞类型推断出特定的基因集合

该模型还具有生物学意义的可解释性，具体分为两个角度。从单个基因角度，单细胞胶囊网络找到的细胞类型相关基因中包含许多细胞标志物与细胞功能相关基因。从多个基因角度，对模型找到的细胞类型相关基因做整体的基因本体分析（GO 分析）与细胞通路（reactome）分析，发现这些基因执行相应的功能。

图5：根据本文模型，分析出对不同细胞亚型功能至关重要的基因

3. 小结

综上，这篇文章的作者们设计了一种可解释的胶囊网络深度学习架构（scCapsNet），通过分析胶囊结构之间的内部权重参数，使决策黑盒子透明化。相对于其他单细胞转录组自动分析工具，单细胞胶囊网络能更稳定更高效地分辨出属于新细胞类型的细胞，且单细胞胶囊网络能通过模型的内部参数找出细胞类型相关基因。

通过细胞类型相关基因，单细胞胶囊网络能将基因与细胞类型直接联系起来，极大地提高了深度学习模型的可解释性。本质上，单细胞胶囊网络将基因的表达特征和细胞类型特征进行低维编码，这样的编码富含生物学意义。

生命复杂性读书会第六期直播预告

集智俱乐部策划“生命复杂性”系列读书会，从信息和物理等跨学科视角讨论生命复杂系统问题，研读硬核论文书籍，分享学界前沿成果，激发科研合作灵感，目前已进行五期。

第六期读书会，我们邀请到中科院基因所王力飞博士，在周四（12月17日）19:00-20:30分享关于单细胞胶囊网络与细胞亚型分类的最新研究。王力飞也是上述论文的第一作者。如果你对这篇论文感兴趣，或者在做相关的研究工作，欢迎报名参加本次直播交流。

直播时间：12月17日（周四）19:00-20:30

参与方式1：集智俱乐部B站直播

扫描下方二维码，直达B站直播间地址：

👀关注B站主播“集智俱乐部”

不错过每一场集智重磅直播

直播地址：

https://live.bilibili.com/8091531

参与方式2：腾讯会议（可与主讲人互动交流，需报名读书会）

生命复杂性读书会的付费报名成员，可参与腾讯会议语音互动提问，并加入微信群交流。

时间：读书会自11月5日起，每周四晚19:00-21:00，持续约2-3个月

模式：线上读书会；收费-退款的保证金模式；读书会成员认领解读论文

费用：399元/人（可看录播）

了解读书会规则详情请点击下方链接：

生命复杂性系列读书会：从信息和物理视角探索生命的内在逻辑

推荐阅读

点击“阅读原文”，来看直播！

因果纠缠：集智俱乐部学术年会开放报名！

《因果科学周刊》第6期：领域自适应

发表评论点击这里取消回复。