Nat. Mach. Intell. 速递：超图因子分解方法用于多组织基因表达插补

2023-07-25 1,869 0

关键词：多组织基因表达插补，转录组学，超图，图表示学习，注意力机制，编码器-解码器

论文题目：Hypergraph factorization for multi-tissue gene expression imputation

斑图地址：https://pattern.swarma.org/paper/dd285798-24f5-11ee-931d-0242ac17000d

论文地址：https://www.nature.com/articles/s42256-023-00684-8

多组织插补（Multi-tissue imputation）是转录组学的核心技术之一，用于处理在多组织基因表达数据中的缺失值，进而帮助阐明调节各种发育和生理过程的机制。插补算法利用其他相关组织的信息来预测缺失的基因表达值。例如，如果肝脏组织的基因表达数据中有缺失值，可以使用来自胰腺或肾脏等相关组织的数据来预测这些缺失值。针对基因表达的插补算法，通常涉及到统计模型或机器学习算法，从已知数据中学习基因表达模式，并预测缺失数据。但在计算上，多组织转录组插补具有挑战性，因为数据维度随着基因和组织的规模变化而快速变化，通常导致模型过参数化。

最新发表在 Nature Machine Intelligence 的论文中，作者提出了一种图表示学习方法——HYFA（超图因子分解，hypergraph factorization），用于同时处理来自多个组织和多种细胞类型的基因表达数据，并预测其中的缺失值。该方法在处理大规模基因表达数据时，具有较高的计算效率和准确性。

具体而言，在HYFA中，多组织基因表达被表示为一个由个体（即基因测序生物个体）、元基因（即一组或一类基因的集合）和组织（即基因表达数据的来源部位）构成的超图。其中每个节点代表一个元基因，每个超边（hyperedge）连接到一组元基因节点，代表了一个个体在特定组织中表达的基因集合。使用超图数据结构可以捕捉到基因表达数据中的复杂模式，包括基因之间的相互作用、基因在不同组织中的表达差异，以及不同个体之间的差异，进而为机器学习提供丰富上下文信息。

HYFA架构的关键部分是超图消息传递的神经网络，采用注意力机制，对不同超边赋予不同权重，然后根据权重对超边进行聚合，从而得到每个节点的新的特征表示。这种机制帮助模型确定哪些信息更重要（注意力权重反映了某个节点对其他节点的重要性），从而缓解过度压缩问题，并增强可解释性。

HYFA的另一个重要特性是它并不依赖于具体基因型，而是依赖于基因表达的模式和组织的类型，因此可以支持每个个体收集的不同的组织数量，并且可以利用组织和基因的共享调控结构（即基因/组织/个体关系的先验知识或假设），有效地进行基因表达插补。

HYFA模型还包括一个编码器和一个解码器，编码器负责将输入数据转换为低维隐空间，解码器则将隐空间数据转换回原始高维空间，便于模型处理高维数据。

实验和分析表明，该方法是参数高效的，无需大量参数，可以在较少的数据上进行有效学习。HYFA在处理基因表达数据时，不需要获取个体的基因型信息，同时可以应对数据中每个个体收集的组织数量不同的情况，因此在实际应用中更加灵活。使用HYFA插补的数据集，研究人员可以更有效地识别影响基因表达遗传位点的遗传变异。

此外，HYFA不仅可以用于单个数据集的基因表达插补，还可以用于整合多个组织和/或细胞类型的转录组数据，这有助于构建和利用大规模的转录组生物库。

图 1 本文 HYFA 模型架构示意图。其中 a为HYFA的超图结构，b 为模型的注意力机制，c 为编码-解码过程。

编译｜刘培源

图神经网络与组合优化读书会进行中

详情请见：

加速经典算法效率，突破现实技术瓶颈：图神经网络与组合优化读书会启动

推荐阅读

‍1. 图表示学习、预测和评估 | Nat. Comput. Sci. 速递

2. Sci. Adv. 速递：大型超图中的社团检测

3. 前沿进展：随机超图上级联故障的阈值模型

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 《张江·复杂科学前沿27讲》完整上线！

6. 加入集智学园VIP，获得20周年“涌现”学术年会入场券！

7. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

Nat. Mach. Intell. 速递：超图因子分解方法用于多组织基因表达插补

Sci. Adv. 速递：大型超图中的社团检测

Science 速递：多物种微生物群落共存是一种涌现现象

发表评论点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

Nat. Mach. Intell. 速递：超图因子分解方法用于多组织基因表达插补

微信扫一扫,分享到朋友圈

Sci. Adv. 速递：大型超图中的社团检测

Science 速递：多物种微生物群落共存是一种涌现现象

猜你喜欢

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

发表评论 点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

关注我们的公众号

发表评论点击这里取消回复。