Nat. Mach. Intell. 速递:复杂预测的拓扑结构
关键词:复杂预测模型,深度学习,拓扑数据分析,图学习
论文题目:Topological structure of complex predictions 期刊来源:Nature Machine Intelligence 论文地址: https://www.nature.com/articles/s42256-023-00749-8
目前的复杂预测模型是通过将深度神经网络、图卷积网络或传感器拟合到一组训练数据中得出。这些模型面临的一个关键挑战是它们高度参数化,这使得描述和解释预测策略变得困难。这项研究使用拓扑数据分析(topological data analysis),将这些复杂的预测模型转化为预测景观的简化拓扑视图。
拓扑数据分析(TDA)擅长提取表征不变信息 ,因为它旨在不降低维度的情况下简化数据在环境空间中的形状。对于复杂预测模型(如深度学习),拓扑数据分析仍处于起步阶段 。现有研究主要关注以下几个方面:评估网络权重的拓扑特性、评估网络使用的特征的拓扑结构、使用拓扑一致的算子初始化网络权重,以及将拓扑特征添加到预测中。该方法旨在评估神经网络嵌入的拓扑结构、数据的表示以及它们与预测之间的相互作用。结果是一张预测地图可以比 tSNE 和 UMAP 等降维方法更具体地检查模型结果。这些方法适用于不同领域的大型数据集。
研究中展示了一个基于 transformer 模型的案例研究,旨在预测成千上万个基因组轨迹中一段 DNA 的表达水平。当该模型用于研究 BRCA1 基因的突变时,拓扑分析显示它对突变的位置和 BRCA1 的外显子结构非常敏感,这是基于降维工具无法找到的。此外,拓扑框架提供了多种检查结果的方式,包括比模型不确定性更准确的误差估计。进一步的研究表明,这些思想在基于图的学习和图像分类中产生了有用的结果。
图1. 研究中设计了一种递归的分割和合并过程,称为基于图的拓扑数据分析(graph-based topological data analysis,GTDA)以简化数据。
图2. 将 GTDA 应用于 Enformer 模型,以研究有害基因变异。
人工智能与数学读书会启动
详情请见:
人工智能与数学读书会启动:AI for Math,Math for AI
推荐阅读