关键词:生物复杂系统,疾病聚类,全基因组关联分析,疾病预测,语言模型

郭瑞东 | 编译



论文题目:The high-dimensional space of human diseases built from diagnosis records and mapped to genetic loci

论文来源:Nature Computational Science

论文链接:https://www.nature.com/articles/s43588-023-00453-y


传统上,人类疾病被视作单一、独立的实体来研究,这限制了研究人员将人类疾病视为一个复杂的、内稳态系统中的相互依赖状态。这项研究使用超过1.51亿美国人的时间戳临床记录,构建隐空间,将疾病表征为一个连续高维空间中的点,使得具有相似病因和表型的疾病相互靠近。
 
研究中使用 UK biobank 队列,其中包含50万参与者,执行一个针对新定义的反映个人健康状况的人类数量性状的全基因组关联分析,对应于疾病空间中的患者位置。研究发现了涉及108个基因位点的116个基因关联,然后使用嵌入空间中疾病聚类分析产生的10个疾病聚簇以及30种常见疾病,证明这些基因关联可用于稳健地预测各种疾病。
 
该研究的第一步,是从包含了547种疾病,涵盖1.51亿美国人的医疗数据中,使用 word2vec 词向量的方式,构建疾病的隐空间。初始数据包括描述医疗诊断及发病场景的文本。通过构建语言模型,预测诊断记录中的下一个词,构建的隐空间包含了疾病之间的相互关系。降维到20维后,可以看到不同类型的疾病之间的差异(图1bc)。进一步降维到3维时,可以看到不同类型的疾病出现聚簇(图1a)
 
图1. 基于疾病表型聚簇的可视化
 
基于医疗数据,研究者将疾病进行聚类,得到了20个聚簇。图中的不同颜色代表了人体的不同系统,图中标出文字的疾病,代表了该疾病与对应聚簇的cos相似性的大小,每个聚簇列出最相关的10种疾病。
 
图2. 疾病聚簇的结果图
 
在构建了表征多种复杂疾病的隐空间后,使用既有表型数据、又有基因数据的 UK biobank 数据,根据医疗记录在隐空间中的表征,进行全基因组关联分析,预估每个维度上的遗传度(图3a)。图3b展示了全基因组关联分析中存在统计显著的维度(标星),其中的颜色代表不同维度间的相关性。图3c为存在显著差异的基因位点的曼哈顿图。
 
图3. 对于疾病在隐空间中表现聚类进行全基因组关联分析的结果
 
在全基因组关联分析后,可基于找到的表型相关基因位点,进行多基因风险评估,结果显示,除了对于变应型鼻炎,基于新方法得到的预测比基于单一疾病的方法准确度更高。这说明将疾病视作一个整体研究,有助于把握住疾病间的相互关系。该研究还指出了自然语言处理的方法,可用于临床诊断数据,从中获得关于生物复杂性的洞见。
 


AI+Science 读书会


AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。
集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动


推荐阅读

1. 老药新用治疗新冠疾病?网络医学框架加速药物研发
2. 复杂传染:信息和疾病如何在复杂网络中传播?| 集智百科
3. Nature 速递:预训练深度学习模型进行网络生物学预测
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会