导语


唐建博士是国际上最早把深度学习运用于图结构数据的少数几名学者之一。早在2018年,他在图表示学习研究中意识到,最杀手级的应用或将诞生在生物医药领域。如今,在药物设计、蛋白质预测等领域,几何深度学习被广泛应用于捕获原子之间的空间关系,使得AI更好地理解和预测这些生命分子的三维结构。与此同时,生成式人工智能如火如荼;一场名为“AI for Science”的科技革命正在各个基础科学领域发生,那么,AI for Biology的未来是否是生成式的未来?这一突破又是否会成为生命科学跨越式发展的契机?

「几何深度学习」读书会第五期将由加拿大魁北克省人工智能研究中心(Mila)终身教授、加拿大高等研究院(CIFAR)讲席教授、北京百奥几何生物科技有限公司创始人兼CEO唐建,介绍团队基于蛋白质三维结构的几何深度学习在蛋白质理解方面的最新工作。读书会将于周一晚(8月5日)19:00-21:00进行,欢迎感兴趣的朋友参与讨论交流!





分享内容简介




蛋白质是活细胞的“workhorse”。理解蛋白质的功能对诸如生物医学和合成生物学等多种应用至关重要。由于基因测序和Cro-EM等最新生物技术突破,大量蛋白质数据(如蛋白质序列和结构)被生成,为人工智能提供了巨大机会。由于蛋白质的功能由其结构决定,在本次讲座中,我将介绍我们基于蛋白质三维结构的几何深度学习在蛋白质理解方面的最新工作,包括蛋白质表示学习、蛋白质结构预测的生成模型,以及蛋白质设计的生成模型在生物几何学中的实际应用。

Proteins are workhorses of living cells. Understanding the functions of proteins is critical to many applications such as biomedicine and synthetic biology. Thanks to recent biotechnology breakthroughs such as gene sequencing and Cro-EM, a large amount of protein data (such as protein sequences and structures) are generated, providing a huge opportunity for AI. As the functions of proteins are determined by their structures, in this talk, I will introduce our recent work on protein understanding based on protein 3D structures with geometric deep learning. I will introduce three different topics including protein representation learning, generative models for protein structure prediction, and generative models for protein design. I will also introduce how these techniques are used for real-world applications in protein design in BioGeometry.




分享内容大纲




一、几何深度学习带来生命科学领域的生成式未来

二、研究问题

  • 如何表示3D蛋白质结构?

  • 如何生成3D蛋白质结构?

三、用于三维结构表征与生成的几何深度学习模型

  • 基于结构的蛋白质表征学习 GearNet:几何蛋白质表征学习 GearBind:抗体优化应用

  • 三维结构生成模型 GeoDiff:用于小分子三维结构预测的扩散模型 DiffPack:用于蛋白质侧链预测的扩散模型

  • TorchDrug/TorchProtein:开源机器学习框架

四、 更多的重要的待解决的问题和挑战





主要涉及到的知识概念




图表示学习, Graph Pepresentation Learning

扩散模型, Diffusion Model

蛋白质结构预测, Protein Structure Prediction

蛋白质设计, Protein Design

抗体设计, Antibody Design

药物设计, Drug Design





讲者简介




加拿大魁北克省人工智能研究中心(Mila)终身教授,加拿大高等研究院(CIFAR) 讲席教授。Mila由图灵奖获得者Yoshua Bengio创立,是世界上学术界最大的人工智能研究中心。唐建博士也是初创公司百奥几何(BioGeometry)公司的创始人,致力于利用人工智能赋能下一代抗体药物研发。他的主要研究方向包括:图表示学习、几何深度学习、生成式模型、知识图谱推理以及这些技术在药物研发中的应用。

唐建博士是图表示学习领域的国际知名学者,曾获得机器学习顶级会议ICML2014的最佳论文以及数据挖掘顶级会议WWW‘16的最佳论文提名,发表了一系列在图表示学习领域的经典论文包括LINE、LargeVis、RotatE以及最近的Graph Markov Neural Networks (GMNN),其中,他的代表性工作LINE的单篇论文引用超过5000次。

近年来他的团队致力于利用人工智能赋能药物研发,发表了一系列开创性的成果,并且联合英伟达、Intel、IBM等科技公司开源了专门针对大小分子研发的机器学习平台TorchDrug和TorchProtein,引起了广泛的关注。




参考文献




推荐语:提出了能够学习蛋白质的3D结构的编码器,从而捕捉3D结构特征,相较之前学习氨基酸序列表征蛋白质的SOTA编码器,在使用更少训练数据前提下,大幅度提高了AI在功能预测和折叠分类任务上的能力。

Zhang Z, Xu M, Jamasb A, et al. Protein representation learning by geometric structure pretraining[J]. arXiv preprint arXiv:2203.06125, 2022.

推荐语:这篇论文的主要贡献是提出了一种名为GearBind的预训练几何图神经网络,通过多关系图构建、多层次几何信息传递和大规模未标记蛋白质结构数据的对比预训练,提高了抗体与其靶标抗原的结合亲和力,并成功增强了两种不同格式和靶标的抗体结合能力,显著提升了抗体治疗性开发中的亲和力成熟化。

Cai H, Zhang Z, Wang M, et al. Pretrainable geometric graph neural network for antibody affinity maturation[J]. bioRxiv, 2023: 2023.08. 10.552845.

推荐语:这篇论文的主要贡献是提出了一种新颖的概率框架,结合了流模型和能量模型的优势,以生成有效且多样化的分子构象,具有高模型容量来估计多模态构象分布,并显式捕捉原子间在观测空间中的复杂长程依赖性,显著提升了分子构象采样的生成模型性能。
Xu M, Luo S, Bengio Y, et al. Learning neural generative dynamics for molecular conformation generation[J]. arXiv preprint arXiv:2102.10240, 2021.
推荐语:这篇论文将生成式模型Diffusion与等变图神经网络进行结合,实现了3D分子构象的多样性生成。
Xu M, Yu L, Song Y, et al. Geodiff: A geometric diffusion model for molecular conformation generation[C]//International Conference on Learning Representations(ICLR), 2022.

推荐语:这篇论文的主要贡献是提出了DiffPack,一个基于扭转扩散模型的方法,通过在扭转空间上的扩散和去噪来学习侧链扭转角的联合分布,以自回归方式生成四个侧链扭转角,并在蛋白质侧链构象预测的多个基准测试中实现了显著的角度精度提升,同时模型大小显著减小,并证明了其在增强AlphaFold2模型侧链预测中的有效性。

Zhang Y, Zhang Z, Zhong B, et al. Diffpack: A torsional diffusion model for autoregressive protein side-chain packing[J]. Advances in Neural Information Processing Systems, 2024, 36.

推荐语:唐建教授带领团队打造的用于药物研发的开源机器学习平台 TorchDrug 和 TorchProtein。平台上实现了相关领域目前来看最重要的任务及其对应的模型和数据集。平台的搭建联合了 IBM、Intel、NVIDIA 等知名公司。
https://torchdrug.ai




参与方式




直播信息
时间:2024年8月5日(下周一)晚19:00-21:00
报名参与读书会:
斑图链接:
https://pattern.swarma.org/study_group_issue/728?from=wechat

扫码参与几何深度学习读书会,加入群聊,获取系列读书会回看权限,加入图神经网络与几何深度学习社区,与社区的一线科研工作者沟通交流,共同推动几何深度学习这一前沿领域的发展。


报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:几何深度学习读书会启动:破解自然法则,启发科学智能


几何深度学习读书会招募中


拓扑编织着复杂世界,机器学习孕育着技术奇点。一个维度,其中拓扑理论与深度学习模型交织共鸣;一个领域,它跨越了数学的严谨与本质以及人工智能的无限可能,开辟着通往科学新纪元的航道。让我们携手在几何深度学习的起点出发,一路探索如何走向AI for Science的无限未来。


集智俱乐部联合中国人民大学黄文炳副教授、上海交通大学王宇光副教授和南洋理工大学夏克林副教授发起「几何深度学习」读书会。从2024年7月11日开始,每周四19:00-21:00进行,持续时间预计 8-10 周,社区成员将一起系统性地学习几何深度学习相关知识、模型、算法,深入梳理相关文献、激发跨学科的学术火花、共同打造国内首个几何深度学习社区!欢迎加入社区与发起人老师一起探索!



详情请见:
几何深度学习读书会启动:破解自然法则,启发科学智能


大模型与生物医学:

AI + Science第二季读书会


生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

大模型与生物医学:AI + Science第二季读书会启动



图神经网络与组合优化读书会


现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计,而随着人工智能技术不断发展,算法自动学习算法的案例日益增多,如以神经网络为代表的的人工智能算法,这是算法神经化求解的缘由。在算法神经化求解方向上,图神经网络是一个强有力的工具,能够充分利用图结构的特性,实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。

为了探讨图神经网络在算法神经化求解的发展与现实应用,集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院副教授黄文炳,共同发起「图神经网络与组合优化」读书会。读书会将聚焦于图神经网络与算法神经化求解的相关领域,包括神经算法推理、组合优化问题求解、几何图神经网络,以及算法神经化求解在 AI for Science 中的应用等方面。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:
加速经典算法效率,突破现实技术瓶颈:图神经网络与组合优化读书会启动


点击“阅读原文”,报名读书会