导语


分子的3D结构解释了分子如何与生物靶点相互作用,这对于理解药物的有效性和选择性至关重要。目前,虽然以扩散模型(Diffusion Model,DMs)为基础的Stable Diffusion、DALL·E、Sora等文生图、文生视频工具,已是生成式人工智能中与ChatGPT比肩的杀手锏级应用。但是,扩散模型在3D分子生成上却仍效果不尽人意,难以稳定地拟合真实分子结构的概率分布。如何让生成式AI更进一步,拟合3D结构,设计药物分子,加速健康医疗发展?

「几何深度学习」读书会第八期将由清华大学博士生宋宇轩,将带领社区成员全面地认识几何图的深度生成模型的现有研究,介绍在该领域中所取得的一系列发表在ICML、NeurIPS、ICLR上的创新成果HierDiff、EquiFM以及MolCRAFT,最后将与大家一起探索未来的研究计划。读书会将于9月6日(本周五)19:00-21:00进行,欢迎感兴趣的朋友参与讨论交流!




分享内容简介




3D 分子生成对药物发现至关重要,需要同时确定分类特征(原子类型)和连续特征(原子坐标)。传统的深度生成模型,包括扩散模型(DMs),尽管显示出前景,但面临诸如不稳定的概率动态和低效采样过程等重大挑战。为了突破 3D 分子生成的界限并解决这些限制,我们将介绍一套创新方法,超越扩散模型:

首先,层次扩散模型 (HierDiff) 通过采用粗到细的策略解决生成大分子的质量问题。HierDiff 通过等变的扩散过程生成粗粒度的几何结构,然后通过消息传递过程将其细化为细粒度的片段,保存局部段的有效性而无需依赖自回归建模。

此外,几何流匹配(EquiFM) 通过混合概率路径,利用等变建模来稳定概率动态,通过等变最优传输对不同模态的信息进行对齐。这种方法在生成高质量分子结构方面一致性优于现有模型。

为了处理分子几何生成的多模态和噪声敏感性,几何贝叶斯流网络 (GeoBFN) 引入了在可微参数空间中的建模。GeoBFN擅长于保持不变的密度建模,并提供可适应的采样策略以平衡效率和质量,在多个基准上实现了最先进的性能。

最后,我们介绍 MolCRAFT,这是 GeoBFN 针对基于结构的药物设计 (SBDD) 的条件版本。MolCRAFT 在连续参数空间中运行,并采用减噪采样策略。它解决了自回归和扩散方法固有的模式崩溃和混合空间问题。MolCRAFT在结合亲和力和 3D 结构稳定性方面表现出色,创下了 Vina Scores 的新纪录,并显著优于现有基准。

这些进步不仅提高了 3D 分子生成的效率和质量,还为更准确和可靠的药物发现过程铺平了道路。

Deep Generative Models for Geometric Graphs Generation: Beyond Diffusion Models

The generation of 3D molecules is crucial for drug discovery, requiring both categorical (atom types) and continuous (atom coordinates) feature determination. Traditional deep generative models, including Diffusion Models (DMs), have shown promise but face significant challenges such as unstable probability dynamics and inefficient sampling processes. To push the boundaries of 3D molecular generation and address these limitations, we will introduce a suite of innovative methods beyond diffusion models:

Firstly, the Hierarchical Diffusion-based Model (HierDiff) addresses poor quality in generated large molecules by employing a coarse-to-fine strategy. HierDiff generates coarse-grained geometries via an equivariant diffusion process and refines them into fine-grained fragments through a message-passing procedure, preserving local segment validity without relying on autoregressive modeling.

Moreover, Equivariant Flow Matching leverages equivariant modeling to stabilize probability dynamics via a hybrid probability path, aligning information across different modalities through equivariant optimal transport. This approach consistently outperforms existing models in generating high-quality molecular structures.

To handle the multi-modality and noise sensitivity of molecule geometry generation, Geometric Bayesian Flow Networks (GeoBFN) introduce modeling in a differentiable parameter space. GeoBFN excels in maintaining invariant density modeling and offers adaptable sampling strategies to balance efficiency and quality, achieving state-of-the-art performance across multiple benchmarks.

Finally, we present MolCRAFT, a conditional version of GeoBFN tailored for structure-based drug design (SBDD). MolCRAFT operates in continuous parameter space and employs a noise-reduced sampling strategy. It addresses key challenges such as mode collapse and hybrid space issues inherent in autoregressive and diffusion methods. MolCRAFT achieves superior binding affinity and 3D structural stability, setting new records in Vina Scores and significantly outperforming existing baselines.

Together, these advancements not only enhance the efficiency and quality of 3D molecule generation but also pave the way for more accurate and reliable drug discovery processes.





分享内容大纲




1. 背景与研究目标:

  • 几何图生成:定义、相关文献及挑战

2. 几何图的深度生成模型:

  • HierDiff -> 可扩展性(ICML 2023)

  • EquiFM -> 稳定生成(NeurIPS 2023)

  • GeoBFN -> 推动经验极限(ICLR 2024 口头报告)

  • MolCRAFT ->给定靶点的药物生成最佳实践 ( ICML 2024)

3. 研究总结

4. 未来计划


1. Backgrounds & Research Goals:

  • Geometric Graph Generation:Definition、Previous Literatures & Challenges

2. Deep Generative Models for Geometric Graphs:

  • HierDiff -> Scalability (ICML 2023)

  • EquiFM -> Stable Generation (NeurIPS 2023)

  • GeoBFN -> Pushing Empirical Limits( ICLR 2024 Oral)

  • MolCRAFT ->State of the art in SBDD ( ICML 2024)

3. Research Summary

4. Future Plans





主要涉及到的知识概念




Diffusion Models (扩散模型)

Flow Matching (流匹配模型)

Bayesian Flow Networks (贝叶斯流网络)

Equivariant Graph Neural Networks (等变神经网络)

Structure-based Drug Design (基于结构的药物设计)





参考文献




Qiang, B., Song, Y.*, Xu, M., Gong, J., Gao, B., Zhou, H., … & Lan, Y. (2023, July). Coarse-to-fine: a hierarchical diffusion model for molecule generation in 3d. In International Conference on Machine Learning (pp. 28277-28299). PMLR.

Song, Y.*, Gong, J., Xu, M., Cao, Z., Lan, Y., Ermon, S., … & Ma, W. Y. (2024). Equivariant flow matching with hybrid probability transport for 3d molecule generation. Advances in Neural Information Processing Systems, 36.
Song, Y.*, Gong, J., Qu, Y., Zhou, H., Zheng, M., Liu, J., & Ma, W. Y. (2024). Unified generative modeling of 3d molecules via bayesian flow networks. The Twelfth International Conference on Learning Representations (ICLR 2024)

Qu, Y., Qiu, K., Song, Y.*, Gong, J., Han, J., Zheng, M., … & Ma, W. Y. (2024). MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space. In International Conference on Machine Learning(ICML 2024)





讲者介绍




宋宇轩,清华大学智能产业研究院的第二年博士生,导师是马维英教授和周浩教授。之前曾在字节跳动人工智能实验室担任研究员,与周浩教授和李磊教授共同研究深度生成模型及其在结构化数据中的应用。在上海交通大学获得了学士和硕士学位,导师是俞勇教授。当前的研究集中在深度生成模型和科学人工智能(AI4Science)领域,特别关注开发有效且可扩展的机器学习算法,以解决科学发现中的挑战性问题,如蛋白质折叠、分子生成和材料设计等。在ICLR、ICML等会议期刊上以一作发表多篇文章,共发表17篇文章,引用量354次。
https://pattern.swarma.org/user/147464





参与方式




直播信息
时间:2024年9月6日(本周五) 19:00-21:00

报名参与读书会:

斑图链接:

https://pattern.swarma.org/study_group_issue/734?from=wechat


扫码参与几何深度学习读书会,加入群聊,获取系列读书会回看权限,加入图神经网络与几何深度学习社区,与社区的一线科研工作者沟通交流,共同推动几何深度学习这一前沿领域的发展。


报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:几何深度学习读书会启动:破解自然法则,启发科学智能


几何深度学习读书会招募中


拓扑编织着复杂世界,机器学习孕育着技术奇点。一个维度,其中拓扑理论与深度学习模型交织共鸣;一个领域,它跨越了数学的严谨与本质以及人工智能的无限可能,开辟着通往科学新纪元的航道。让我们携手在几何深度学习的起点出发,一路探索如何走向AI for Science的无限未来。


集智俱乐部联合中国人民大学黄文炳副教授、上海交通大学王宇光副教授和南洋理工大学夏克林副教授发起「几何深度学习」读书会。从2024年7月11日开始,每周四19:00-21:00进行,持续时间预计 8-10 周,社区成员将一起系统性地学习几何深度学习相关知识、模型、算法,深入梳理相关文献、激发跨学科的学术火花、共同打造国内首个几何深度学习社区!欢迎加入社区与发起人老师一起探索!



详情请见:
几何深度学习读书会启动:破解自然法则,启发科学智能


图神经网络与组合优化读书会


现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计,而随着人工智能技术不断发展,算法自动学习算法的案例日益增多,如以神经网络为代表的的人工智能算法,这是算法神经化求解的缘由。在算法神经化求解方向上,图神经网络是一个强有力的工具,能够充分利用图结构的特性,实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。

为了探讨图神经网络在算法神经化求解的发展与现实应用,集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院副教授黄文炳,共同发起「图神经网络与组合优化」读书会。读书会将聚焦于图神经网络与算法神经化求解的相关领域,包括神经算法推理、组合优化问题求解、几何图神经网络,以及算法神经化求解在 AI for Science 中的应用等方面。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:
加速经典算法效率,突破现实技术瓶颈:图神经网络与组合优化读书会启动


点击“阅读原文”,报名读书会