学习分子动力学(MD)模拟,对于替代科学计算中广泛使用的昂贵量子力学计算非常有用。尽管最近取得了许多进展,但现有的机器学习势场是否足够用于科学目的呢?我们是否以正确的方式比较不同的模型?
计算已成为前沿科研工作者群体最主要的科研手段之一,AI for Science与云原生时代的到来,正在成为计算辅助科研全面升级的核心推动力,推动“创新-落地”链条的快速迭代。
本次分享我们有幸请到付襄和张与之两位讲者,为我们从分子动力学领域,探讨以上内容。
AI+Science是近年兴起的将人工智能和科学相结合的一种趋势。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣,共同发起以“AI+Science”为主题的读书会,从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
第一部分,付襄将介绍分子动力学模拟的相关内容。分子动力学(MD)模拟是自然科学研究中至关重要的工具,但传统的方法可能需要大量计算。机器学习(ML)力场(FFs)已成为一种有前途的选择,利用原子结构预测力并加速模拟。然而,重点放在力和能量预测误差上,在基准测试这些技术时可能不能充分捕捉到它们产生现实MD轨迹的潜力。在本期读书会中,我们引入了一个新颖的ML MD模拟基准套件,精心策划以反映各种科学应用。我们评估最先进的模型,并展示力量准确性本身可能不足以评估模拟性能。此外,我们探索了ML如何增强MD模拟的其他方法,例如增强采样方法、粗粒化模型和时间积分模拟器。我们的基准套件将成为未来研究的指南。
第二部分,张与之首先将会以分子模拟在材料设计和药物研发领域为例,介绍典型的AI for Science算法研发从实验室环境走向工业生产环境中的进展、遇到的瓶颈以及可能的解决方案,其中的关键词是各要素的持续规模化。其次,将以Bohrium案例广场(https://nb.bohrium.dp.tech/)为例分享如何在技术革新的浪潮中持续快速成长。
2.评估机器学习力场(Machine Learning Force Fields, ML FFs)
3.用分子动力学模拟进行基准测试机器学习力场(ML FFs)
a.增强采样
b.粗粒化
c.时间积分模拟器
1.AI for Science在分子模拟中的应用
1.1 分子模拟在材料设计和药物研发领域的应用实例
1.2 AI for Science算法在实验室环境到工业生产环境的推广中的难点和挑战
1. 分子动力学(Molecular Dynamics, MD):分子动力学是一种模拟方法,用于通过数值解决牛顿运动方程来研究分子系统的动态行为。这种方法可以用来研究各种物理化学过程,如蛋白质折叠、化学反应和材料的力学性能。推荐阅读:什么是统计力学 | 集智百科,介绍了统计力学的相关概念,包括分子动力学等。
2. 机器学习力场(Machine Learning Force Fields, ML FFs):机器学习力场是一种新兴的方法,通过使用机器学习算法来预测原子间的相互作用力,从而加速分子动力学模拟。推荐阅读:[Machine Learning Force Fields](https://pubs.acs.org/doi/10.1021/acs.chemrev.0c01111)
3. 增强采样(Enhanced Sampling):增强采样是一种用于改进分子动力学模拟的方法,通过在模拟过程中引入偏置潜力或修改系统的动力学来增加系统访问稀有事件的概率。推荐阅读:[Machine learning for collective variable discovery and enhanced sampling in biomolecular simulation](https://www.tandfonline.com/doi/full/10.1080/00268976.2020.1737742)
4. 粗粒化模型(Coarse-Graining Models):粗粒化模型是一种简化的模型,通过将原子或分子聚合成更大的“粒子”来简化系统的描述,从而使得模拟可以在更大的时间和空间尺度上进行。推荐阅读:[Coarse-Grained Modeling of the SARS-CoV-2 Spike Glycoprotein by Physics-Informed Machine Learning](https://dx.doi.org/10.3390/computation11020024)
从技术上讲,学习机器学习力场(ML FF)和学习粗粒化力场(CG FF)实际上是非常不同的,这篇论文对于(基于学习的)粗粒度模型是一个很好的推荐。当然,也有大量的工作在没有机器学习的情况下进行粗粒度建模。
[Machine Learning of Coarse-Grained Molecular Dynamics Force Fields](https://dx.doi.org/10.1021/acscentsci.8b00913)
5. 时间集成模拟器(Time-Integrated Simulators):时间集成模拟器是一种模拟工具,可以在长时间尺度上模拟系统的动态行为,通常用于研究系统的长期演化和稳态性质。推荐阅读:这是讲者付襄的预印本
[Simulate Time-integrated Coarse-grained Molecular Dynamics with Geometric Machine Learning](https://arxiv.org/abs/2204.10348)
这是一些其他的相关工作[Molecular Latent Space Simulators](https://pubs.rsc.org/en/content/articlelanding/2020/sc/d0sc03635h)
6. 分子模拟(Molecular Simulation):分子模拟是一种计算技术,用于模拟分子或原子的运动,以便研究物质的物理化学性质。这种技术在材料设计和药物研发等领域有广泛的应用。推荐阅读:关于分子模拟的论文解读,《用计算机真正模拟生命还要多久》。
7. 材料设计(Material Design):材料设计是一种研究领域,主要关注的是如何设计和发现新的材料以满足特定的应用需求。这个领域通常需要使用分子模拟等技术来预测新材料的性质。
8. 药物研发(Drug Development):药物研发是一个复杂的过程,包括药物设计、药效评估、临床试验等多个步骤。在这个过程中,分子模拟和其他计算技术被广泛用于预测药物分子的性质和药效。推荐阅读:即将开展的图神经网络与组合优化读书会主题五——图神经网络是AI for Science领域的基础工具,极大推动了AI在分子动力学模拟、材料设计、药物发现等任务上的应用前景。
付襄是麻省理工学院计算机与人工智能实验室的博士生,导师是Tommi Jaakkola教授。他对学习多尺度系统的生成模型和动力学模型感兴趣,旨在揭示它们复杂的分层结构、涌现现象,并开发创新技术以实现高效计算。他目前的研究重点是分子动力学和材料发现。
张与之,深势科技算法研究员,毕业于北京大学。与之是“深度势能”系列开源软件DeePMD-kit与DP-GEN的核心开发者之一,相关软件被广泛地用于分子模拟与材料设计;主导研发了药物设计领域自由能微扰计算软件Hermite Uni-FEP与微尺度科学计算云平台Bohrium,成果入选“北京建设国家人工智能创新应用先导区优秀案例” 。
Fu, Xiang, Zhenghao Wu, Wujie Wang, Tian Xie, Sinan Keten, Rafael Gomez-Bombarelli, and Tommi S. Jaakkola. “Forces Are Not Enough: Benchmark and Critical Evaluation for Machine Learning Force Fields with Molecular Simulations.” Transactions on Machine Learning Research, May 11, 2023. https://openreview.net/forum?id=A8pqQipwkt.
直播时间:
2023年6月18日(周日) 20:00-22:00
扫码参与读书会,加入群聊获取本系列读书会的视频回放权限、资料权限,与社区的一线科研工作者和企业实践者沟通交流。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。
集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 10:00-12:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
集智学园最新AI课程,
张江教授亲授:第三代人工智能技术基础
——从可微分编程到因果推理
自1956年“人工智能”诞生于达特茅斯会议以来,已经经历了从早期的以符号推理为主体的第一代人工智能,和以深度神经网络、机器学习为主体的第二代人工智能。ChatGPT的横空出世、生成式AI的普及、AI for Science等新领域的突破,标志着第三代人工智能的呼之欲出。可微分编程、神经微分方程、自监督学习、生成式模型、Transformer、基于图网络的学习与推理、因果表征与因果推断,基于世界模型的强化学习……,所有这些脱胎于前两代人工智能的技术要素很有可能将构成第三代人工智能的理论与技术的基础。
本课程试图系统梳理从机器学习到大语言模型,从图神经网络到因果推理等一系列可能成为第三代人工智能基础的技术要素,为研究者或学生在生成式AI、大模型、AI for Science等相关领域的学习和研究工作奠定基础。
https://campus.swarma.org/course/5084?from=wechat
现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计,而随着人工智能技术不断发展,算法自动学习算法的案例日益增多,如以神经网络为代表的的人工智能算法,这是算法神经化求解的缘由。在算法神经化求解方向上,图神经网络是一个强有力的工具,能够充分利用图结构的特性,实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。
为了探讨图神经网络在算法神经化求解的发展与现实应用,集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院助理教授黄文炳,共同发起「图神经网络与组合优化」读书会。读书会将聚焦于图神经网络与算法神经化求解的相关领域,包括神经算法推理、组合优化问题求解、几何图神经网络,以及算法神经化求解在 AI for Science 中的应用等方面,希望为参与者提供一个学术交流平台,激发参与者的学术兴趣,进一步推动相关领域的研究和应用发展。读书会从2023年6月14日开始,每周三晚 19:00-21:00 举行,持续时间预计8周。欢迎感兴趣的朋友报名参与!
点击“阅读原文”,报名读书会