关键词:生成模型,Regression Transformer,多任务语言模型


论文题目:Regression Transformer enables concurrent sequence regression and generation for molecular language modelling

论文来源:Nature Machine Intelligence

论文链接:https://www.nature.com/articles/s42256-023-00639-z


生成模型(generative model)在自然科学中取得了巨大进步,但其可控性仍然具有挑战性。分子或蛋白质生成模型的一个致命弱点是归纳偏差(inductive bias),可能反映感兴趣的连续性质。


最近发表在 Nature Machine Intelligence 的这篇文章提出了一种将回归抽象为条件序列建模问题的方法,称为回归转换器(Regression Transformer,RT)。这是一种新型的多任务模型,可以在数字和文本标记的组合上进行训练,与 Transformer 中处理回归的规范方式不同。这为多任务语言模型引入了一个新的方向,无缝地桥接了序列回归和条件序列生成。他们证明,尽管使用标称尺度(nominal-scale)训练目标,Regression Transformer 在小分子、蛋白质和化学反应的性质预测中的效果,可能超过常规回归模型的性能。


更重要的是,用连续属性启动同一个模型,产生了一个强大的条件生成模型(conditional generative model),该模型在子结构约束的、属性驱动的分子生成基准中优于专门的方法。他们由交替的训练方案训练二分法,使模型能够基于期望的属性约束来修饰种子序列。此种多任务方法有望成为材料设计的基础模型。


图1. Regression Transformer 概览


图2. 用 Regression Transformer 进行属性驱动和局部优化的分子设计





编译|朱欣怡

AI+Science 读书会启动



详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动


推荐阅读

1. AI生成艺术的底层原理:非平衡物理的扩散模型
2. AI艺术的背后:详解文本生成图像模型
3. Nat. Commun. 速递:抽象表征从训练执行多任务的神经网络中自然涌现
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会