分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

导语

最近，2024年诺贝尔物理学奖颁奖授予人工神经网络与机器学习，化学奖授予蛋白质设计和结构预测，展现了人工智能在推动科学创新方面的重要作用。然而，AI 到底如何促进当下科学的发展？又将如何影响科学的未来？对于 AI 带来的广阔机遇，科学家做好准备了吗？香港大学社会科学学院助理教授高见与美国西北大学凯洛格商学院教授王大顺合作于10月11日在 Nature Human Behaviour 发表最新研究，对这些问题提供了定量解释。

通过分析 7460 万篇论文、710 万项专利和 420 万份课程大纲数据，他们发现自2015年以来，人工智能的影响扩展到了几乎所有科学领域，使用人工智能的论文表现出“影响力溢价”。与此同时，人工智能对学科研究产生的影响并不均等，且人工智能的教育投入落后于人工智能的科研使用。领域专家与人工智能学者进行跨领域合作，可能是促进人工智能在科学领域广泛应用的新模式。

研究领域：科学学，人工智能，论文影响力，自然语言处理，计算社会科学

郭瑞东 | 作者

梁金 | 编辑

论文题目：

Quantifying the use and potential benefits of artificial intelligence in scientific research

论文地址：

https://www.nature.com/articles/s41562-024-02020-5

1. 人工智能给各个学科带来的

直接与间接影响迅速增加

从医学中的新药设计到社会科学中的税收政策制定，人工智能（AI）为科学研究带来的益处无处不在。今年两位科学家以开创性的人工智能研究获得了诺贝尔物理学奖，三位科学家因为将AI应用于蛋白质设计和结构预测的相关研究获得了诺贝尔化学奖。尽管人工智能发展迅速且应用广泛，但许多研究人员对人工智能如何造福他们的研究缺乏系统性的理解，对人工智能是否能够在每个领域都推动科学发展仍存在怀疑。

王大顺团队的新研究开发了一个测量框架，应用自然语言处理（NLP）技术处理庞大的数据集（包含19个学科292个领域在1960-2019年间发表的近7500万篇学术论文的题目和摘要），可估算人工智能在科学研究中的直接使用和潜在益处。该框架首先估计一个领域中 AI 使用的频率。具体来说，研究者从AI领域论文的标题和摘要中提取 AI 相关术语词组（AI n-gram；他们识别出5个AI子领域：机器学习，人工智能，计算机视觉，自然语言处理和模式识别。然后从这些AI子领域的论文中提取使用频率最高的关键术语，如监督学习、词嵌入、生成对抗网络），并计算 AI n-gram 在每篇AI文章中出现的频率。接着将所有论文分领域，同样从论文的标题和摘要中提取 AI n-gram，进一步按年度统计这些领域内论文中 AI n-gram 的出现频率，以近似代表AI在特定年份在某一学科领域内的使用情况（图1a）。

图1. 各学科和不同年份对AI的直接使用情况估计

研究发现，近年来人工智能在各个领域的直接使用情况令人瞩目，并且使用人工智能的论文有更多的“影响力溢价”。具体而言，研究人员考察一篇论文被引用的次数，并将引用次数位于同一领域和年份发表论文的 5%以内的论文定义为“热门论文”。研究发现：无论学科如何，在标题或摘要中提及 AI 相关术语的学科论文都会获得更多引用，更有可能成为热门论文，并从其他学科获得更高的引用比例（图1e,f）。

人工智能在学科领域内的使用量不断增加，以出版物标题或摘要中提及与人工智能相关的术语来体现。从 2015 年到 2019 年，与人工智能发展停滞不前的假设情况相比，人工智能的飞速发展提高了各个学科对其的直接使用，包括计算机科学（37%）、工程（24%）、物理（24%）、生物学（22%）、心理学（24%）、经济学（14%）、社会学（30%）和政治学（27%）。由于新人工智能算法的成熟，人工智能带来的直接影响（使用）均显著上升，且预期未来还会进一步上升。

值得关注的是，这种人工智能直接使用的增长并非线性；增长幅度在2015年后特别显著。具体而言，图1g中的虚线表示如果固定使用2015年AI相关的词汇计算得出的AI影响，实线为使用新词后得到的AI影响，实线显著高于虚线，说明AI在各个学科直接使用的显著增加，更多源于人工智能领域的前沿发展。与此同时，研究者也发现各个学科间的增幅存在不均等的现象，例如人工智能在工程学中的使用量远高于社会学。

前文讨论的是AI对各个学科的直接影响（使用），然而随着人工智能的“能力”提升，可能有助于完成学科领域内的基本“任务”。该研究假设，人工智能的“能力”可以用“动词-名词”组合来表征（例如，“learn representation”，即“学习表征”），从而进一步量化人工智能对科学研究可能产生的潜在影响（图2a）。对于生物学家来说，这样的领域任务可能就是“识别基因”；对于化学家来说，可能是“催化反应”。

图2. AI 对不同学科的潜在影响估计及学科异质性分析

根据这一框架，可估计一个学科内哪些子领域可能从人工智能中受益最大。以生物学为例，研究结果表明，从人工智能中获益最大的子领域是“生物系统”（图2c），因为许多这个领域的基本“任务”与人工智能的“能力”相一致（例如，“提取特征”、“检测对象”和“改进预测”）。除此之外，各个领域的AI直接使用与间接获益彼此高度相关（图2e）。而综合各个学科（图2g），可发现几乎每个学科都有一些子领域受到人工智能的显著影响，即使在整体 AI 影响较低的学科中也是如此，比如社会学和经济学。这表明了人工智能对自然及社会科学的影响是普遍的。

2. 大学对科研工作者在AI上的教育投入，

可能已经滞后AI给科研的帮助

通过对开放课程大纲项目（OSP）数据库的 420 万份大学课程大纲的分析，可估算每个学科中教授人工智能相关内容的多少，图3a和b指出，多数科学的人工智能人才和知识供应，与它们可能从人工智能中提取的益处不相称，这突出AI在科学研究中的影响力与相关领域的AI教育间存在显著差距。人工智能的相关教育存在系统性错位。高等教育中对人工智能的关注，并没有跟上科学受益于人工智能的步伐。这也就意味着，人工智能在科学领域的应用已经飞速发展，而培训科研工作者更好地使用人工智能的大学教育却落后了。

为了满足人们对人工智能日益增长的知识需求，领域专家可能会依赖跨学科合作以获取人工智能知识。通过分析涉及人工智能的合作研究（图3c），发现大约 42% 涉及人工智能的论文是由领域专家独立完成，约三分之一的论文是由领域专家和计算机科学家合作的，而由计算机科学家独立完成的占21.6%。

图3. 学科中AI教育与AI使用的关系及AI相关研究的合作情况

在人工智能使用多的学科领域，能看到领域专家与计算机科学家更多地展开合作（图3d,e）。此外，主要学科中合著的人工智能文章占比随着时间的推移而增加（图3f）。领域专家与AI学者的合作，能暂时缓解对AI知识的迫切需求，跨学科合作可能变得更加重要。各个学科领域的科学家越来越倾向于依赖那些对人工智能有更专业知识的同行。这表明，在科学领域充分利用人工智能不仅需要更多的资金来培训科学家，还需要更多跨学科合作的机会。

3. 人工智能的影响

对女性和少数族裔研究人员有差别

历史上，女性和少数族裔在某些领域，尤其是在 STEM（科学，技术，工程及数学）领域，代表性不足。该研究发现：随着科学领域人工智能的使用持续增长，这些群体从新技术中受益的可能性也不成比例。图4a和b展示了每个学科中女性科学家的比例与其受到AI的直接与间接影响得分，结果指出女性占比越高的研究领域，从AI的潜在获益越少。换句话说，女性科学家往往与较低的人工智能直接使用和间接益处得分相关，也就意味着，相比于男性科学家，她们较少地从人工智能的发展中获益（图4c,d）。类似地，少数族裔也有存在从人工智能中获益不均等的现象。

图4. 女性和少数族裔从人工智能的发展中获益不均

上述结果表明，尽管人工智能对所有学科都具有潜在益处，这些益处可能在不同学科间分配不均。随着人工智能对科学的影响持续增长，可能会带来性别和种族方面的职业发展差距，进而加剧学术界的不平等。

4. 总结

这项基于大规模数据分析的研究，有助于我们更好地理解人工智能可能对科学研究所产生的影响。研究指出：领域专家与人工智能学者的合作，可能是一种促进人工智能在科学领域广泛应用的新模式，这有助于将人工智能理论发展迅速转化为人工智能落地应用。同时，在大学通识教育和研究生专业教育中，相应地增加人工智能教育投入，有助于发展领域内的AI专业知识，帮助领域专家从飞速发展的人工智能技术中获得更多的益处，从而推动和加速科学发展。

参考链接：https://insight.kellogg.northwestern.edu/article/ai-is-revolutionizing-science-are-scientists-ready#!

学者简介

高见，香港大学社会科学学院助理教授。致力于开展计算社会科学、科学与创新、复杂系统等跨学科交叉研究，以大规模数据分析和人工智能技术为主要工具，定量化地揭示复杂社会经济系统的结构和运行规律，为深入理解科学创新和社会发展提供新视角。研究成果发表在Science、Nature Human Behaviour、Nature Communications、Physics Reports等期刊；被 Nature News、Science Magazine、Scientific American、Forbes、中国日报等媒体广泛报道。

王大顺，美国西北大学凯洛格商学院和 McCormick 工程学院教授。凯洛格学院 Ryan 复杂性研究所联合创始主任，科学学与创新中心（CSSI）创始主任，西北复杂系统研究所（NICO）核心教员。目前的研究重点是科学学，希望利用和发展复杂科学和人工智能工具，广泛探索科学与创新领域的运行发展规律。研究成果发表于 Nature、Science、PNAS、Nature Human Behaviour、Nature Physics、Nature Reviews Physics、Nature Machine Intelligence、Nature Communications 等期刊。他的第一本书是《科学学》（The Science of Science），与 Albert-Laszlo Barabasi 合著。

面向未来的科学学读书会招募中

科学是研究实践、是理性精神，也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学这门学科，旨在深入理解科学研究的种种因素并推动科学发展。科学的迅猛发展在积累科学知识的同时，也遭遇诸多社会、伦理、政策问题：开放科学的范式如何影响科学研究的实践？阶层、性别、种族、国家等视角如何揭示科学不平等的起源？期刊编辑和审稿人如何塑造当今的科学活动？科学人口结构、人才激励、科技人才流动如何影响科学发展？AI大模型如何重塑科学研究的各个环节？

为了思考和回应科学的多元化挑战、科学开放性面临的危机，以及新兴技术对科学的冲击，集智俱乐部联合美国匹兹堡大学博士后崔浩川、东南大学副研究员孙烨、田纳西大学信息学院助理教授李恺、纽约大学阿布扎比分校博士研究生刘逢源、南京大学地理与海洋科学学院研究员古恒宇，共同发起「面向未来的科学学读书会」，这是继「复杂系统下的科学学读书会」之后的新一季科学学读书会。读书会从2024年8月25日开始，每周六晚19:00-21:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：面向未来的科学学读书会：探索开放科学范式，揭示科学不平等的起源

推荐阅读

1. Science最新：流行病大爆发期间政策与科学的共演化

2. 后疫情时代的科学：新启动项目减少，带娃分身乏术，性别不平等加剧

3. "计算社会经济学"长文综述：洞察社会经济发展的跨学科新视角

4. Science长文综述：什么是科学学

5. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

6. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

7. 加入集智，一起复杂！

点击“阅读原文”，报名读书会