导语

最先进的人工智能算法已经开始在探测星系的演化、计算量子力学波函数、探索新的化合物等领域施展拳脚。那么，还有没有那种无法自动化而只能由科学家完成的工作？

编译：集智俱乐部翻译组

来源：quantamagazine

原文题目：

How Artificial Intelligence Is Changing Science

如今的物理学和天文学实验会产生海量的数据，已经没有人或团队能够跟进所有的这些数据了。其中一些数据每天以TB级的规模增加，而且这个趋势不会减弱。在二十一世纪 20 年代中期射电望远镜Square Kilometer Arra 将投入使用，它每年产生的数据量和整个互联网的数据量一样多。

面对数据洪流，许多科学家开始求助于人工智能。只需要少量的人工输入，人工智能系统（如神经网络）就能够在数据海洋中漫游，识别异常，挖掘出人类尚未发现的模式。

当然，利用计算机来辅助科学研究的历史可以追溯到约 75 年前，然而人类几千年前就在手工调查研究数据来寻找其中的有意义的模式。但是，近期一些科学家认为以机器学习、人工智能为代表的新技术能以一种全新的模式去进行科研工作。其中一种被称为生成模型的方法，能从对观测数据的诸多解释中找到最可信的理论，更为重要的是，该方法在研究中无需预先编入对于系统可能起作用的物理过程。其拥护者认为，生成模型的创新程度足可以被视为理解宇宙的潜在的“第三种方法”。

如果我们忘却所有的关于天体物理学的知识。仅依靠数据本身，我们能在多大程度上重新发现这些知识？

——Kevin Schawinski

在传统上，我们是通过观测来了解自然的。回想一下，开普勒就是通过研究第谷的行星位置表，辨识潜在的行星运行模式，才得以推断出行星是沿椭圆轨道运行的。同样的，科学可通过模拟来获得进步。一位天文学家可能会模拟银河系及其邻近的仙女座星系的运动，并预测它们将在几十亿年后碰撞。观测和模拟都有助于科学家生成假设，然后用进一步的观测来检验假设，而生成模型不同于这两种方法。

瑞士联邦理工学院的天文物理学家 Kevin Schawinski 也是一位生成模型的积极支持者。他认为：“生成模型是介于观测和模拟之间的第三种方法，这是解决问题的另一种方式。”

Kevin Schawinski 是一名天体物理学家，他经营着一家名为 Modulos 的人工智能公司，他认为一种名为生成模型的技术提供了第三种了解宇宙的方式。

一些科学家仅仅把生成模型及其它新技术当作传统科研中的工具，但是大多数研究者都认为 AI 的影响力巨大，并且在科学研究领域会发挥越来越大的作用。费米国家加速器实验室的天体物理学家 Brian Nord 使用人工神经网络来研究宇宙。他担心没有什么是不能通过自动化完成的事情，“这个推测倒是有点令人恐慌。”

来自“生成”的探索

从研究生毕业时起，Schawinski 就因用数据驱动科学研究而闻名。在攻读博士学位期间，他面对的任务是，根据星系的外观数据对数千个星系进行分类。因为没有什么现成的软件能帮助他完成这项工作，他决定用众包的方式完成这项工作——于是，银河动物园（Galaxy Zoo）公民科学项目诞生了。

从 2007 年开始，普通的电脑用户只要记录下他们推测的星系最佳归类，就能帮助到天文学家。通过多数票胜出来判定，通常能带来正确的分类结果。

这是一个成功的项目，但 Schawinski 也注意到， AI 让这个模式过时了——今天，一个具有机器学习和云计算背景的天才科学家只需要花费一个下午就能完成这个工作。

在 2016 年，Schawinski 把目光投向了生成模型，这个强大的新工具。本质上来说，生成模型是在求解，当给定条件 X 和观测结果 Y 时，概率 P(X,Y) 有多大。这个方法已经被证明是非常有效的。

生成模型示例

假定给生成模型提供一组标注了年龄的人脸图像，通过计算机程序对这些训练数据的学习，生成模型就能在”老脸”和“皱纹”间建立起关联。最终，这样的训练好的模型可以“衰老”任意一张给定的人脸图像，换而言之，该模型能够预测任何年龄对脸带来的物理变化。

生成模型中最为著名的就是生成对抗网络（GAN）。经过充分的训练后，GAN 模型能够修复损坏和像素缺失的图像，也能让模糊的图像变得清晰。该模型通过竞争（对抗）来学习推断缺失的信息，这个神经网络的一部分被称作生成模型（generator）：生成虚拟的数据；另一部分被称为判别模型（discriminator）：把生成出来的虚假数据和真实数据分割开来。两个部分交替训练，逐步优化（类似于博弈）。

或许，你已经看过最近流传甚广的GAN生成的假面孔。正如那个标题所言“这些人并不存在却又真实得吓人”。

上面看到的脸孔都不是真实的，上面的 A 列，和左侧的 B 列都是由生成对抗网络（GAN）使用真实的面部元素构建的。然后，GAN 将 A 中的面部的基本特征（性别，年龄和脸形）与 B 中的面部的精细特征（头发颜色、眼睛颜色）相结合，构建出了上图表格中的所有人脸图像。

潜在空间

概括地说，生成模型获得数据（大多数是图像），并把他们分解成抽象的基本要素——科学家将其称为数据的“潜在空间”。算法能控制潜在空间中的元素，以此来探究这些元素如何影响原始的数据。这个方法有助于揭示该系统运作的物理过程。

潜在空间是一个抽象的难以想象的概念。不过我们可以做一个类比：当你在试图确定一个人脸的性别时，你的大脑可能在做什么呢？也许会注意到人的发型、鼻子的形状，甚至在运用一些你无法用言语描述的判断模式。同样的，计算机程序也在数据中寻找显著的特征。即便计算机并非不知道什么是性别，什么是小胡子，但如果我们提供给机器学习系统的数据集标注了“男性”和“女性”，并且一部分人还有一个标签叫“小胡子”，计算机能快速地推断出其中的关联性。

生成模型与星系演化

12月发表在《天文学与天体物理学》（Astronomy & Astrophysics）上的一篇论文中，Schawinski 与他在苏黎世联邦理工学院的同事 Dennis Turp 和 Ce Zhang 使用生成模型来研究星系在演化过程中所经历的物理变化。

论文题目：

Exploring galaxy evolution with generative models

论文下载：

https://arxiv.org/pdf/1812.01114.pdf

因为他们使用的软件与 GAN 相似，但其在对潜在空间处理的技术与 GAN 有所差异，所以从技术角度来说这不是 GAN。他们的模型创建了人工数据集，去测试假设的物理过程。比如说，他们想知道恒星形成的“淬熄”（形成速率快速下降）与星系环境密度的增加之间的关系。

对 Schawinski 来说，关键问题是仅从数据中能挖掘出多少和恒星与星系演变相关的信息。“让我们忘却所有的关于天体物理学的知识。仅依靠数据本身，我们能在多大程度上重新发现这些知识？”

首先，星系的图片被压缩至他们的潜在空间，然后Schawinski 在这个空间中调整元素，使其能对应上星系的特定环境变化，比如周围物质的密度。这样就有了一个假设生成器。通过重构这个星系，让大量原本处于低密度环境中的星系处于高密度环境中以此来看看带来了什么不同。

这三位研究者注意到随着星系从低密度环境走向高密度环境，它们的颜色会变得更红，恒星也变得更加集中。Schawinski 指出这一点与现有的星系观测相吻合，问题是，为什么会这样？

Schawinski 说，后续的工作还没有实现自动化，“人类必须参与其中，那么，什么样的物理原理可以解释这种效应？”对于这个过程，可能有两种解释，一是在高密度环境中，星系更红是因为其中包含了更多的尘埃；或者是因为恒星的形成减少了（换句话说，恒星更老了）。

现在有了生成模型，这两种思路都能接受检验。改变与与尘埃和恒星形成率相关的潜在空间元素，就能观测这种改变对星系颜色的影响。Schawinski 说：“答案很显然，星系更红是因为恒星形成率在下降，而不是因为尘埃。因此，我们应该采纳这个解释。”

利用生成模型，天体物理学家可以研究星系如何从低密度环境走向高密度环境，以及这些变化背后的物理原理。

生成模型相较于传统方式的优势

这种方法与传统的模拟方法相近，但与之有关键的差别。Schawinski 表示：“模拟本质上是由假设驱动的。也就是说，我们自认为已经洞悉了观测现象背后的物理法则。所以，我们把恒星形成规律、暗物质行为的原理等等这些我们自认为正确的假设放在一起，模拟运行。但是，模拟环境真的与实际情况吻合吗？”。他用生成模型所做的事情与模拟完全相反，“我们不知道任何事情，不做任何假设，我们希望数据本身能告诉我们可能会发生什么。”

生成模型在这项研究中取得的成功并不意味着天文学家和研究者就是多余的。但这似乎提醒研究者们——仅仅掌握了大量数据的人工智能系统就能够完成对天体物理学的学习。Schawinski 说：“这不是完全自动化的科学，但这意味着我们至少有能力去构建部分工具，使科学过程自动化。”

虽然生成模型非常强大，但这是否真的代表了一种新的科学研究方法还有待商榷。

对于纽约大学和 Flatiron 研究所的宇宙学家 David Hogg 来说，这项技术令人印象深刻，但充其量也只是一种从数据中提取模式特征的复杂方法——这是天文学家几个世纪以来都在做得事情。换而言之，这是观测、分析的高级形式。

和 Schawinski 相同，Hogg 的工作也充分应用人工智能；他一直在利用神经网络来对恒星进行基于光谱特征的分类，并使用数据启动的模型来推断恒星的其他物理属性。但是他认为他的工作和 Schawinski 的一样，都是经过检验的科学。Hogg 表示：“我不认为这是第三种方法。只是我们这个社群在对数据处理的方法上更加复杂而已。特别的是，我们越来越善于将数据与数据进行比较。但是依我看来，我的工作仍然是在做观测。”

人工智能：

勤奋而“难以捉摸”的科研助手

无论在概念上是否有创新性，人工智能和神经网络已经显然在当代天文学和物理学研究中发挥了关键作用。在海德堡理论研究所工作的物理学家 Kai Polsterer 领导着一个天体信息学小组，这个小组主要关注以数据为中心的天体物理学研究新方法。从星系数据集中提取红移信息曾经是一项艰巨的任务，而现在他们小组使用机器学习算法就能解决这个问题。

Polsterer 认为这些基于基于人工智能的新系统是“勤奋的助手”，可以连续处理数据数个小时而不抱怨单调无聊，不抱怨工作条件。这些系统可以完成所有枯燥乏味的繁重工作，研究者就能脱身去做“又酷又有趣的科学工作”。

Polsterer 警告说，这些系统并不是完美的，算法只能去做他们被训练过的事情，系统对输入的数据是“无感觉的”。给 AI 系统一张星系图片它可以估算其红移和年龄，但是你给同一个系统一张自拍照或者一张臭鱼烂虾的照片，它也会照方抓药估算出一个（错误的）年龄。Polsterer 认为，人类科学家的监督工作非常重要。工作还是要回到研究者身上，研究者才是要负责解释这些现象的人。

就这一点而言，费米实验室的 Nord 警告道，神经网络不仅要给出结果，也要给出相关的误差线，如果在科学研究中，你做了一个测量但没有报告相关的误差估计，就没有人会认真对待这个结果。

就像许多的人工智能研究员一样，Nord 也关注神经网络给出的结果的可解释性，通常来说，一个 AI 系统在给出结果时无法明确地表示出这个结果是如何获得的。

然而，并不是每个人都觉得结果不透明是一个必须关注的问题，法国CEA Saclay理论物理研究所的研究员 Lenka Zdeborová 指出，人类的直觉同样难以捉摸，给你看一张猫的图片，你能立刻认出这是一只猫，但是你并不知道你是怎样做到这一点的，从这个角度上来说，人的大脑就是个黑盒。

并不仅仅是天体物理学家和宇宙物理学家在向人工智能助力、数据驱动的科学研究发展。Perimeter 理论物理研究所和安大略滑铁卢大学的量子物理学家 Roger Melko 已经使用神经网络来解决该领域中的一些最棘手最重要的问题，例如多粒子系统的波函数的数学表示。

因为波函数的数学形式可能会随着它所描述的系统中的粒子数量呈指数级增长，这被Melko 称为是“指数维度诅咒”，在这样的工作中 AI 就是不可缺少的组成部分了。

这个困难类似于在国际象棋和围棋中找到最好的走法：玩家会试图多看一步，想想对手会出什么招，然后再选择自己的最佳应对策略。但是随着思考步数的增加，复杂性也大为增加。

当然， AI 已经攻克了这两个领域。 1997 年 5 月 11 日，深蓝计算机在国际象棋领域战胜了人类；2017年4月10日，AlphaGo 战胜了柯洁，AI 在围棋领域战胜了人类。Melko 认为，量子物理学也面临同样的问题。

机器的思想

无论是 Schawinski 所声称的他找到的是科学研究的“第三方法”，还是如 Hogg 所说的这“仅仅是传统上的观测和数据分析”。我们可以明确的是， AI 正在改变科学探索的方式并且在加速科学发现，值得探讨的是，这场 AI 革命在科学领域能走多远？

有时候，人们会对“人工智能科学家”的成就大肆褒奖。十年前，一个名叫亚当的 AI 机器人化学家研究了面包师傅的酵母的基因组，并找出了负责制造某种特定氨基酸的是哪些基因。（亚当观察缺少某些特定基因的酵母菌落，并与拥有这些基因的菌落的行为进行比较，由此找到差异完成研究。）

当时Wired杂志的标题是：机器人独立完成科学发现。

https://www.wired.com/2009/04/robotscientist/

最近，格拉斯哥大学的化学家Lee Cronin在使用机器人去随机混合化学物质，由此来观测会形成什么样的化合物，并通过质谱仪、核磁共振机和红外分光计实时监控反应，这个系统最终能学会预测哪些组合的化学反应最为剧烈。Cronin 表示即使这个系统不能带来新的发现，机器人系统也能让化学家的研究效率提高 90%。

去年，苏黎世联邦理工学院的另一组科学家们在训练神经网络从数据中推导物理定律。他们的系统类似于“机器人开普勒”，利用从地球上观测到的太阳和火星的位置信息，重新发现了日心说；并且通过观测小球碰撞模型发现了动能守恒。因为物理定律通常会有多种表述形式，科学家们想知道这个系统能否提供种更简洁的方法来思考已知的物理定律。

这些都是 AI 启动、助力科学探索的例子。尽管在每一个例子中，这些新方法的革命性都会收到争议。但在这个信息浩如烟海且高速增长的时代，最值得商榷的问题可能是：仅从数据中，我们能获得多少信息？

在《The Book of Why: The New Science of Cause and Effect》一书中，计算机科学家 Judea Pearl 和科学作家 Dana Mackenzie 断言到：数据“愚蠢至极”。他们写到：关于因果性的问题“永远不能仅凭数据去寻找答案”。

“每当你看到以无模型的方式分析数据的论文或研究时，你可以肯定的是这项研究成果仅仅是总结，或许做了转述，但绝对不是在解释数据。”Schawinski 对 Pearl 的观点抱有同感，“只使用数据”这个想法有点类似于“稻草人”。他也从未生成以这样的方式做因果推断。他想说的是：“和我们通常的工作相比，我们可以用数据多做点事。”

点击图片了解详情 | 贝叶斯网络之父、人工智能领域的先驱 Judea Pearl 著作《The Book of Why：The New Science of Cause and Effect》（为什么：因果关系的新科学）

另一个经常听到的观点是：科学需要创造力。

要拥有创造力，你必须厌恶无聊，然而我认为电脑就永远不会感受到无聊。

——Kai Polsterer

可是到目前为止，我们还不知道，如何将创造力编入计算机。（Cronin 的机器人化学家只是在简单地尝试科研工作，似乎不能算是特别有创造力）Polsterer 认为：“创建一套理论，有理有据的理论，我认为需要创造力，而创造力离不开人类。”

然而，创造力来自何方呢？Polsterer 怀疑这和不喜欢无聊有关，这恐怕是机器所没有的体验。“要拥有创造力，你必须厌恶无聊，然而我认为电脑就永远不会感受到无聊。”然而，“创造力”、“灵感”却常常用来描述深蓝、AlphaGo 这样的 AI 程序。我们在描述机器的思想时的困难映射出我们在描述自己思维过程时的困难。

Schawinski最近离开了学术界，去了私人企业。他现在经营着一家名为 Modulos 的初创公司，该公司雇佣了许多联邦理工学院的科学家。根据该公司的网站介绍，该公司位于“人工智能和机器学习这股风潮的风眼中”。无论当前人工智能技术和成熟的人工智能之间存在多大的差距，他和其他专家都认为机器已经准备好了去完成更多的科学家的工作。不过，AI 的局限性还有待考证。

Schawinski 畅想道：“在可以预见的未来，有没有可能去制造出一台能过发现物理定律、数学原理的机器，甚至超越当今最聪明的人类的能力极限？科学的未来终将被人力所不能及的机器所掌握么？这是一个好问题，但我不知道答案。”