见著知微——微生物生态系统演化粗粒化模型

导语

正如由各种动物物组成的森林、草原生态系统一样，微生物生态系统也非常复杂，包含高度多样的物种相互作用。有趣的是，研究发现，微生物生态系统可以被远小于菌株数量的变量有效描述，而且随着菌株多样性的增长，描述所需变量并不会显著增长——这就意味着，微生物生态系统在某些意义上是可粗粒化的。

近日，一篇发表于 PRX 的新论文基于资源竞争的生态演化框架提出了一个最小模型，通过加入差异化的相互作用等因素，成功复现了微生物生态系统的可粗粒化性（coarse-grainability）。研究还为粗粒化质量提供了可操作定义，用于定量衡量系统的粗粒化程度。

研究领域：粗粒化，统计物理，生物物理，微生物生态系统

徐恩峤 | 作者

梁金 | 审校

邓一雪 | 编辑

论文题目：

Defining Coarse-Grainability in a Model of Structured Microbial Ecosystems

论文链接：

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.12.021038

1. 可粗粒化的微生物生态系统

微生物群落可以看作是复杂动力系统，其中高度多样的物种相互作用。但在实践中，我们往往不需要用这个群落所包含的所有物种数来描述它，而是可以使用小于物种数的维度对系统进行有效预测——我们说，这样的系统在某些程度上是可粗粒化（coarse-grainable）的。更有意思的是，现有证据表明，微生物生态系统中菌株（strain）多样性的增加，往往能够提升这个系统的可预测性。

事实上，目前的生物分类系统也可以看作是一种粗粒化，不同的分类层级就是不同的粗粒化尺度，但同一分类往往并不能满足多种情形下的认识需要。由于利用可粗粒化性是理解、预测乃至控制复杂微生物系统的关键所在，如何严格定义其可粗粒化性，并且理解粗粒化得以出现的条件，是关键的问题。

不过，已有的研究往往不能通过模型自然生成生态系统的层级结构；或者考虑更少的因素，如把涉及的性状与资源限定在参与代谢的物质上*。这些都使得模型和真实世界存在着较大的距离。本研究基于一个生态演化框架，创新性地提出了评估结构化生态系统的最小模型；研究还给出并对比了可操作的粗粒化质量（coarse-graining quality）计算方法，并使用这样的方法衡量了模拟系统的可粗粒化性。

注：例如培养皿中的一些微生物需要生长在容器壁上，而容器壁的面积虽然不是一种直接参与生化途径的物质，但其有限性也使其成为微生物在该系统中竞争的一种资源。

2. 生态演化模型模拟粗粒化现象

模型基于反应釜中的微生物生态系统，该系统由一系列给定性状所确定的菌株构成，环境按照一定速率提供一系列资源，供系统中的各种微生物以一定速率竞争消耗（图1a）。对于资源来说，随着一种资源被利用程度的增加不同，在这种资源上的收益会呈现递减态势（图1b）。对于菌株来说，性状通过对某种资源的利用与否来定义，各种性状为二值表示（图1c），即性状仅有有、无两种可能；性状之间可以存在相互作用，有的性状倾向于同时出现，而另一些性状相互排斥。

图1. 生态演化框架提供的资源竞争模型。（a） μ为菌株， i为资源；N_μ为不同菌株的丰度， K_i为资源提供速率， h_i为资源消耗速率。（b）随着一种资源被利用程度（exploitation）的增加不同，在这种资源上的收益（benefit）将会呈现递减态势，而在该种资源没有被利用时的最大收益为b_i ，收益降至一半时的利用程度定义为保持容量（carrying capacity），即K_i ；（c）不同菌株性状（trait）的二值表示， J_ij表示两种性状之间的相互作用， J_ij＞0表示性状倾向于同时出现，J_ij＜0表示性状之间相互排斥。

接下来，研究者在这样的模型中具体设定了性状之间相互作用的因素（图2a、b），相互作用强度的分配设定为大部分性状之间没有或仅有较弱的相互作用，而少部分性状之间相互作用较强——这也是一种自然的设定。就是这样简单的设定，使得层级结构自然地产生了：强相互作用的性状总是倾向于互斥或共现，形成稳定的上层结构；弱相互作用的性状可以更随机地被获得、消除——于是一些菌株共享一些核心性状，而在另一些上有所不同，形成更细粒度的多样性。这样，当加入相互作用的因素后，生态演化动力学中就发生了可以辨识的粗粒化现象。

例如，不同菌株随着时间的推进有产生与消亡（图2c），但是如果把某一些菌株像图中彩色高亮的部分一样进行归组，则可以发现它们的丰度总和是相对稳定的，见图2c演化到尾部时候的性状分布情况（图2d）。值得注意的是图中红色标出的菌株持有的性状基本类似——具体来讲，前24个性状是完全相同的，研究中称作当它们在L*=24时属于同一 L*类型（ L*-types）。这里的L*是考虑性状数，也就是说他们可以看作某一个特定的归组，亦即可粗粒化， L*越小，模型就越粗粒化（不过这种粗粒化不一定是有效的，这一点会在后文提及）。进一步地，在L*较小的时候， L*类型会保持一个变化缓慢的平台，即群落中菌株可归结为仅有的几个大类（图2e）。类似的趋势在更多菌株的系统中也会出现，且L*类型会远小于随机对照的情况（图2f、g）。

图2. 简单的性状相互作用模型就可以产生微生物的层级结构生态系统。（a）性状相互作用矩阵热图，红色表示性状之间的协同，蓝色表示拮抗，颜色的深浅则表示这种相互作用的强度大小；（b）相互作用强度分布；（c）生态演化动力学模拟的例子，图中是菌株丰度变化情况；（d）群落中的表型；（e） L*类型数量随L*的变化。（f）（g）同（d）（e），但是考虑更大多样性的群落。

3. 量化的可粗粒化性

在现实中，自然界中的生命会具有足够复杂的性状（环境复杂度L→L_∞ ，图3a）；在实验室中，这种现实则可以通过不断把握更多特征来逼近。而对于微生物来说，不同的性状可以区分群落中不同的微生物，越多的性状可以有越细致的区分（图3b）。很自然的情形是，一些在考虑多性状情形下被认为是不同的微生物，会在考虑较少性状时被认为是相近的。但问题在于，这种简化（考虑的性状数L*＜L ）的方法是否有效，以及在多大程度上有效？

接下来研究就尝试去量化这种可粗粒化性，不过在此之前，我们已经能够定性把握有效性的主要几种可能情况是：若L*＜L则无法把握该系统，系统不可粗粒化（图3d）；给定一个 L，对于一个 L*＜L，有一定的简化有效性，则系统弱可粗粒化（图3e）；给定一个 L*，当L增长，即环境复杂度增长的时候，L*的有效性保持稳定，则系统强可粗粒化（图3f）。

图3. 定义强与弱的可粗粒化性。（a）环境复杂度L ；（b）以L区分，则为不同菌株；（c）以L*区分，则为不同类型或分类单元；（d-f）不可粗粒化，弱可粗粒化（weak sense），强可粗粒化（strong sense）的情况。

量化的可粗粒化性即粗粒化质量，其指标定义可以有很多可能的思路，这里研究给出了两种比较合理的方法。首先考虑一个简化系统模型（图4a），该群落按照某些特征可以被分为3个实践分类单元（operational taxanomic units, OTUs），即利用少于系统原有物种数的维度来尝试把握该系统，接下来需要测试这种把握的有效性。

第一种方法（图4b）是从3个分类单元中各选择一个菌株构成一个群落，如果不同的组合选择方法生成类似的群落，则认为粗粒化质量（ Q_rec）高，这种方法被称为重现测试（reconstitution test，图4b）；第二种方法（图4c）是让群落中仅存在2个分类单元，从第3个留出的分类单元中依次选择各个菌株入侵该群落，如果对各个留出的分类单元，其中各个菌株的入侵表现是类似的，则认为粗粒化质量（ Q_inv）高，这种方法被称为留一测试（leave-one-out test，图4c）。

图4. 用于衡量粗粒化质量的实践标准。该群落按照某些特征被分为3个实践分类单元（OTUs），图中用红绿蓝三类颜色示意（这里颜色代表仅有的考虑性状，即 L*=1），每个分类单元即属同一 L* 类型，用同一颜色不同形状表示该类下的不同菌株。（a）用颜色示意的候选粗粒化方案；（b）重现测试，条形代表对应群落丰度；（c）留一测试，图为示意生长曲线。

以上两种测试均有其合理性，但实践中效果可能大相径庭。同样的生态系统，可能仅在一个标准下是可粗粒化的。例如，一个系统在留一测试基础上衡量，可能是强可粗粒化的（图5a）；而在重现测试基础上衡量，却几乎不可粗粒化（图5b）。不过至少可以看出，一种粗粒化可以在操作上对于给定目的起效，并归组功能上多样的菌株；而且由于L的增长意味着菌株种类多样性也在增长，此时同一L*的粗粒化效果保持稳定，从相对的视角来看这意味着多样性的菌株反而促进了可粗粒化性。

图5. 同样的生态系统，可能仅在一个标准下是可粗粒化的。（a）留一测试得到的粗粒化质量Q_inv热图，青色线为粗粒化质量等高线；（b）重现测试得到的粗粒化质量Q_rec热图，针对同一个模拟案例。

4. 更粗粒化的系统更容易复现

真实情形下的环境存在一定的不确定性，对应到本研究的模型当中，则可以是环境的资源提供存在变化。本研究利用通过给环境添加扰动完成一系列模拟（replicates），来探究此种情况下系统的粗粒化性质（图6a）。

首先，就模拟达到的平衡相对丰度来看（图6b），更粗粒度的描述（L*=5 ）比更细粒度的（L*=30 ）具有更强的可复现性。进一步考虑L*变化时的情况（图6c），可见L*越大，则L*类型的丰度变化就会更大，且存在更多的不确定性。上述结果提示，生态系统中某些更大尺度的典型模式相比于其中的细节，可能更加可泛化与可复现。

图6. 粗粒度下的描述更加一致。（a）加入扰动的环境（）进行的一系列重复实验；（b）不同粗粒化尺度下的平衡相对丰度（equlibrium relative abundances）情况，不同颜色代表不同的L*类型，对L*=30来说，相对L*=5更细致的类型描述用相近而略有差异的颜色表达；（c）用变异系数（coefficient of variation, CV）衡量L*类型丰度变异情况随L*的变化关系，其中图6b所对应的两个L*取值用垂直虚线标出，阴影为标准差范围。

最后，研究提示了在环境变化较小的情况下，粗粒化方案会具有更高的粗粒化质量（图7）。也就是说，当环境发生更大变化的时候，原先微不足道的一些菌株类型就不再能够被粗粒化，会对系统性质产生显著影响。

图7. 粗粒化质量随环境波动程度和粗粒化尺度的变化，当环境一致时，粗粒化方案更有效。

5. 统计物理与理论生态学的边界

自 Robert M. May 在 Nature 发表题为 Will a Large Complex System be Stable? 的文章，在前人基础上继续验证复杂系统会在超过连通的临界水平时突变为不稳定开始，结合统计物理的理论生态学就在尝试研究大而随机的生态系统。不过确定这种更大尺度的特征的方式（例如本文定义的粗粒化质量），也可能对预测产生显著的影响，这也为相关领域后续的研究指示了一个方向。

因果涌现读书会第二季招募中

跨尺度、跨层次的涌现是复杂系统研究的关键问题，生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、自指动力学等近年来新兴的理论与工具，有望破解复杂系统的涌现规律。同时，新兴的因果表示学习、量子因果等领域也将为因果涌现研究注入新鲜血液。

由北京师范大学教授、集智俱乐部创始人张江和加州大学圣地亚哥分校助理教授尤亦庄等人发起的「因果涌现」系列读书会第二季，将组织对本话题感兴趣的朋友，深入研读相关文献，激发科研灵感。本读书会自2022年5月22日开始，每周日晚19:00举办，预计持续7-8周。欢迎感兴趣的朋友报名参与。