数学模型正变得包含越来越多的细节,以更好地在缺少可用的训练或验证数据集时,预测现象或获得对动力系统更准确的洞察力。近日发表于 Science Advances 的论文通过方差分析和统计理论表明,这种做法会带来更多的不确定性和模糊的预测,因为它增加了模型的有效维数,即有影响的参数数量和高阶相互作用的权重。通过跟踪每个模型变得复杂过程中的有效维度和输出不确定性的演变,建模人员可以更好地思考增加的细节是否真正符合模型的目的,以及输入到模型中的数据的质量。
这篇题为“更高有效维度的模型会带来更大的不确定性”的论文让我们回归科学的一条核心原则:奥卡姆剃刀——如无必要,勿增实体。
论文题目:
Models with higher effective dimensions tend to produce more uncertain estimates
https://www.science.org/doi/10.1126/sciadv.abn9450
许多数学模型变得越来越复杂,建模者认为对研究过程的全面描述最终将约束不确定性,并产生更精准的洞察力。在缺少训练及验证数据时,这类模型(例如预测二氧化碳排放量或新冠感染者数量的模型)倾向于基于特定领域的物理定律或原理,因此可能将它们的估计、预测投射到未知领域,由此带来不确定性。当缺乏验证数据来评价模型的偏倚(即模型估计与可用数据的距离有多远),建模者无法从现有的统计工具中受益。
新研究指出,建模者可以通过计算模型的“有效维度”(effective dimensions),即有影响的参数和主动高阶效应的数量,来衡量模型开发的所有阶段的模型复杂性和不确定性之间的关系。有效维度的概念有助于根据应用领域的语境和建模目的,更好地调整模型的复杂性。该研究的量化证据表明,在基于过程的模型中增加模型细节,往往会产生更多(而不是更少)的不确定性估计,因为这增加了模型的有效维数,通常会增加输出方差。由于数学建模中不确定性和敏感性分析的缺乏,这一事实可能还没有被注意到,这表明应该重新评估对不断详细的数学模型的追求,以获得更准确的估计和更清晰的洞见。
二氧化碳的排放量预估模型,通常基于对不同地理区域分割后得出。这样的模型中,引入的因果假设越多,就会有更多的二阶及三阶影响,从而使模型的不确定性增加,这里使用变异系数 Coefficient of Variation(CV) 评价。图1a中不同来源下CO2排放量预测模型,有效维度(kt)越高,变异系数越大,三阶效应所占的比例越大。
图1:PSACOIN 模型中复杂性和不确定性的关系
另一个例子是新冠感染者预测,考虑基本的SIR模型,以及加上了疫苗影响(S-V),以及不同疫苗策略后(S-E),可以看到越复杂的模型,不确定性越高(图2a, b),三阶效应所占的影响越大(图2c)。蒙特卡洛模拟也说明了这一情况(图3)。
图2. (a) 易感者人数(Sp),感染者人数(Ip),康复者人数(R),免疫反应消失者人数(Ss)及二次感染后以较弱水平传播者人数(Is)在不同模型下随时间变化的变异系数;(b)预测上述值时,不同模型的有效维度;(c)预测上述值时,不同变量的二阶和三阶效应所占比。
图3:经过蒙特卡洛模拟后,三种模型对不同变量的预测结果,可见越复杂的模型差异越明显
有效维度的概念通过跟踪每个模型改进阶段的不确定性累积,评估细节引入和测量误差之间的关系,可促进建模者考虑(模型与现实)拟合度之外更广泛的问题,如模型目的、复杂性和透明度,为反思建模过程奠定了基础。有效维度的计算也可以综合认知不确定性(由于我们知识的不完善而产生的不确定性),当模型扩大到包括新的过程时,这种不确定性往往会扩大。
考虑模型的有效维度还可确保模型的复杂性保持在与输入模型本身的证据的质量兼容的范围内(识别“停止点”,超过这个点,额外的细节就不再使模型合适),最终为建模者提供洞察力来帮助选择“最合适的”模型。这样的控制是特别需要的,以防止政策导向的模型变得复杂,例如气候变化的模型由于过于复杂导致不确定性过大,从而使公众对其可行度存疑,进而怀疑气候变化的真实性。
Mathematical models are getting increasingly detailed to better predict phenomena or gain more accurate insights into the dynamics of a system of interest, even when there are no validation or training data available. Here, we show through ANOVA and statistical theory that this practice promotes fuzzier estimates because it generally increases the model’s effective dimensions, i.e., the number of influential parameters and the weight of high-order interactions. By tracking the evolution of the effective dimensions and the output uncertainty at each model upgrade stage, modelers can better ponder whether the addition of detail truly matches the model’s purpose and the quality of the data fed into it.
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅: