陶哲轩：从复杂性到普遍性

现代数学是为许多现实世界情况建模的强大工具，无论它们是自然现象，如天体运动，或者材料的物理和化学性质；抑或是人类社会现象，如股票市场的波动，或者选民的投票偏好。原则上，数学模型可用于研究包含许多相互作用物体的极其复杂的系统。然而在实践中，我们目前只能精确解决非常简单的系统（涉及只需两个或三个相互作用的物体）。例如，我们能从第一性原理出发用数学推导出氢原子光谱线的精确解，因为氢原子内只有单一个电子绕原子核运行。一个接受过数学物理基本训练的大学本科生就可以完成这样的推导。但面对即钠原子的光谱线问题，因为有十一个电子相互之间以及与原子核之间的相互作用，即使是目前最强大的计算机，也无法进行精确的数学计算。（三体问题，要求根据牛顿万有引力定律预测三个物体的运动轨迹，是众所周知唯一让牛顿头疼的问题。不像二体问题那样有简单的数学解，三体问题没有任何简单的数学表达式解，只能通过数值算法近似求解。）我们至今面对具有许多交互作用的物体系统的计算依然无能为力，缺乏任何可行的解决办法，这被称为“维度的诅咒”。

尽管有这个诅咒，一个神奇的现象经常出现：当系统包含的物体数量变得足够大时，其复杂系统的总属性又可以神秘地变成可预测，受控于一些简单的自然法则。更令人惊讶的是，支配整个系统的这些宏观规律，往往在很大程度上独立于支配着各个独立组件的微观规律，因此我们说这些宏观规律具有相当的普遍性。这些具有普遍性的宏观规律，在许多领域已被观察到，其中一些，在数学上也获得了严格的证明。我将在下面讨论其中的一些案例。在某些情况下，这种普遍性现象已经被很好地理解，但在很多情况下，这些普遍性的根本来源依然是神秘的，超出我们目前的理解能力，也仍然是一个活跃的数学研究领域。

每四年一次的美国总统选举是一场大规模的复杂事件：来自五十个州的超过一亿的选民会参与投票。而每个选民的决定都会受到各种因素的影响：媒体报道、谣言、个人印象、候选人的观点或政治讨论、与朋友和同事的交流等等。除此之外，还有数以百万计的“摇摆”选民，他们并不坚定支持任何一个主要候选人，他们的最终决定难以预测，更带有相当的随机性。同样的不确定性也存在州一级：许多州的整体民意会比较明确支持某一个候选人，而至少有十几个州，整体民意并不明确，可能会在最终开票时刻倒向任何一个候选人。

在如此众多的不确定性情况下，准确预测选举似乎是不可能的。当然，每次选举都有数百个选举民意调查，但每次民意调查都只涉及几百可能的选民，这只是占总人口的一小部分。还有并非所有民意调查都同样可靠或公正，并且没有两个民意调查组织会使用相同的抽样方法和统计分析。

尽管如此，在选举夜之前，民意调查已经预测了非常准确的选举结果，不仅对总统选举，还有大多数其他选举的结果。其中统计学家Nate Silver对2008年美国大选的预测结果最令人印象深刻，他使用了加权分析所有现有民意调查结果来进行预测，结果不仅准确地预测了五十个州中的四十九个州的总统选举结果，也有准确预测了所有三十五个州的美国联邦参议员竞选结果。（唯一的例外是印第安纳州总统选举结果，Silver预测麦凯恩将以微弱优势获胜，但最终结果奥巴马以0.9%的微弱优势胜出。）

可以解释民调准确性的是在数学上被称为的大数定律。基于这个定律，我们知道一旦随机民意调查的样本足够大，则该民意调查的结果将收敛到实际选民的真实投票愿向的百分比，其准确性将由大数定律保证。例如，在对1000名选民进行的随机民意调查中，误差幅度约为3%。

大数定律的一个显著特征是其具有相当的普遍性。不管选举涉及十万选民还是一亿选民，民意调查的误差幅度都将保持3%左右。不管选民集合具有高度同质性，比如说，富裕的城市白人选民群体；或者是相当异质的、来自不同收入、种族和背景的选民混合体，民调的误差范围仍为3%左右。唯一会产生显着差异的因素是民意调查的规模：民意调查规模越大，误差幅度越小。

大数定律是最简单、最容易理解的数学和自然中的普遍法则之一，但是它绝不是唯一的一个。近几十年来，我们发现许多这样的普遍法则在支配着许多广泛复杂系统的行为，无论这些系统的组成部分彼此互动的机制如何不同。就大数定律来说，其普遍性的潜在数学基础和机制已经被很好地证明和理解，甚至已经成为大学本科生概率与统计课程的标准内容。然而，对于许多其他普遍的系统定律，我们的数学理解还是不太完整。为什么这些普遍法则在不同形式的复杂系统如此频繁地示现，是目前数学领域高度活跃的研究方向。在大多数情况下，我们对此类问题的答案还远未令人满意，但正如我下面讨论的，我们最近取得了一些令人鼓舞的进展。

继大数定律之后，也许下一个最基本的普遍法则是中心极限定理。粗略地说，这个定理确保如果一个统计量是许多独立且随机波动的分量的组合，并且没有一个分量对整体具有决定性影响，那么该统计量将根据称为正态分布（或高斯分布）的定律近似分布，更通俗地称为钟形曲线。该定律具有普适性，因为无论各个分量如何波动或有多少个分量，它都成立（尽管当分量数量增加时，该定律的准确性会提高）。在不同的统计量中，从事故发生率、一个物种之间身高、体重或其他生命统计数据的变化、偶然造成的经济收益或损失、物理系统的组成粒子的速度，等等，都可以观察到这一点。各个概率分布的大小、宽度、位置甚至测量单位因统计量而异，但在所有情况下都可以观察到钟形曲线形状。这种趋同的出现并不是因为车祸、人类身高、交易利润或恒星速度等不同现象之间存在任何“微观”联系，而是因为在所有这些情况下，“高水平”或“宏观”结构是一样的：即由许多独立因素的微小影响组合而成的复合统计量。一个大型复杂系统的宏观行为几乎完全独立于其微观结构，这是普遍性的本质。

中心极限定理的普遍性在许多行业中都非常有用，使人们能够管理原本非常复杂和混乱的系统。有了这个定理，保险公司就可以管理他们的汽车保险单的风险，而不必知道车祸如何发生的所有复杂细节；天文学家可以测量遥远星系的大小和位置，而无需求解复杂的天体力学方程；电气工程师可以预测噪声和干扰对电子通信的影响，而无需确切知道噪声是如何产生的；等等。然而，中心极限定理并不完全通用。在某些重要情况下，该定理不适用，给出的统计数据的分布与钟形曲线完全不同。（我稍后会回到这一点。）中心极限定理有一些远亲，它们是略有不同类型的统计数据的普遍法则。一个例子是Benford定律，它是针对大规模统计数据的前几位的普遍定律，例如一个国家的人口或账户的规模，它给出了许多违反直觉的预测：例如，自然界中发生的任何给定统计数据以数字 1 开头的可能性是以数字 9 开头的可能性的六倍以上。除其他事项外，该定律（可以通过结合对数数学理论的中心极限定理）已被用来检测会计欺诈，因为与自然产生的数字相反，编造的数字通常不遵守Benford定律。类似地，Zipf定律也是一条普遍法则，它管辖着给定类别中最大的统计数据，例如世界上人口最多的国家或英语中最常见的单词。它断言统计数据的大小通常与其排名成反比：例如，第十大统计数据的大小应约为第五大统计数据的一半。（该定律往往不适用于前两三个统计数据，但在此之后变得更加准确。）与数学上相当容易理解的中心极限定理和Benford定律不同，Zipf定律主要是一个经验定律；它在实践中得到了观察，但对于该定律是如何产生的以及为什么它具有普遍性，数学家们还没有一个完全令人满意和令人信服的解释。

到目前为止，我已经讨论了个体统计的普遍规律：由许多较小且独立的因素组合而成的复杂数值。但对于比单纯的数值统计更复杂的物体也发现了普遍规律。以物理和化学中相变产生的复杂形状和结构的规律为例。正如我们在高中科学课上学到的那样，物质有多种状态，包括固体、液体和气体三种经典状态，但也有一些奇异的状态，例如等离子体或超流体。铁磁材料，如铁，也有磁化和非磁化状态；其他材料在某些温度下成为电导体，在其他温度下成为绝缘体。给定材料所处的状态取决于许多因素，最显着的是温度，在某些情况下还包括压力。（对于某些材料，杂质水平也相关。）对于固定的压力值，大多数材料往往在一个温度范围内处于一种状态，而在另一个温度范围内则处于另一种状态。但当材料处于或非常接近划分这两个范围的温度时，就会发生有趣的相变。这种材料并不完全处于一种状态或另一种状态，往往会分裂成美丽的分形形状，称为簇，每个簇都体现了两种状态中的一种或另一种。存在无数种材料，每种材料都有一组不同的关键参数（例如给定压力下的沸点）。物理学家和化学家还使用大量数学模型来模拟这些材料及其相变，其中假设单个原子或分子通过随机数量的键与它们的一些邻居连接，这些键根据某些规则分配概率规则。在微观层面上，这些模型看起来彼此截然不同。

如果在参数（例如温度）处于或接近临界值时拉开距离观察团簇的大尺度结构，微观结构的差异就会消失，人们开始看到许多普遍规律的出现。虽然簇具有随机的大小和形状，但它们几乎总是具有分形结构；因此，如果放大簇的任何部分，所得图像或多或少类似于整个簇。基本统计数据，例如簇的数量、簇的平均大小或簇连接两个给定空间区域的频率，似乎遵循一些特定的普遍规律，称为幂律（它们与Zipf定律有些相似，但不完全相同。）这些定律出现在几乎所有为解释（连续）相变而提出的数学模型中，并且在自然界中已被多次观察到。与其他普遍定律一样，模型或材料的精确微观结构可能会影响一些基本参数，例如相变温度，但该定律的基本结构在所有模型和材料中都是相同的。与中心极限定理等更经典的普遍规律相比，我们对相变普遍规律的理解是不完整的。物理学家提出了一些令人信服的启发式论据来解释或支持许多这些定律（基于一种强大但不完全严格的工具，即重正化群方法），但尚未获得这些定律的完全严格的证明。这是一个非常活跃的研究领域。例如，2010年8月，数学界最负盛名的奖项之一Fields奖被授予Stanislav Smirnov，以表彰他在建立这些严格的普遍定律对某些关键模型（例如三角格子上的渗流模型）的有效性方面所取得的突破。

当我们对普遍法则的探索即将结束时，我想考虑一个更接近我自己的研究领域的例子。在这里，研究的对象不是单个数值统计量（如中心极限定理的情况）或形状（如相变），而是离散谱：一系列点（或数字，或频率，或能量水平）沿一条线传播。也许人们最熟悉的离散频谱的例子是当地广播电台发射的无线电频率；这是电磁频谱无线电部分的一系列频率，可以通过转动无线电拨号盘来访问。这些频率的间隔并不均匀，但通常会努力使任意两个电台频率彼此分开，以减少干扰。离散光谱的另一个熟悉的例子是原子元素的谱线，根据量子力学定律，这些谱线来自原子壳层中的电子可以吸收和发射的频率。当这些频率位于电磁波谱的可见部分时，它们赋予各个元素独特的颜色，从氩气的蓝光（令人困惑的是，它经常用于氖灯，因为纯氖气发出橙红色光）到钠发出黄光。对于简单元素，例如氢，量子力学方程可以相对容易地求解，并且谱线遵循规则模式；但对于较重的元素，谱线变得相当复杂，仅根据第一原理不容易计算出来。一个类似但不太熟悉的光谱示例来自原子核（例如铀 238 原子核）中子的散射。原子核的电磁力和核力与量子力学定律相合，预测中子在某些能量下几乎不受阻碍地穿过原子核，但在其他能量下会从原子核反弹，称为散射共振。如此大的原子核的内部结构非常复杂，以至于不可能从理论上或数值上计算这些共振，实验数据是唯一的选择。这些共振有一个有趣的分布；它们并不是彼此独立的，而是似乎遵循精确的排斥定律，这使得两个相邻的共振不太可能彼此太接近——有点类似于无线电台频率如何避免太接近，除了前一种现象源于自然法则，而不是政府对频谱的监管。20 世纪 50 年代，著名物理学家、诺贝尔奖获得者Eugene Wigner研究了这些共振统计数据，并提出了一个出色的数学模型来解释它们，这就是我们现在所说的随机矩阵模型的一个例子。这些模型的精确数学细节技术性太强，无法在这里描述，但一般来说，人们可以将这些模型视为质量的一大集合，所有质量都通过各种随机选择的强度的弹簧相互连接。这样的机械系统将以一组特定的频率振荡（或共振）；Wigner假说断言大原子核的共振应该类似于随机矩阵模型的共振。特别是，他们应该经历相同的排斥现象。因为可以严格证明随机矩阵模型的频率排斥，所以可以对在原子核实验中观察到的相同现象给出启发式解释。当然，原子核实际上并不像一个由质量和弹簧组成的大型系统（除其他外，它受量子力学定律而不是经典力学定律的支配）。相反，正如我们后来发现的那样，Wigner假设是普遍法则的体现，该法则支配着多种类型的谱线，包括那些表面上与原子核或随机矩阵模型几乎没有共同之处的谱线。例如，在到达墨西哥库埃纳瓦卡公交车站的公交车之间的等待时间中，我们也发现了相同的间距分布（对于为什么在这种情况下出现这种分布，目前还没有令人信服的解释）。也许这些定律的普遍性最出乎意料的证明来自完全不相关的数论领域，特别是素数 2、3、5、7、11 等的分布——大于 1 的自然数不能分解为更小的自然数。素数在整数中以不规则的方式分布；但如果对这种分布进行频谱分析，我们就可以辨别分布中的某些长期振荡（有时称为素数音乐），其频率由一系列复数描述，称为（非平凡）黎曼Zeta函数的零点，由Bernhard Riemann 于1859年首次研究。（对于本文的讨论，准确了解黎曼 Zeta 函数是什么并不重要。）原则上，这些数字会告诉我们希望了解素数性质的一切。数论中最著名和最重要的问题之一是黎曼假设，它断言这些数字都位于复平面中的一条线上。它在数论中具有许多推论，特别是对于素数给出了许多重要的推论。然而，即使是强大的黎曼假设也不能解决这个问题的所有问题，部分原因是它没有直接说明零点在这条线上的分布情况。但有极其有力的数值证据表明，这些零点遵循与中子散射和其他系统中观察到的相同的精确定律；特别是，这些零似乎以一种与随机矩阵理论的预测相匹配的方式相互“排斥”，并且具有惊人的准确性。该定律的正式描述称为高斯酉系综 (GUE) 假设。（GUE是随机矩阵模型的基本示例。）与黎曼假设一样，它目前尚未得到证实，但它对素数的分布具有强大的影响。

1972年，普林斯顿高等研究院发现了连接素数音乐和原子核能级的GUE假说，这个故事在数学界堪称传奇。它涉及数学家Hugh Montgomery和著名物理学家Freeman Dyson之间的一次偶然会面。Hugh Montgomery一直致力于研究Zeta 函数的零点分布（更具体地说，研究与该分布相关的某种统计数据，称为配对相关函数）。数学家兼计算机科学家Dan Rockmore在他的《追踪黎曼猜想》一书中描述了那次会面：据Dyson回忆，他和Montgomery在研究所托儿所接送孩子时不时会碰到。然而，他们尚未被正式介绍认识彼此。尽管Dyson名声大噪，Montgomery并没有看到与他会面的任何价值。尽管如此，在被介绍后，这位和蔼可亲的物理学家向这位年轻的数论学家询问了他的工作。Montgomery开始解释他最近关于配对相关性的结果，这时Dyson突然打断了他——“你得到这个结果了吗？” 他一边问道，一边写下了一个特定的数学公式。Montgomery几乎惊讶地摔倒了：Dyson写下了注入正弦的配对相关函数。Montgomery走了数论家的道路，获得了配对相关性的“基本图景”，而Dyson则是通过研究矩阵数学中的这些能级得出了这个公式。

Montgomery和Dyson的偶然发现——同样的支配随机矩阵和原子光谱的普遍法则也适用于 Zeta 函数，Andrew Odlyzko 从20世纪80年代开始的计算工作给予了实质性的数值支持（见图 4）。但这一发现并不意味着素数在某种程度上是核动力的，或者原子物理学在某种程度上是由素数驱动的；相反，有证据表明，单一的光谱定律是如此普遍，以至于它是任何数量的不同过程的自然最终产物，无论是来自核物理、随机矩阵模型还是数论。这一定律背后的精确机制尚未被完全揭示。特别是，对于为什么 Zeta 函数的零点服从GUE假设，我们仍然没有令人信服的解释，更不用说严格的证明了。然而，现在有大量严谨的工作（包括我自己的一些工作，以及最近几年的一些实质性突破）通过证明各种各样的随机矩阵来支持这一假设的普遍性模型（不仅仅是最著名的GUE模型）的频谱间距本质上都遵循相同的规律。目前，这些普遍性的论证尚未扩展到数论或物理领域，但它们确实为适用于这些情况的定律提供了间接支持。

这些工作中使用的论证过程技术性太强，无法在这里给出所有细节，但我会提到其中一个关键思想。我和我的同事Van Vu 和我从Jarl Lindeberg 于 1922 年提出的中心极限定理的旧证明中得到启发，借用了它的一些思想要义。质量和弹簧系统（如上所述）的机械类比，关键策略是用另一个随机选择的弹簧替换一个弹簧，并表明该系统的频率分布在执行时没有显著变化。依次将这种替换操作应用于每个弹簧，最终可以用完全不同的模型替换给定的随机矩阵模型，同时保持分布基本不变，这可用于表明大类随机矩阵模型具有基本相同的分布。

这是一个非常活跃的研究领域；例如，与Van Vu和我去年的工作同时，László Erdös、Benjamin Schlein和姚鸿泽也基于数学物理学的思想，对随机矩阵模型的普遍性得到了许多相似的结果。这个领域正在迅速发展，几年后我们可能会对这个神秘的普遍法则的本质有更多的了解。

数学和自然还有许多其他普遍法则。我给出的例子只是多年来发现的众多案例的一小部分，这些例子来自动力系统和量子场论等不同的学科。例如，许多宏观物理定律，例如热力学定律或流体运动方程，本质上是相当普遍的，使得所研究的材料或流体的微观结构几乎无关紧要，除非通过一些关键参数的调整，例如粘度、压缩性或熵。

然而，普遍性原则确实有一定的局限性。以中心极限定理为例，它给出了由许多小的独立因素组合产生的任何数量的钟形曲线分布。当不满足所需的假设时，该定理可能会失败。例如，所有成年人（男性和女性）的身高分布并不服从钟形曲线分布，因为一个因素——性别——对身高的影响如此之大，以致于它不能被所有其他环境和遗传因素所平均。

中心极限定理失效的另一个非常重要的方式是，组成一个量的各个因素并不是相互独立波动，而是相互关联，因此它们往往会同步上升或下降。在这种情况下，可能会出现“肥尾”（俗称“黑天鹅”），其中数量偏离其平均值的距离远远超出中心极限定理的预测。这种现象在金融数学模型中尤为重要，尤其是在处理复杂的金融衍生工具时，例如通过汇总抵押贷款形成的债务抵押债券 (CDOS)。只要抵押贷款的行为相互独立，就可以使用中心极限定理对这些工具的风险进行建模；但在最近的金融危机中，这种独立性假设彻底崩溃，导致许多这些债务的持有者（及其保险公司）遭受重大财务损失。数学模型的有效性取决于其背后的假设。

普遍法失效的第三种方式是，如果系统没有足够的自由度来使定理生效。例如，宇宙学家可以使用流体力学的普遍定律来描述整个星系的运动，但单个卫星在三个引力体影响下的运动可能要复杂得多。

流体力学普遍定律失效的另一个例子是在介观尺度上：即大于单个分子的微观尺度，但小于普遍性适用的宏观尺度。介观流体的一个重要例子是流经血管的血液。构成这种液体的血细胞是如此之大，以至于它们不能仅仅被视为微观分子的集合，而应被视为具有复杂行为的介观介质。具有有趣介观行为的材料的其他例子包括胶体流体（例如泥浆）、某些类型的纳米材料和量子点；对此类材料进行正确的数学建模是一个持续的挑战。

还有许多宏观情况，其中不存在已知的普遍法则，特别是在系统包含人类主体的情况下。股票市场就是一个很好的例子：尽管付出了极大的努力，仍然没有发现令人满意的普遍规律来描述股票价格的变动。（例如，正如前面所讨论的，中心极限定理似乎不是一个好的模型。）造成这一缺陷的一个原因是，市场中发现的任何规律性都可能被套利者利用，直到它消失。出于类似的原因，寻找宏观经济学的普遍规律似乎是一个不断变化的目标。根据Goodhart定律，如果经济数据中观察到的统计规律被用于政策目的，它往往会崩溃。（具有讽刺意义的是，Goodhart定律本身可以说是普遍法则的一个例子。）

即使普遍法则确实存在，实际上仍然不可能用它们来进行预测。例如，我们有流体运动的普遍定律，例如纳维-斯托克斯方程，并且这些定律一直用于天气预报等任务。但这些方程非常复杂和不稳定，即使使用最强大的计算机，我们仍然无法准确预测未来一两周内的天气。（我所说的不稳定，是指即使测量数据或数值计算中出现很小的误差，也可能导致方程的预测解发生很大的波动。）

因此，在普遍法则占主导地位的巨大宏观系统和可以使用自然基本定律进行分析的简单系统，存在一个巨大的中间地带，这些系统对于基本分析来说太复杂，但又太简单而无法适用普遍的通用规律——这对于我们熟知生活的所有复杂性的人来说，是完全不陌生的经验认知。

原文： https://www.stat.berkeley.edu/~aldous/157/Papers/tao_universality.pdf

陶哲轩：从复杂性到普遍性

你也许还想看：

九溪幻影：城市探险中的领角鸮寻踪

难忘的盛宴：在美国打造一场盛大派对的完美指南

云·雾·边：探究计算技术的三重境界☁️🌫️💻