TCP/IP 互联网的真相:空间域和时间域的统计学
这是系列第二篇。且看驱动互联网运行的三个最核心,最迷人的数学描述:
- 整体上的 Little 定律;
- 空间域上的统计复用,表现为叠加,波动,具有收敛性,由中心极限定理描述;
- 时间域上的随机接入,表现为冲突,突发,具有发散性,由二项分布右尾概率描述;
波动的收敛和冲突的发散这种对立统一的关系正是所有网络技术演进的内在驱动力。真相是,网络既是收敛的,又是发散的,但人们既看不得发散,看到丢包和一丝抖动就大喊大叫,同时又看不见收敛,完全不知道 CLT 与 TCP/IP 有什么关系,更迷信 buffer 越大越好,这实在悲哀,而我将驱散这些悲哀。
整个互联网从外部看被 Little 定律描述,在细节上基于统计学的排队论推论行为。Little 定律形如 L=λ⋅WL=\lambda\cdot WL=λ⋅W,它提供了吞吐,时延和负载之间的根本关系,适用于任何稳定到达率和离开率的系统,无论到达和服务的过程是什么分布,也不管服务规则,它的妙处就在于不关心细节,而细节由则由空间域和时间域分别负责。
先看空间域,其收敛性我在上周的 主宰 AIMD 的中心极限定理 中已详述,一句话就是 “n 越大,整体波动越小,所需 buffer 越少”。其核心原理就是中心极限定理,大量独立或弱相关的数据流汇聚时,它们的叠加不再是简单的 “峰值叠加”,而是呈现出统计上的 “平滑效应”。
数学解释用也不难理解,所有流到达速率之和是个随机变量,中心极限定理说的是,该速率之和的分布随 n 的增大越来越接近正态分布,正态分布的标准差与 1n\dfrac{1}{\sqrt{n}}n1 成正比。这意味着相对波动随 n 的增加而减小。
为应对突发所需的 buffer 竟可相对更少而不是无限增加,网络资源利用率却得以提高,证明互联网是收敛的。这奠定了互联网服务提供商和数据中心网络高效运行的经济学基础,从数学上证明了大规模统计复用的可行性,是整个互联网可扩展性的理论基石。
再看时间域的随机接入,为解释其发散性,比二项分布右尾概率更容易理解的方式是类比 CSMA/CD 与生日悖论。
CSMA/CD 网络中,多个节点共享信道介质,随机竞争发送机会。生日悖论提供了针对该场景的一种数学描述。
生日悖论说的是,在一个 23 人的房间,2 人同一天生日的概率超过 50%。同理,在共享信道中,冲突的概率随节点数量 n 的增加呈近似 1−e−n22N1-e^{-\frac{n^2}{2N}}1−e−2Nn2 的关系上升,其中 N 是时隙数,与二项分布右尾概率的结论一致,这意味着冲突是必然且频繁的。
冲突的发散使网络效率随着节点增加而急剧下降,因此CSMA/CD 网络的效率有一个理论上限,无法大规模扩展,这是 ALOHA 和 CSMA/CD/CA 类协议的根本缺陷。
来看个相关的技术演进加深理解,从时间域的争用到空间域的包交换,整个互联网技术的迭代几乎总围绕着局部发散的时间域技术和全局收敛的空间域技术,整体表现为 burst 的调度和 buffer 的管理。可将所有的网络技术归结为两类:
- 局部的时间域管理技术,例如 AQM 等队列技术,将时间域的冲突暂存并调度它们;
- 全局的空间域管理技术,例如 AIMD 等拥塞控制算法,公平高效共享网络资源;
除此之外,更直观的随机接入的例子来自于 “突发在 buffer 中排队”,这是典型的时间域突发转向空间域的处理,我曾经在早年论证过 buffer 中的 AIMD 其实是 CSMA/CD 的零存整取版本,意皆在此。
更一般地说,随着随机接入强度增加,数据包越发频繁地发生冲突,由突发而拥塞,这会发生在网络的任意地方,但另一方面,随着随机接入强度的增加,中心极限定理会越发平滑地淹没冲突(配合 AIMD)。时间域发生的冲突在空间域以对等强度被平滑消除,这就是互联网可扩展性的核心。
最后,所谓拥塞控制的核心就是处理大量节点随机接入导致的冲突和突发,例如 AIMD 基于中心极限定理的保证所做的工作。
以上不仅是对历史的复述,驱动这一演进过程的哲学规律更重要:
- 要有对立,空间域收敛,稳定的统计复用和时间域发散,不稳定的随机接入是一对矛盾;
- 要有统一,这对矛盾在局部和全局分别共同作用,推动了网络架构的演进;
- 要简化模型,中心极限定理解释统计复用,二项分布右尾概率解释随机冲突,最简单就最精准和深刻;
以上的洞察深刻但总被忽视,计算机网络运作的核心本质皆在于此。
浙江温州皮鞋湿,下雨进水不会胖。