当前位置: 首页 > news >正文

信息守恒下的涌现与 AI 传输质量观测

涌现的表象是无法从微观上预测的有序的宏观行为。最近在看控制论,信息论,大模型这些锤子,那就看什么都是钉子,所以基于信息论看来,涌现的本质是信息守恒和兑换,它只能产生于非线性系统。

先看线性系统,它只有缩放(x 的系数 w)和平移(y 的截距 b)两个操作,无论整个操作链条拉多长,y=w3(w2(w1⋅x+b1)+b2)+b3y=w_3(w_2(w_1\cdot x+b_1)+b_2)+b_3y=w3(w2(w1x+b1)+b2)+b3 通过简单的结合律,最终都可以化简为它的一般形式 y=W′⋅x+b′y=W'\cdot x+b'y=Wx+b,因此,无论叠加多少个线性系统,它的全部信息均包含在方程的表达式中,线性系统是可预测的。

对于非线性系统,例如最简单的 Xn+1=r⋅Xn(1−Xn)X_{n+1}=r\cdot X_n(1-X_n)Xn+1=rXn(1Xn),即使用两个无比接近的初始值,迭代几十次后两个序列也将完全不同。常见的说法是多数非线性系统对初始值敏感且不可预测,不仅仅说现实的物理测量精度极限问题,更不会涉及量子尺度的测度,非线性系统不可预测是理论上的,这也是它能涌现的根源。

即使有了一个无限精确的初值,系统在每一步迭代中,都会将这个无限长的数字中那些看似无关紧要的位数迅速放大,很快,系统状态就会依赖于这些最初不起眼的数位。这意味着,要预测长期状态,不仅需要初始条件,实际上需要计算出在演化过程中会被放大到显著地位的那些极其微小的信息。

新信息看似以指数速度产生。

但事实上信息并非无中生有,排除玄学和不可知论的影响,所有信息最初都包含在初值和迭代式本身,在迭代过冲中才被释放出来(参考我多年前的那篇泰勒展开)。在复杂非线性系统中,信息释放的速率是指数级的,这意味着,为了预测未来,所需要的计算速度也至少呈指数级增长。现实世界的结果是,时间被熵度量,而熵则度量信息,时间是均匀流逝的,远慢于信息指数释放的的速度,难题在于追不上。

举例说明,预测未来 1 秒需要 1 个单位的时间,预测未来 2 秒可能需要 4个单位时间,预测未来 10 秒可能需要 10000 个单位时间,以此类推。

再考虑到物理测量的精度约束,即使在现实尺度,对于多数非线性系统,也存在 “测不准” 效应(仅借个词,非量子物理的测不准原理)。

信息守恒和兑换的意义是,对于线性系统来说,信息一开始有多少就是知道的,演化过程是可计算可预测的,对于非线性系统来说,虽然信息在客观上已经存在了,但它不可计算,所以演化过程不可预测,如果该过程中产生了有序(也一定有趣)的东西。

一个非线性系统可以是完全决定论的,但同时又长期不可预测(再次强调,不是无法算,难在追不上)。它并非源于真正的随机性,而是源于系统内在的指数级的复杂性增长,这使任何有限实体都无法承担长期预测所需的无穷大成本。涌现揭示了即使在最严格的牛顿决定论框架内,世界的未来也充满了固有的,本质上的不可预知性。

这就是本质上源自于信息守恒和兑换的涌现。

大模型的涌现能力也来源于非线性操作的信息守恒和兑换。

Transformer 通过一系列精心设计的,不可逆(加权求和,非线性函数等)的数学操作,有层次地通过激活函数,归一化等非线性操作压缩,丢弃信息,并从这些消失的信息中提炼出模式,最终让 “理解” 这种宏观属性,从微观的,看似简单数学计算中涌现出来。

ReLU 激活函数损失了负数输入信息,但获得 “不激活” 的结果,sigmoid 函数将输入压到了 0 到 1,这些行为本身就是 “分类”,而 “分类” 是一个具有宏观意义的操作,它不仅仅是一种数学运算。

再看自注意力机制本身,它从输入中通过简单的张量,线性矩阵运算把信息平坦化,再通过平凡的非线性运算丢掉微观的,平坦输入信息,换取 “相似度”,“关联度” 这种宏观的,聚焦的信息,这正是持续向上的涌现路径上最普通的一环。从注意力这个词的字面意义上理解,它正是 “集中精力关注重要的事,忽略不相干的事”,本身就有信息交易的意味,概括说就是得其意而忘其形,人脑本身一直在涌现,大模型目前稍弱,但类似。

没有丢弃,就没有抽象。没有抽象,就没有高级的概念,没有不公平对待事务细节的注意力,也就没有涌现。

在信息守恒下,从平庸到神奇的涌现源于两点:

  • 非线性。非线性(如 sigmoid, softmax, GELU)打破了整体等于部分之和的假设,产生的协同效应释放了新的信息,使得微小的变化可能被放大,产生戏剧性的结果;
  • 反馈循环。信息在网络中并非单向流动,一个输出会成为另一个输入,而后者的输出又可能反馈到前者,这种循环的,递归式的系统,使系统能够自我参照和调整,从而演化出内部动态和稳定状态;

非线性和反馈循环等价于无限可能。

回到现实的指示意义。上周我了 AI 网络与传输协议 这篇随笔,有评论讨论 AI 调整 cwnd 的前景,在讨论现实挑战之前,我的看法是完全可行。与此相关的一个话题是此前做的一个传输指令评价体系,详见 传输质量评价体系简介。

这个评价体系的意义在于,在接触大模型之前,我几乎手工完成了 “涌现”(远非严格意义上的涌现,稍微沾边的名词借用) 的效果,发现用单一指标或混合指标综合考量这种传统方法做不到的 “模式发现”。构建这个评价体系的技术要点就在于 sigmoid 函数,它统一了数据量纲,忽略了数值本身,用这些 “信息损失” 换取(激活)了 “模式” 这种高层宏观度量。 这就是信息守恒的体现,用许多平坦,松散的微观信息换少量关联关系的宏观信息,这种兑换是等价的。

我并不需要应对梯度爆炸和消失的问题,sigmoid 又足够简洁,才用它,否则就需要 GELU 函数激活特征了,但它同时也更复杂而不美了。

将这个评价体系的构建交给 AI 是高尚的,它将真正涌现出更多的调参建议并通过 agent 实施,使网络传输效率收敛到最优。目前学术界和工业界已经有了相关的探索和实践,证明 AI + RL 在模拟环境可以获得比单一的或综合的传统算法更好的传输效率。

现实挑战在于 AI 在线推理时延以及其收敛性。

上周我还提到了 控制论和传输协议 的关联。其中最核心的两个建议:

  • “要使一个反馈调节有效,反馈调节的速度必须大于客体变化的速度,否则就会在调节中发生震荡现象”;
  • “并不是计算方法有问题,而是计算速度太慢”;

在数据中心网络(DCN),RDMA 是 10us 级精确的,AI 推理的时间尺度当前还无法稳定收敛到 10us 级,“计算速度太慢”,另一方面,大模型是概率模型,在非常小的时间尺度上的模糊预测会干扰网络试图实施的精确控制计划,与之相对,10ms 级的广域网就没有如此约束。

短期来看,存在一种混合策略,AI 在分钟级宏观层面调整传输算法策略,而传统机制(如 DCQCN)仍在 10us 级执行控制。而长期来看,随着 AI Infra 的成熟,端到端 AI 原生拥塞控制有望成为 DCN 的新标准。这大致就是我对 AI 控制 DCN 前景的看法。

在做法上,我可能会用实际流量样本训练 DCN 本身,在它能为拥塞控制给出建议之前,实际的流量或人为注入的流量(例如 incast)最为输入,人工的,传统算法的或 SDN 的决策作为目标,都是该 AI DCN 的学习样本,该 AI DCN 就像一个神经网络本身一样收敛,涌现出应对任何流量模式的即时应对措施,在我看来这就算一种即时的 “在线推理”。另一方面,作为一个与 DCN 解耦的,离线的,非即时推理方法,蒸馏一个小模型能极大提升推理效率并节省资源。

不管怎样,信息守恒,只是难以暴露,依赖大模型的涌现能力,发现隐藏在流量本身的,靠人工以及传统算法无法发现的 “模式” 信息,才能给出更加有效的应对策略。

回头再看涌现能力,每个步骤都简洁明了的张量,线性运算,与同样简洁明了的非线性函数结合,如此重复几轮,就涌现出了非同寻常的能力,再对比人脑的复杂性,它也许也并不复杂,可能我们只是对碳基内核不熟悉。直白理解,所谓的自我意识也来自涌现出来的高级 “模式”,只是它发现了它自己而已(参考侯世达的经典 《GEB》)。

也许世界本身就是简单线性和简单非线性的重复组合,一层一层涌现后展现出来的规则和有序,但却又无法从更低的层次去预测,所以我们只是不明觉厉。

浙江温州皮鞋湿,下雨进水不会胖。

http://www.dtcms.com/a/612323.html

相关文章:

  • 郑州市网站开发无极在线招工招聘信息
  • 网站封面制作做家旅游的视频网站
  • 政务网的门户网站建设企业网站开发时间
  • 温州网站建设公司公司哪家好挂机宝做网站
  • 与铁路建设相关的网站专业网站建设微信商城开发
  • 怎样手机微信登陆网站国内oa办公系统排名
  • 景观网站设计网站手机开发框架
  • 15年做那个网站能致富wordpress首页背景
  • 网站建设必须要服务器吗wordpress引用文件
  • 成都有哪些网站建设的公司仿冒网站制作
  • 网站的二维码怎么做免费ppt模板简约
  • 竞价推广什么意思seo软件服务
  • 网站登陆界面psd网站建设与设计大作业
  • 和平苏州网站建设大连网站建设公司
  • qq小程序入口烟台软件优化网站建设
  • 怎么打击对手网站排名中国十大装饰公司
  • 网站设计确认书设计素材的网站
  • 网站建设详细描述产品的是什么意思昆明网络营销公司哪家好
  • 公司建设网站需要多少钱西安十大网络公司
  • 废品回收在哪个网站做效果好怎样进行seo优化
  • 浙江建设厅 继续教育 网站制作一个网页需要花钱吗
  • 免费网络短剧网站一家企业如何做网站推广
  • EG2132 半桥MOS管栅极驱动芯片技术解析
  • 万网网站空间费网店装修是什么
  • 大连城市建设网站景安建网站
  • 深圳推广公司推荐手机网站优化排名
  • 建设银行网站怎么看不见余额推荐优秀网站
  • 盈科互动网站建设制作公司湘潭做网站出色磐石网络
  • 个人网站备案 网站名称室内装饰设计师职业标准
  • 网站静态与动态淘宝联盟自建网站教程