当前位置: 首页 > news >正文

Thinking Machines的博客

深度解析:Thinking Machines如何用“批次不变性”终结LLM推理的随机性

日期:2025-09-12
受众:算法工程师、系统架构师、CTO、AI产品经理
关键词:LLM确定性推理、批次不变性、RMSNorm、矩阵乘法、Attention内核、Connection Machine


在这里插入图片描述

一、背景:120亿美元独角兽的首次技术发声

2025年9月11日,估值120亿美元的Thinking Machines Lab(TML)发表了其研究博客《Connectionism》的开篇之作——《Defeating Nondeterminism in LLM Inference》。这家由OpenAI前CTO Mira Murati联合PPO之父John Schulman、ChatGPT后训练负责人Barret Zoph等20余位前OpenAI核心成员创立的公司,在尚未发布任何产品的情况下,仅凭团队背景与20亿美元种子轮融资便创下AI初创估值纪录。

本文将基于TML的博客原文与多方技术解读,首次系统性拆解其“终结LLM推理随机性”的技术路径,并探讨其在金融、医疗、法律等高可靠性场景中的落地前景。


二、问题定义:为什么LLM推理会“同问不同答”?
2.1 现象

即使设置temperature=0seed=42,相同输入在多次调用GPT-4/Claude时仍可能输出不同结果。这一现象在批量调用(如A/B测试、量化交易信号生成)中尤为致命。

2.2 根因:批次不变性缺失

TML指出,传统观点将随机性归咎于浮点非结合性GPU并行计算,但真正的元凶是内核实现缺乏“批次不变性”(batch invariance)

  • 动态批处理:在线推理服务为提升吞吐量,会将不同用户的请求动态合并为可变大小的batch(如1~128)。
  • 内核调度差异:当batch size变化时,CUDA kernel可能切换矩阵乘法算法(如Split-K vs. Non-Split-K)、调整reduction维度顺序,导致浮点累加顺序改变。
  • 误差放大:Transformer的多层结构会指数级放大微小数值差异,最终输出完全不同的token。

三、技术方案:三管齐下实现100%确定性

TML提出“批次不变性内核设计”三原则,覆盖LLM推理的核心算子:

组件传统实现问题TML解法性能损失
RMSNormbatch size变化导致reduction顺序改变固定每个token的reduction到单一CUDA core,禁用跨线程树状归约~5%
矩阵乘法Split-K算法随M/N维度动态切换统一使用Non-Split-K,固定2D tile划分策略,禁用tensor core自动选择~20%
注意力机制KV-cache分页布局随batch变化固定KV-cache物理布局(如每256元素一块),解码/预填充阶段共用同一内存排列~10%
3.1 RMSNorm:固定Reducation顺序

传统实现中,当batch size≤16时使用warp-level reduction,batch size>16时切换为block-level reduction,导致累加顺序变化。TML通过单线程串行归约强制顺序一致:

// 伪代码:批次不变RMSNorm
for (int i = 0; i < hidden_size; ++i) {sum_sq += x[i] * x[i]; // 严格串行
}
3.2 矩阵乘法:禁用Split-K

Split-K算法会将K维度拆分至多个smem块,最终累加部分和。TML采用固定tile大小(如128×128)的Non-Split-K内核,并禁用cuBLAS的自动算法选择:

// 使用cutlass自定义kernel
using Gemm = cutlass::gemm::device::Gemm<float, cutlass::layout::RowMajor,float, cutlass::layout::ColumnMajor,float, cutlass::layout::RowMajor,cutlass::arch::OpClassSimt, // 禁用Tensor Corecutlass::arch::Sm80,cutlass::gemm::GemmShape<128, 128, 32> // 固定tile
>;
3.3 注意力机制:KV-cache物理布局固化

针对分页注意力(paged attention)的动态块分配问题,TML提出静态块大小策略

  • 无论序列长度如何,KV-cache块大小固定为256 tokens;
  • 预填充阶段生成的块与解码阶段复用同一物理地址;
  • 通过自定义triton kernel确保reduce顺序与batch size无关。

四、实验验证:1000次推理零偏差

TML在Qwen3-235B模型上测试了其确定性内核:

指标传统内核TML内核
输出一致性967/1000次相同1000/1000次相同
吞吐量1420 tokens/s1136 tokens/s(-20%)
首token延迟85ms102ms(+20%)

关键结论:20%性能损失换取100%确定性,在金融风控、医疗诊断等场景中具备极高商业价值。


五、应用场景:从高可靠AI到在线强化学习
5.1 金融量化交易
  • 需求:同一新闻文本需生成一致的交易信号(如“美联储降息→买入黄金”)。
  • 痛点:传统LLM因随机性导致信号漂移,引发交易纠纷。
  • TML方案:确定性内核确保信号可复现,满足监管审计要求。
5.2 医疗诊断辅助
  • 需求:同一CT报告需生成一致的诊断建议。
  • 痛点:随机输出可能引发医疗事故责任争议。
  • TML方案:结合确定性解码与置信度校准,实现“零抖动”诊断。
5.3 在线强化学习(RLHF)
  • 需求:PPO训练中需多次采样同一prompt的答案,计算KL惩罚。
  • 痛点:非确定性导致KL散度计算失真,模型崩溃。
  • TML方案:确定性推理使KL散度恒为0,无需离线校正。

六、产品化展望:Connection Machine与内核即服务(KaaS)

TML已披露其首款产品名为Connection Machine(致敬1980年代Danny Hillis的并行计算机),预计将提供:

  1. 确定性推理API:按调用次数收费,溢价2-3倍于标准LLM API;
  2. 内核即服务(KaaS):向云厂商授权其确定性CUDA内核,按GPU小时收费;
  3. 开源计划:逐步开源部分triton kernel,构建开发者生态。

七、挑战与争议
维度潜在问题
性能损耗20%降速可能阻碍实时应用(如对话机器人)
硬件适配内核需针对A100/H100/L40s分别调优,增加维护成本
生态竞争Meta、Google已启动类似研究,可能快速复现并开源

八、结论:LLM基础设施的“确定性”拐点

Thinking Machines通过系统级内核改造首次证明了“大模型推理可复现”的可行性,其批次不变性思想将成为高可靠AI的基石。对于企业技术决策者,建议:

  1. 短期:在风控、医疗等关键业务中试点TML的确定性API;
  2. 中期:评估自建系统时,要求云厂商提供批次不变性内核选项;
  3. 长期:将“推理确定性”纳入AI治理框架,作为审计合规的硬性指标。

正如TCP/IP协议奠定了互联网的可复现性,Thinking Machines的Connection Machine或将为AI原生应用奠定新的“确定性地基”。


参考文献
: Thinking Machines发布LLM推理新突破:攻克批次不变性,实现确定性推理
0产品0用户估值850亿,OpenAI前CTO公司刚刚发布首个成果
成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题
她们估值840亿,刚发了第一个AI成果
成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题
Thinking Machines攻克LLM推理非确定性 估值840亿首发AI成果

(注:文档部分内容可能由 AI 生成)


文章转载自:

http://1XVslcW3.zwndt.cn
http://2g4oCuEN.zwndt.cn
http://eBGZpwLw.zwndt.cn
http://bJEt2u8H.zwndt.cn
http://snB4uDcG.zwndt.cn
http://VPobvMKu.zwndt.cn
http://yuTf6doY.zwndt.cn
http://CXfjm1xg.zwndt.cn
http://KhHptkt1.zwndt.cn
http://S1eUxYS7.zwndt.cn
http://lVju6Bhc.zwndt.cn
http://z2cEZCOw.zwndt.cn
http://x7Ld1rDR.zwndt.cn
http://GBzuaXWi.zwndt.cn
http://ZQjJyNJI.zwndt.cn
http://TvzfOfRZ.zwndt.cn
http://HEuKWqI2.zwndt.cn
http://bLchvZW3.zwndt.cn
http://MCQSUL6n.zwndt.cn
http://cSnAyb6r.zwndt.cn
http://uYCks2sP.zwndt.cn
http://W7rjc6su.zwndt.cn
http://72xL9L2k.zwndt.cn
http://fP0KPZTy.zwndt.cn
http://TN13AJ5K.zwndt.cn
http://lp8u3Vah.zwndt.cn
http://IQqVQD3W.zwndt.cn
http://FhimOem7.zwndt.cn
http://0m54B1qi.zwndt.cn
http://VgmJJoIn.zwndt.cn
http://www.dtcms.com/a/381124.html

相关文章:

  • Linux命令行的核心理念与实用指南
  • 单板挑战4路YOLOv8!米尔瑞芯微RK3576开发板性能实测
  • 硬件(九)寄存器、外设与中断机制
  • 《常见的设计模式——单例、代理与适配器》
  • 海龟交易策略
  • MySQL 事务
  • claude code使用小窍门
  • Recaptcha2 图像识别 API 对接说明
  • Spring中 @Value注解设置默认值
  • Linux / Windows 下连续发送多帧 8 字节指令,下位机只响应第一帧,第二帧“丢失”。
  • RStudio 教程:以抑郁量表测评数据分析为例
  • 驱动程序介绍及其安装说明
  • Day03 前缀和 | 1248. 统计「优美子数组」、53. 最大子数组和
  • 现代化心理中心场室建设与规划之道
  • 面向小白用户的多集群云原生应用管理平台设计
  • 怎么设计一个高效的任务调度器,避免任务饥饿
  • Linux运维核心知识体系总结:从安全加密到服务部署
  • 50期权日内交易技巧
  • 枚举算法和排序算法能力测试
  • 未来之窗昭和仙君 (四) 前端网页分页 — 东方仙盟筑基期
  • Class50 LSTM
  • Redis是什么?一篇讲透它的定位、特点与应用场景
  • [zlaq.mohurd]网页搜索功能JavaScript实现机制技术分析报告
  • k8s工作负载-Pod学习
  • IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
  • 网络安全赚钱能力提升平台众测平台(个人经常使用的)
  • n8n自动化测试指南(一):环境配置与初探功能
  • PAT乙级_1117 数字之王_Python_AC解法_无疑难点
  • CSS布局 - 网格布局 -- 笔记3
  • OSPF高级技术 相关知识点