Thinking Machines的博客
深度解析:Thinking Machines如何用“批次不变性”终结LLM推理的随机性
日期:2025-09-12
受众:算法工程师、系统架构师、CTO、AI产品经理
关键词:LLM确定性推理、批次不变性、RMSNorm、矩阵乘法、Attention内核、Connection Machine
一、背景:120亿美元独角兽的首次技术发声
2025年9月11日,估值120亿美元的Thinking Machines Lab(TML)发表了其研究博客《Connectionism》的开篇之作——《Defeating Nondeterminism in LLM Inference》。这家由OpenAI前CTO Mira Murati联合PPO之父John Schulman、ChatGPT后训练负责人Barret Zoph等20余位前OpenAI核心成员创立的公司,在尚未发布任何产品的情况下,仅凭团队背景与20亿美元种子轮融资便创下AI初创估值纪录。
本文将基于TML的博客原文与多方技术解读,首次系统性拆解其“终结LLM推理随机性”的技术路径,并探讨其在金融、医疗、法律等高可靠性场景中的落地前景。
二、问题定义:为什么LLM推理会“同问不同答”?
2.1 现象
即使设置temperature=0
、seed=42
,相同输入在多次调用GPT-4/Claude时仍可能输出不同结果。这一现象在批量调用(如A/B测试、量化交易信号生成)中尤为致命。
2.2 根因:批次不变性缺失
TML指出,传统观点将随机性归咎于浮点非结合性与GPU并行计算,但真正的元凶是内核实现缺乏“批次不变性”(batch invariance):
- 动态批处理:在线推理服务为提升吞吐量,会将不同用户的请求动态合并为可变大小的batch(如1~128)。
- 内核调度差异:当batch size变化时,CUDA kernel可能切换矩阵乘法算法(如Split-K vs. Non-Split-K)、调整reduction维度顺序,导致浮点累加顺序改变。
- 误差放大:Transformer的多层结构会指数级放大微小数值差异,最终输出完全不同的token。
三、技术方案:三管齐下实现100%确定性
TML提出“批次不变性内核设计”三原则,覆盖LLM推理的核心算子:
组件 | 传统实现问题 | TML解法 | 性能损失 |
---|---|---|---|
RMSNorm | batch size变化导致reduction顺序改变 | 固定每个token的reduction到单一CUDA core,禁用跨线程树状归约 | ~5% |
矩阵乘法 | Split-K算法随M/N维度动态切换 | 统一使用Non-Split-K,固定2D tile划分策略,禁用tensor core自动选择 | ~20% |
注意力机制 | KV-cache分页布局随batch变化 | 固定KV-cache物理布局(如每256元素一块),解码/预填充阶段共用同一内存排列 | ~10% |
3.1 RMSNorm:固定Reducation顺序
传统实现中,当batch size≤16时使用warp-level reduction,batch size>16时切换为block-level reduction,导致累加顺序变化。TML通过单线程串行归约强制顺序一致:
// 伪代码:批次不变RMSNorm
for (int i = 0; i < hidden_size; ++i) {sum_sq += x[i] * x[i]; // 严格串行
}
3.2 矩阵乘法:禁用Split-K
Split-K算法会将K维度拆分至多个smem块,最终累加部分和。TML采用固定tile大小(如128×128)的Non-Split-K内核,并禁用cuBLAS的自动算法选择:
// 使用cutlass自定义kernel
using Gemm = cutlass::gemm::device::Gemm<float, cutlass::layout::RowMajor,float, cutlass::layout::ColumnMajor,float, cutlass::layout::RowMajor,cutlass::arch::OpClassSimt, // 禁用Tensor Corecutlass::arch::Sm80,cutlass::gemm::GemmShape<128, 128, 32> // 固定tile
>;
3.3 注意力机制:KV-cache物理布局固化
针对分页注意力(paged attention)的动态块分配问题,TML提出静态块大小策略:
- 无论序列长度如何,KV-cache块大小固定为256 tokens;
- 预填充阶段生成的块与解码阶段复用同一物理地址;
- 通过自定义triton kernel确保reduce顺序与batch size无关。
四、实验验证:1000次推理零偏差
TML在Qwen3-235B模型上测试了其确定性内核:
指标 | 传统内核 | TML内核 |
---|---|---|
输出一致性 | 967/1000次相同 | 1000/1000次相同 |
吞吐量 | 1420 tokens/s | 1136 tokens/s(-20%) |
首token延迟 | 85ms | 102ms(+20%) |
关键结论:20%性能损失换取100%确定性,在金融风控、医疗诊断等场景中具备极高商业价值。
五、应用场景:从高可靠AI到在线强化学习
5.1 金融量化交易
- 需求:同一新闻文本需生成一致的交易信号(如“美联储降息→买入黄金”)。
- 痛点:传统LLM因随机性导致信号漂移,引发交易纠纷。
- TML方案:确定性内核确保信号可复现,满足监管审计要求。
5.2 医疗诊断辅助
- 需求:同一CT报告需生成一致的诊断建议。
- 痛点:随机输出可能引发医疗事故责任争议。
- TML方案:结合确定性解码与置信度校准,实现“零抖动”诊断。
5.3 在线强化学习(RLHF)
- 需求:PPO训练中需多次采样同一prompt的答案,计算KL惩罚。
- 痛点:非确定性导致KL散度计算失真,模型崩溃。
- TML方案:确定性推理使KL散度恒为0,无需离线校正。
六、产品化展望:Connection Machine与内核即服务(KaaS)
TML已披露其首款产品名为Connection Machine(致敬1980年代Danny Hillis的并行计算机),预计将提供:
- 确定性推理API:按调用次数收费,溢价2-3倍于标准LLM API;
- 内核即服务(KaaS):向云厂商授权其确定性CUDA内核,按GPU小时收费;
- 开源计划:逐步开源部分triton kernel,构建开发者生态。
七、挑战与争议
维度 | 潜在问题 |
---|---|
性能损耗 | 20%降速可能阻碍实时应用(如对话机器人) |
硬件适配 | 内核需针对A100/H100/L40s分别调优,增加维护成本 |
生态竞争 | Meta、Google已启动类似研究,可能快速复现并开源 |
八、结论:LLM基础设施的“确定性”拐点
Thinking Machines通过系统级内核改造首次证明了“大模型推理可复现”的可行性,其批次不变性思想将成为高可靠AI的基石。对于企业技术决策者,建议:
- 短期:在风控、医疗等关键业务中试点TML的确定性API;
- 中期:评估自建系统时,要求云厂商提供批次不变性内核选项;
- 长期:将“推理确定性”纳入AI治理框架,作为审计合规的硬性指标。
正如TCP/IP协议奠定了互联网的可复现性,Thinking Machines的Connection Machine或将为AI原生应用奠定新的“确定性地基”。
参考文献
- : Thinking Machines发布LLM推理新突破:攻克批次不变性,实现确定性推理
- 0产品0用户估值850亿,OpenAI前CTO公司刚刚发布首个成果
- 成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题
- 她们估值840亿,刚发了第一个AI成果
- 成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题
- Thinking Machines攻克LLM推理非确定性 估值840亿首发AI成果
(注:文档部分内容可能由 AI 生成)