当前位置：首页 > news >正文

Thinking Machines的博客

news 2025/9/13 14:10:08

深度解析：Thinking Machines如何用“批次不变性”终结LLM推理的随机性

日期：2025-09-12
受众：算法工程师、系统架构师、CTO、AI产品经理
关键词：LLM确定性推理、批次不变性、RMSNorm、矩阵乘法、Attention内核、Connection Machine

在这里插入图片描述

一、背景：120亿美元独角兽的首次技术发声

2025年9月11日，估值120亿美元的Thinking Machines Lab（TML）发表了其研究博客《Connectionism》的开篇之作——《Defeating Nondeterminism in LLM Inference》。这家由OpenAI前CTO Mira Murati联合PPO之父John Schulman、ChatGPT后训练负责人Barret Zoph等20余位前OpenAI核心成员创立的公司，在尚未发布任何产品的情况下，仅凭团队背景与20亿美元种子轮融资便创下AI初创估值纪录。

本文将基于TML的博客原文与多方技术解读，首次系统性拆解其“终结LLM推理随机性”的技术路径，并探讨其在金融、医疗、法律等高可靠性场景中的落地前景。

二、问题定义：为什么LLM推理会“同问不同答”？

2.1 现象

即使设置temperature=0、seed=42，相同输入在多次调用GPT-4/Claude时仍可能输出不同结果。这一现象在批量调用（如A/B测试、量化交易信号生成）中尤为致命。

2.2 根因：批次不变性缺失

TML指出，传统观点将随机性归咎于浮点非结合性与GPU并行计算，但真正的元凶是内核实现缺乏“批次不变性”（batch invariance）：

动态批处理：在线推理服务为提升吞吐量，会将不同用户的请求动态合并为可变大小的batch（如1~128）。
内核调度差异：当batch size变化时，CUDA kernel可能切换矩阵乘法算法（如Split-K vs. Non-Split-K）、调整reduction维度顺序，导致浮点累加顺序改变。
误差放大：Transformer的多层结构会指数级放大微小数值差异，最终输出完全不同的token。

三、技术方案：三管齐下实现100%确定性

TML提出“批次不变性内核设计”三原则，覆盖LLM推理的核心算子：

组件	传统实现问题	TML解法	性能损失
RMSNorm	batch size变化导致reduction顺序改变	固定每个token的reduction到单一CUDA core，禁用跨线程树状归约	~5%
矩阵乘法	Split-K算法随M/N维度动态切换	统一使用Non-Split-K，固定2D tile划分策略，禁用tensor core自动选择	~20%
注意力机制	KV-cache分页布局随batch变化	固定KV-cache物理布局（如每256元素一块），解码/预填充阶段共用同一内存排列	~10%

3.1 RMSNorm：固定Reducation顺序

传统实现中，当batch size≤16时使用warp-level reduction，batch size>16时切换为block-level reduction，导致累加顺序变化。TML通过单线程串行归约强制顺序一致：

// 伪代码：批次不变RMSNorm
for (int i = 0; i < hidden_size; ++i) {sum_sq += x[i] * x[i]; // 严格串行
}

3.2 矩阵乘法：禁用Split-K

Split-K算法会将K维度拆分至多个smem块，最终累加部分和。TML采用固定tile大小（如128×128）的Non-Split-K内核，并禁用cuBLAS的自动算法选择：

// 使用cutlass自定义kernel
using Gemm = cutlass::gemm::device::Gemm<float, cutlass::layout::RowMajor,float, cutlass::layout::ColumnMajor,float, cutlass::layout::RowMajor,cutlass::arch::OpClassSimt, // 禁用Tensor Corecutlass::arch::Sm80,cutlass::gemm::GemmShape<128, 128, 32> // 固定tile
>;

3.3 注意力机制：KV-cache物理布局固化

针对分页注意力（paged attention）的动态块分配问题，TML提出静态块大小策略：

无论序列长度如何，KV-cache块大小固定为256 tokens；
预填充阶段生成的块与解码阶段复用同一物理地址；
通过自定义triton kernel确保reduce顺序与batch size无关。

四、实验验证：1000次推理零偏差

TML在Qwen3-235B模型上测试了其确定性内核：

指标	传统内核	TML内核
输出一致性	967/1000次相同	1000/1000次相同
吞吐量	1420 tokens/s	1136 tokens/s（-20%）
首token延迟	85ms	102ms（+20%）

关键结论：20%性能损失换取100%确定性，在金融风控、医疗诊断等场景中具备极高商业价值。

五、应用场景：从高可靠AI到在线强化学习

5.1 金融量化交易

需求：同一新闻文本需生成一致的交易信号（如“美联储降息→买入黄金”）。
痛点：传统LLM因随机性导致信号漂移，引发交易纠纷。
TML方案：确定性内核确保信号可复现，满足监管审计要求。

5.2 医疗诊断辅助

需求：同一CT报告需生成一致的诊断建议。
痛点：随机输出可能引发医疗事故责任争议。
TML方案：结合确定性解码与置信度校准，实现“零抖动”诊断。

5.3 在线强化学习（RLHF）

需求：PPO训练中需多次采样同一prompt的答案，计算KL惩罚。
痛点：非确定性导致KL散度计算失真，模型崩溃。
TML方案：确定性推理使KL散度恒为0，无需离线校正。

六、产品化展望：Connection Machine与内核即服务（KaaS）

TML已披露其首款产品名为Connection Machine（致敬1980年代Danny Hillis的并行计算机），预计将提供：

确定性推理API：按调用次数收费，溢价2-3倍于标准LLM API；
内核即服务（KaaS）：向云厂商授权其确定性CUDA内核，按GPU小时收费；
开源计划：逐步开源部分triton kernel，构建开发者生态。

七、挑战与争议

维度	潜在问题
性能损耗	20%降速可能阻碍实时应用（如对话机器人）
硬件适配	内核需针对A100/H100/L40s分别调优，增加维护成本
生态竞争	Meta、Google已启动类似研究，可能快速复现并开源