当前位置：首页 > news >正文

体系结构论文（八十六）：The Dark Side ofComputing: SilentData Corruptions

news 2025/9/5 2:54:17

The Dark Side of Computing: Silent Data Corruptions

一、背景逻辑

计算的两大核心诉求

Property #1: Correctness

Property #2: Speed

技术难题引入

正确性风险来自哪里？

硅芯片的生命周期中，正确性风险如何发生？

为什么无法做到100%正确？

二、SILICON DEFECTS AFFECTING PROGRAMS

举例分析：从逻辑门缺陷开始

缺陷转化为程序错误需满足的4个条件

条件1：指令使用了乘法

条件2：特定输入值激活缺陷

条件3：逻辑路径传播错误

条件4：错误结果影响最终程序执行

图1的说明

通用化：任何硬件单元都有可能

三、VISIBLE AND SILENT EFFECTS OF DEFECTIVE SILICON

先问核心问题

可见性错误 (Visible Errors)

静默错误 (Silent Data Corruptions, SDC)

很多人会直觉反应：加检测机制不就完了？

硬件 vs 软件检测成本分析

四、SDC DISCLOSURES: PAST AND PRESENT

早期大家对 SDC 的认知：神话 or 个例

大规模云厂商开始披露真实数据

各家披露数据总结 (表 Table 1)

SDC ≠ Detectable Error

理想目标 vs 工程现实

五、WHAT COMPANIES REALLY DISCLOSED?

现有披露仍然非常有限

目前的主要未解问题

问题：不知道弱点就无法防御

核心哲学问题：你无法测量 SDC

如何估算 SDC 规模？

可见性错误 vs 静默错误

终极问题：能接受多少SDC？

六、REDUCING SDCs AND THE COST

六、 MORE DISCLOSURES FROM INDUSTRY?

Meta, Google, Alibaba 是非常罕见的披露者

但为什么大多数公司仍然讳莫如深？

原因一：可靠性≠卖点

原因二：无法验证的指标难以公开

七、SDC-AWARENESS IN COST MODELS

当前变化

新的商业逻辑：按 SDC 风险分级定价

最终，成本承担者在博弈

八、SDCs FROM DATA PARALLEL ARCHITECTURES

目前披露多集中在 CPU

数据并行架构风险更高

直觉结论：AI系统更脆弱

九、PRACTICAL (COST-EFFECTIVE) RESEARCH DIRECTIONS

背景铺垫：技术越进步，风险越难控

三个主要研究方向

① SDC真实发生率的估算模型（SDC rate estimation）

② 数据中心在线扫描机制（In-field fleet scanning）

③ 层次化软硬件容忍机制（Tolerance at HW/SW layers）

全栈式多学科协作

本文聚焦于当今计算系统中的 Silent Data Corruptions (SDCs) —— 即在硬件（尤其是硅芯片）中，由于缺陷导致的无感知数据错误。SDC 的严重性在于：

程序运行完成、没有异常、没有崩溃、输出看似合理；
实际结果却是错误的，且没有被任何检测机制捕获。.

1. 计算的两大核心诉求

正确性（Correctness）
性能（Speed）
这两者都很昂贵且难以兼顾，尤其在硬件设计和制造中更是如此。

2. 硅缺陷的来源与危害

设计缺陷（design bugs）
制造缺陷（manufacturing defects）
老化、辐射、材料老化（mission time defects）
这些缺陷可能导致某些逻辑门在特定条件下输出错误，例如文中举了乘法器里一个 OR 门错误输出的例子。

3. 静默数据错误的危害

SDC最大的问题是：用户与系统完全不知情。
相比于崩溃或异常，SDC更隐蔽、更难以捕捉，也因此对关键应用（金融、医疗、AI等）危害极大。

4. 大规模云厂商的披露数据

Meta：数十万台机器中有上百颗 CPU 存在 SDC
Google：几千台机器中有若干核心存在问题
Alibaba：3.61% 的 CPU 存在 SDC
表明 SDC 不是“极端偶发”，而是实际存在的工程性问题。

5. 为什么难以量化

SDC本质是“静默的”，没法直接观测。
只能靠间接估算，例如微架构级 fault injection 模拟、数据中心场景仿真等。

6. 降低 SDC 的手段与成本

手段	降低原因	成本
更好的制造测试	避免缺陷流入	制造成本高
降低芯片工艺变异	筛掉临界品	良品率下降
硬件容错设计	运行时修正	硬件面积、功耗、性能损失
软件容错	运行时检测修正	计算与能耗开销

7. 数据中心的商业考虑

未来可能出现分级定价：低SDC率的云资源更贵，SDC风险由谁承担需要在云厂商、芯片厂商和用户之间权衡。

8. 未来研究方向

更精准的 SDC 率估算与建模
数据中心在线检测机制
硬件与软件容错共设计
跨层次的体系架构可靠性协同（硬件设计、微架构、ISA、编译器、应用层）

“SDC问题正逐渐从神话走向现实，工业界与学术界需共同投入，跨硬件-软件栈设计新一代可依赖的计算系统。”