是“浴盆曲线”失灵,还是HDD变好了?
Backblaze作为全球知名云存储服务商,自2013年起持续追踪旗下硬盘集群(从最初3.5万块到2025年31.7万块)的故障数据,13年的实测结果却逐步颠覆了这一模型——硬盘不仅可靠性提升,故障规律也从“U型”转向“平缓平台+晚期缓升”,让我们来结合Backblaze的数据,看看从2013年到2025年发生了哪些变化?

什么是“浴盆曲线”?
传统定义: 在可靠性工程中,描述产品故障率随时间变化的规律,形似一个浴缸的横截面,故得名浴缸曲线(Bathtub curve),也有叫法是浴盆曲线,又称U型曲线。它分为三个阶段:
-
-
早期故障期(左端高): 因制造缺陷,产品在投入使用初期故障率较高。
-
偶然故障期(中间低平): 缺陷产品被淘汰后,进入稳定的“生命期”,故障率低且恒定。
-
损耗故障期(右端升高): 随着产品磨损老化,故障率开始显著上升。
-

2013年曲线:最贴近经典浴缸模型的“初始状态”
2013年是Backblaze首次开展硬盘可靠性分析,当时的曲线是三次(2013/2021/2025)分析中唯一高度契合经典浴缸曲线U型特征的数据,具体表现与背后原因可拆解为三点:
-
早期故障期(0-1年):故障率随时间快速下降,曲线左半段“陡峭下滑”——这是因为当时采用的消费级硬盘,部分存在制造缺陷(如磁头定位偏差、盘片微小划痕),投入使用后这些“先天问题”会快速暴露,导致初期故障集中;
-
偶然故障期(1-3年):故障率降至低水平且稳定,曲线中段“平缓横走”——经过初期筛选,无缺陷的硬盘进入“稳定工作期”,故障仅由随机因素(如短暂电压波动)导致,概率极低;
-
损耗故障期(3年以后):故障率随时间急剧上升,曲线右半段“陡峭上扬”——3年左右,消费级硬盘的机械部件(如电机、磁头)开始老化,磨损加剧,导致故障集中爆发,3年3个月(年化故障率)高达13.73%。

2013年曲线贴合经典模型,本质是当时硬盘集群的“局限性”恰好匹配了浴缸曲线的理想假设:
-
硬件层面:全为消费级硬盘,设计目标是“家用间歇性使用”(如每天开机4-8小时),而非数据中心“7×24小时高负载运行”,机械部件的耐用性本就有限,到时间就会进入损耗期;
-
运维层面:为控制成本,需人工“拆除硬盘外壳”(适配数据中心机架),过程中可能造成轻微物理损伤,进一步放大“早期故障”;
-
样本层面:仅约3.5万块硬盘,样本量小导致数据波动被放大——少量批次的集中故障会让“损耗期峰值”更尖锐,恰好强化了U型特征。
2021年曲线:开始“渗漏”的经典模型,故障规律全面优化
2021年的更新数据,首次提出“浴缸曲线在渗漏”的判断——这里的“渗漏”指经典U型的完整性被打破:早期故障减少、稳定期延长、损耗期推迟,曲线从“尖锐U型”变为“宽扁U型”。
-
早期故障近乎消失:0-1年的故障率不再“陡峭下滑”,而是直接降至低水平,与“偶然故障期”的故障率接近——意味着投入使用的硬盘“先天缺陷率大幅降低”;
-
偶然故障期延长至7年:稳定低故障率的持续时间从2013年的“1-3年”拉长至“1-7年”,硬盘“黄金使用期”直接翻倍;
-
损耗
