软件可靠性失效严重程度分类与深度解析
目录
一、为什么要分级(What & Why)
二、分级维度(看什么)
三、通用 5 级严重度分级表
四、与成本影响的量化对齐(怎么“数”)
五、与系统能力的对齐
六、风险矩阵与优先级(Severity×Likelihood)
七、测试与发布策略联动(按严重度差异化投入)
八、度量与看板(让改进可见)
九、面向物联网/智能安防实例
十、落地流程
一、为什么要分级(What & Why)
失效严重程度(Severity)描述的是:一旦发生失效,其后果有多严重(与发生概率无关)。 用途:
-
统一“多严重”的语言,指导测试力度、发布闸口、应急响应级别;
-
驱动工程资源分配(高 S 缺陷优先修复),并与可靠性指标、SLA/SLO 对齐;
-
为风险评估矩阵(Severity × Likelihood)和 FMEA/RPN 提供输入。
切记:Severity ≠ Priority。Priority(处理优先级)还会考虑发生概率、客户关系、可替代方案等要素。
二、分级维度(看什么)
核心两维:
-
成本影响(Cost Impact):直/间接损失(营收、赔付、罚款、人工/机会成本、品牌舆情)。
-
系统能力影响(Capability Impact):系统是否还能提供核心能力、是否退化、受影响范围与持续时间。
常见补充维度(建议纳入判定卡):
-
安全与合规:人身/财产安全、隐私泄露、监管处罚风险;
-
数据层面:数据损坏/丢失/不可逆一致性破坏;
-
可用性与性能:停机、明显降级、SLO 违约;
-
影响范围:所有用户/区域/单租户/小范围;
-
持续时间:瞬时/分钟/小时/天;
-
可替代性:是否有应急绕行或降级方案。
三、通用 5 级严重度分级表
可直接用于需求、缺陷、事件分级;阈值请结合你的业务标定。
级别 | 名称 | 系统能力影响 | 成本/合规 | 数据与安全 | 典型阈值(示例,可调整) |
S1 | 灾难级 Catastrophic | 核心能力全面不可用;影响全体/大多数用户;无法自愈 | 高额收入损失;重大违约/合规风险;品牌重大负面 | 不可逆的数据丢失/泄露;人身/财产安全风险 | 受影响用户 ≥ 30% 或关键交易成功率 < 50% 持续 ≥ 30 min |
S2 | 严重级 Critical | 核心路径严重退化或关键区域不可用;影响大范围 | 显著收入损失;潜在合规风险;客户大量投诉 | 可能数据不一致,但可修复;无明确安全事件 | 受影响用户 10–30% 或关键交易成功率 < 90% 持续 ≥ 30 min |
S3 | 重要级 Major | 非核心/部分核心功能不可用或明显降级;中等范围 | 间接损失;支持成本上升 | 低概率数据不一致,可回滚/校正 | 受影响用户 1–10% 或性能退化(P95 延时↑>50%)持续 ≥ 1 h |
S4 | 次要级 Minor | 局部功能异常,有替代路径;小范围 | 轻微影响;少量投诉 | 无数据破坏;无安全风险 | 受影响用户 <1%,体验缺陷/边角问题 |
S5< |