SARAD 解读
出处:NIPS 2024
代码链接:https://github.com/daidahao/SARAD/
一 文章动机
① 时间建模(Temporal Modeling)的局限性:
a. 时间维度上 感受野极小;b. 变量间时间戳错位 (时间建模、空间建模不统一) → 时间建模的 TSAD 能力有限;
时间建模方式 在 TSAD 领域的两大假设:通道独立、通道混合
特征独立假设(通道独立):假设通道间独立,模型无法捕捉到通道间的相互关联。在异常检测时,可能导致无法识别出由多个特征共同变化引起的时序异常,导致对异常检测重要的空间信息被 “遗漏”;
结合不同物理性质的通道(通道混合):虽缓解多重共线性,但仍然无法充分捕捉特征间的复杂空间关联,可能导致异常检测的敏感度、准确性降低,导致对异常检测重要的空间信息被 “稀释”;
② 本文 明确利用:异常时,空间关联随时间减少,实现更好的 TSAD:
注意现象:
蓝色虚线框内的 (b) 、(c)、(d) 表征异常发生前、发生时、发生后 各通道的关联程度矩阵,颜色越深,程度越大;异常发生后,与异常相关的通道 的关联程度矩阵发生显著变化;(“空间关联减少”);
③ TSAD 的时间建模(x) → TSAD 的空间建模(√);
二 模型结构
① SAR(Spatial Association Reduction):
The rationale is that anomalies either originate from or result in dissolution of pre-existing associations, detaching anomalous features from their non-anomalous counterparts.
时序异常要么源于先前的 “空间关联”,要么导致先前 “空间关联” 的 “解体”;
② 具体模型结构:
第一部分:
a. 拆分 及 合并(Subseries Split & Merge):
避免 “过拟合” 及 “灾难性遗忘”,其具体过程见上图;
第二部分:主要用于捕获 “变量间的关联度” 矩阵,注入模型的 “第三部分”:
b. embedding 层:
在每个 Ei 的列方向上,拼接可学习的、特征级别的(feature - level)矩阵:
c. Spatial-Aware Encoding 部分:
体现了 “空间感知” ,学习了 “特征级别” 的相互映射关联(“通道相关性”,如:上图的通道关联矩阵),具体过程如下列公式所示:
不压缩改变 “特征 / 变量” 上的维度,通过注意力机制的权重动态调整特征向量的值;
为了不过度覆盖,维持 “保真性”,引入“残差连接”;
d. Linear Projection 部分:张量的维度恢复;
第三部分:
e. Association Progression
根据 “第二部分” 的信息材料,挖掘 “SAR” 现象,注意 RELU 的性质,因为此处仅关注 “退化” 现象,所以正值被保留,负值置为0:
f. Progression Aggregation
注意:(1) 此处应用 “列级别” 的求和,因为:
行级别(Row-Level):表示其他特征对当前特征的重构影响;
列级别(Column-Level):表示当前特征对所有其他特征重构的影响。(SAR 更显著)
(2) 此处采用 “最后一层的变量关联矩阵” 聚合,因为:最后一层更接近模型输出,能直接反映最终重构结果的特征间依赖关系;
第四部分:训练 及 测试(分为:“时序异常检测(检测时间点)” 及 “时序异常定位” (检测变量)):
训练部分:
其中,LR 是数据重建损失,LS 是渐进重建损失,λLS 是超参数;
梯度被阻止流入 S,以防止数据模块的更新和关联表示的崩溃;
同时训练两个异常检测器,一个在原始数据空间中工作,另一个在空间级数空间中工作;
时序异常检测:
时序异常定位: