当前位置：首页 > news >正文

浅谈业务时序数据异常检测

news 2025/7/26 11:20:33

1. 背景与问题分析

1.1 业务背景
目前平台发现以下两类典型的异常数据现象：

毛刺跳0 (Point Anomaly / Spike): 某个时间点的数据突然跌落至0或一个极端异常的低值，然后迅速恢复正常。这很可能是上游异常失败、数据源API抖动或数据清洗流程错误导致的。
异常来回跳动 (Collective Anomaly / Oscillation): 数据在一个小时间窗口内，于两个或多个异常值之间快速、反复地波动，无法形成稳定趋势。这可能指示着上游服务在多个数据源之间出现共识分歧或频繁切换。

这些异常数据若不及时发现和告警，可能导致错误的业务分析、策略误判甚至资产风险。因此，亟需一套可靠的自动化时序数据异常检测方案。

2. 业界主流异常检测方案

时序数据的异常检测旨在识别出与预期模式显著不符的数据点或序列。业界主流方法大致可分为四类：基于阈值规则的方法、基于统计学的方法、基于机器学习（含深度学习）的方法以及混合方法。

2.1. 基于阈值规则的方法 (Threshold-based Methods)

这是最基础也是最直观的异常检测方法，通过设定业务逻辑上的上下限阈值来识别异常数据。虽然简单，但在实际生产环境中往往是第一道防线。

固定阈值法 (Fixed Threshold):
- 原理: 基于业务经验和历史数据分析，为每个监控指标设定固定的上限和下限。当数据超出这个预设范围时，立即触发告警。
- 实现示例:
```
# 例如：TVL不应低于1000万美元，价格不应为0或负数
if tvl < 10_000_000 or price <= 0:trigger_alert("threshold_violation")
```
- 优点:
  - 实现极其简单，无需复杂计算
  - 实时性最强，延迟几乎为0
  - 业务语义明确，可解释性100%
  - 适合捕捉业务逻辑上绝对不可能出现的异常值
- 缺点:
  - 无法适应数据的自然波动和趋势变化
  - 阈值设定过于依赖人工经验，容易产生误报或漏报
  - 对于有明显周期性、季节性的数据效果较差
- 适用场景: 非常适合检测"毛刺跳0"问题，以及一些业务硬约束（如价格不能为负数、成交量不能超过总供应量等）。
动态阈值法 (Dynamic Threshold):
- 原理: 基于历史数据的统计特征动态调整阈值范围。常见的有基于历史百分位数的方法，或基于滑动窗口的均值±倍数标准差。
- 实现示例:
```
# 基于最近7天数据的95%分位数设定动态上限
rolling_window = data.rolling('7d')
upper_threshold = rolling_window.quantile(0.95)
lower_threshold = rolling_window.quantile(0.05)
```
- 优点: 能够一定程度上适应数据的趋势和周期性变化
- 缺点: 仍然比较粗糙，对复杂模式的敏感度有限
- 适用场景: 适合作为固定阈值的补充，处理有一定波动但相对稳定的指标。

2.2. 基于统计学的方法 (Statistical Methods)

此类方法历史悠久，计算简单，可解释性强，非常适合作为基础监控层，用于捕捉明显的、独立的异常点。

3-Sigma原则 (3σ Rule):
- 原理: 基于正态分布假设，如果一个数据点偏离均值超过3倍标准差，则被视为异常。
- 优点: 实现简单，计算速度快。
- 缺点: 依赖数据呈正态分布的强假设，且均值和标准差本身对异常值非常敏感，可能导致误判。
- 适用场景: 适用于“毛刺跳0”这类极端离群点。
箱线图法 (Boxplot / IQR):
- 原理: 基于数据的四分位数（Q1, Q3）和四分位距（IQR = Q3 - Q1）来定义正常范围（通常是 [Q1 - 1.5*IQR, Q3 + 1.5*IQR]），超出范围的即为异常点。
- 优点: 对数据分布没有要求，对异常值不敏感（鲁棒性强）。
- 缺点: 对周期性、趋势性不敏感，主要用于检测单点异常。
移动平均/指数平滑 (Moving Average / Exponential Smoothing):
- 原理: 通过计算滑动窗口内的均值或加权均值来预测下一个点，如果实际值与预测值差异过大，则判为异常。
- 优点: 简单且能捕捉局部趋势。
- 缺点: 对突变和毛刺反应滞后，窗口大小选择敏感。

2.3. 基于机器学习的方法 (Machine Learning Methods)

机器学习方法能够学习数据中更复杂的模式，对于统计方法难以处理的异常（如上下文异常和群体异常）效果更好。

孤立森林 (Isolation Forest):
- 原理: 这是一种高效的无监督算法，其核心思想是异常点“少而不同”，因此更容易被随机分割所孤立。它通过构建多棵随机树来“隔离”每个数据点，异常点的平均隔离路径长度会显著低于正常点。
- 优点: 计算效率高，内存占用低，擅长处理高维数据，且无需预先定义“正常”模式。
- 缺点: 对全局性的密度差异不敏感。
- 适用场景: 非常适合实时、大规模的异常检测，能有效识别“毛刺跳0”这类离群点。
基于聚类的方法:
- K-means聚类异常检测:
  - 原理: 通过K-means算法将历史正常数据聚类成K个簇，计算每个簇的中心点。对于新数据点，计算其到最近簇中心的距离，如果距离超过设定阈值，则判定为异常。特别适合检测"来回跳动"等序列异常——这类异常会表现为数据点在短时间内频繁偏离正常聚类中心。
  - 优点: 算法简单高效，能有效识别偏离正常模式的群体异常，对"来回跳动"敏感。
  - 缺点: 需要预设簇数K，对簇形状假设为球形，对离群点敏感。
  - 适用场景: 非常适合检测DEFI数据中的"来回跳动"异常模式。
- 其他聚类方法 (DBSCAN, LOF):
  - 原理: DBSCAN通过密度聚类识别异常点，LOF（局部异常因子）通过比较点与邻近点的密度来识别异常。
  - 优点: 能发现形状各异的异常簇，无需预设簇数。
  - 缺点: 计算复杂度较高，对参数敏感。
基于预测模型的方法 (Forecasting-based):
- 原理: 这类方法的核心是“用历史预测未来”。首先使用历史正常数据训练一个时序预测模型，然后用该模型预测新数据点的期望值和置信区间。如果新数据点的实际值落在了置信区间之外，则被标记为异常。
- 常见模型:
  - ARIMA: 经典统计预测模型，能捕捉线性关系和趋势。
  - Prophet: Facebook开源的库，专门为商业预测设计，能很好地处理节假日效应和多重季节性，并且可以输出预测的置信区间（yhat_lower, yhat_upper），非常适合异常检测。
  - LSTM/GRU Autoencoder (自编码器): 这是目前非常流行的深度学习方法。它使用LSTM（长短期记忆网络）先将时序数据编码成一个紧凑的向量，再解码重构出原始序列。模型在只学习“正常”数据模式后，当遇到异常数据时，其重构误差（输入与输出的差异）会显著增大，从而识别出异常。
- 优点: 能够理解数据的时间依赖性和上下文关系，对于识别“数据来回跳动”这种破坏了序列原有模式的群体异常非常有效。
- 缺点: 模型训练需要一定量的正常数据，且深度学习模型实现和调优复杂度更高。

3. 方案对比与选型建议

方法分类	代表算法	优点	缺点	适用场景
阈值规则方法	固定阈值, 动态阈值	实现极简，实时性最强，业务语义明确	无法适应自然波动，依赖人工经验	前置防线：业务硬约束检查，如价格不能为0或负数。
统计学方法	3-Sigma, 箱线图法 (IQR)	实现简单，计算快，可解释性强	依赖分布假设，对复杂模式不敏感	基础告警层：快速捕捉"毛刺跳0"等极端单点异常。
传统机器学习	孤立森林, K-means聚类	速度快，无需标签，可处理离群点和序列异常	对长期依赖和高维关联不敏感	通用检测层：高效识别离群点和"来回跳动"等序列模式异常。
深度学习	Prophet, LSTM Autoencoder	学习复杂时序依赖，处理高维关联异常	需大量训练数据，计算成本高，调优复杂	高级建模层：处理长期依赖、多变量关联等传统方法无法解决的复杂异常。

Roadmap：

4. 分层递进策略与实施路线图

第一层：业务硬规则检查 | 阶段一：业务规则前置防护
- 技术方案: 固定阈值法配合动态阈值法
- 目标: 建立最基础的数据质量防线，立即阻断极端错误数据
- 选型理由: 作为最前置的防线，基于业务逻辑设定硬性约束（如指标跳0等）。这一层延迟最低、资源消耗最小，能够立即捕获最明显的数据错误。
- 实施任务:
  - 梳理核心业务指标的合理取值范围
  - 实现固定阈值检测逻辑，设置硬性业务约束
  - 配置基础告警机制（邮件/Slack）
第二层：统计学快速告警 | 阶段二：统计学检测增强
- 技术方案: 箱线图法 (IQR) 或改进的Z-Score
- 目标: 快速解决最痛的"毛刺跳0"问题
- 选型理由: 计算成本极低，鲁棒性好，能快速识别出绝大多数极端、明显的"毛刺"问题。实现简单，可迅速上线产生价值。
- 实施任务:
  - 对核心监控指标实现基于箱线图法的异常检测逻辑
  - 收集并标注部分历史异常数据，为后续模型迭代做准备
第三层：传统机器学习 | 阶段三：机器学习模型
- 技术方案: 孤立森林 (Isolation Forest) + K-means聚类
- 目标: 解决复杂离群点和"来回跳动"等模式异常问题
- 选型理由:
  - 孤立森林: 高效识别各种离群点，可无监督运行，处理速度快
  - K-means聚类: 通过数据聚类识别偏离正常模式的异常序列，能有效检测"来回跳动"等破坏数据连续性的群体异常
  - 两种算法组合可覆盖单点异常和序列异常，且计算效率高，适合实时检测
- 实施任务:
  - 并行部署孤立森林检测模型处理离群点
  - 实现K-means聚类算法检测序列模式异常
  - 对比前两个阶段的检测结果，优化阈值和参数
  - 将多种方法结合，形成更鲁棒的检测体系
第四层：深度学习 | 阶段四：高维时序建模
- 技术方案: LSTM Autoencoder (首选), Prophet (备选)
- 目标: 解决传统机器学习无法处理的复杂时序依赖和高维关联异常
- 选型理由: 专门处理传统算法能力边界之外的场景：
  - 长期时序依赖: 学习跨越数小时/数天的复杂时序模式，检测破坏长期趋势的异常
  - 多变量高维关联: 同时建模价格、TVL、交易量等多个指标间的复杂非线性关系异常
  - 自适应模式学习: 随市场环境变化自动调整异常检测标准，处理概念漂移问题
  - 深层次模式捕获: 识别传统聚类和孤立检测无法发现的隐含异常模式
- 实施任务:
  - 构建多变量时序数据集，训练LSTM Autoencoder模型
  - 重点验证对长期依赖异常和高维关联异常的检测能力
  - 建立模型持续训练和自动迭代机制，应对市场模式变化

5. 业界落地情况

乐信黎曼异动归因系统的演进之路
微众银行智能运维系列（三）| 浅析智能异常检测——“慧识图”核心算法

6. 总结

针对DEFI数据监控的特定问题，我们建议采用一个分层、递进的混合策略。重点关注前三层的实施，它们相对容易实现且能解决绝大多数实际问题：

核心实施方案（推荐优先部署）：

第一层：阈值规则 - 基于业务逻辑进行硬性约束检查，实现最低延迟的极端异常拦截。实施简单，立即见效。
第二层：统计方法 - 实现低成本、高效率的毛刺异常捕获。算法成熟，开发成本低。
第三层：传统机器学习组合（孤立森林+K-means聚类）- 作为通用检测引擎，孤立森林负责离群点检测，K-means负责"来回跳动"等序列模式异常检测。这三层组合已经可以覆盖绝大多数异常场景，且实现复杂度适中。

可选扩展方案（未来考虑）：