当前位置：首页 > news >正文

论文笔记：CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?

news 2025/8/13 11:31:42

ICLR 2025 35666

1 INTRO

LLMs 在时间序列预测中的显著进展使其被应用于多个领域，但在时间序列分析中的有效性仍存在争议。
- 虽然一些研究人员认为 LLMs 可以利用其预训练知识来理解时间序列模式，但其他研究人员认为简单的模型可以与 LLMs 相匹配甚至超越它们
- 这种争议引发了以下根本性问题：LLMs 是否真正理解时间序列？
要回答这个问题，必须超越模型的预测性能。
- 预测通常依赖于MSE等指标，这些指标可能会掩盖模型对时间序列动态的深层理解
  - 一个仅输出相近常数的模型可能仍然能够获得可接受的 MSE，但这并不能揭示其对模式的解释能力。
- 将重点转向异常检测会改变游戏规则：它迫使 LLMs 识别出不规律的行为，从而测试它们是否真正理解底层模式，而不仅仅是如何外推平均值。
——>论文首次全面研究了 LLMs 在时间序列异常检测中的能力
- 提出了7个假设，并一一验证之

2 时间序列异常检测

2.1 异常的定义

2.1.1 生成函数式定义法

假设时间序列是确定性的，数据点 xt 如果偏离由生成函数 G 预测的值超过阈值 δ，则被认为是异常：

2.1.2 条件概率定义法

假设时间序列是随机的，数据点 xt 如果其条件概率低于某个阈值 ϵ，则被认为是异常：

2.2 异常检测算法的输出：

输出格式1：二进制标签 Y:={y1,y2,…,yT}，其中 yt=1 表示异常，yt=0 表示正常
输出格式2：异常分数 {s1,s2,…,sT}，其中分数越高表示越可能是异常
- 通过阈值 θ 可以将分数转换为二进制标签。

2.3 异常类型

3 7条假设

假设1：链式思考推理
- LLMs 不会从逐步推理中受益。
- 即在分析时间序列数据时，明确的推理提示（如“让我们一步一步思考”）不会提升 LLMs 的性能，甚至可能导致性能下降。
假设2：重复偏差
- LLMs 的重复偏差与其识别周期性结构的能力相关。
- 如果 LLMs 依赖于重复的模式来识别周期性异常，那么在引入微小噪声后，其性能应该会显著下降
假设3：算术能力
- LLMs 的算术能力（如加法和乘法）与其外推线性和指数趋势的能力相关。
- 如果 LLMs 依赖算术能力来识别趋势异常，那么削弱其算术能力后，其性能应该会下降。
假设4：视觉推理
- 时间序列异常作为图像比作为文本更容易被 LLMs 检测。
- 这可能是因为人类分析师通常通过视觉方式检测时间序列异常，而多模态 LLMs（M-LLMs）在视觉任务上表现出色。
假设5：视觉感知偏差
- LLMs 的异常检测能力受到人类感知偏差的限制。
- 例如，人类在检测加速变化时比检测趋势反转更困难，如果 LLMs 表现出类似的感知偏差，那么它们在检测加速异常时的表现应该比检测趋势反转更差。
假设6：长文本上下文偏差
- LLMs 在处理较短时间序列时表现更好，即使这意味着信息丢失
- 这可能是因为 LLMs 在处理长序列时存在困难，尤其是在需要处理大量时间步长时。
假设7：模型家族一致性
- LLMs 对时间序列的理解在不同模型家族之间是一致的。
- 如果这一假设成立，那么在某些模型上观察到的现象应该在其他模型上也能复现。

4 实验

4.1 实验设置

4.1.1 模型

选用四个最先进的多模态大语言模型（M-LLMs）进行实验
- Qwen-VL-Chat
- InternVL2-Llama3-76B
- GPT-4o-mini
- Gemini-1.5-Flash
对于每个模型，报告得分最高的具体变体或前 3 个变体
- 零样本和少样本学习：
  - 零样本学习：LLMs 在没有任何标注样本的情况下进行异常检测。
  - 少样本学习：LLMs 使用少量标注样本进行学习，以提高检测性能。
- COT:链式思考
- 输入表示
  - TEXT 文本
  - vision 图像：使用 Matplotlib 生成时间序列的可视化图像
- PaP 代表 Prompt-as-Prefix，提供均值，中位数等
- TpD 代表 Token-per-Digit，0.246 → 2 4 6
- CSV 代表 Comma-Separated-Values（逗号分隔值）格式
- DysCalc 表示“计算障碍”变体（Dyscalculia 的缩写）
  - 该变体通过 in-context learning 的方式降低模型执行简单算术操作的能力
- Calc 是 DysCalc 变体的对照组。它使用相同的用户问题，但模型给出的步骤是经过修正的，例如：
- S0.3 表示将时间序列中的数据点数量下采样为原始大小的 30%。

4.1.2 输出

为了确保结果的一致性与易于解释性，我们提示 LLM 以结构化的 JSON 列表形式输出异常区间
- [{"start": 10, "end": 25}, {"start": 310, "end": 320}, ...]

4.2 结果

4.2.1 保留假设1：未发现任何证据表明使用思维链（CoT）提示能提升 LLM 在时间序列分析中的性能

当我们显式使用 CoT 来模拟人类对时间序列的逐步推理时，所有模型在所有异常类型上的检测性能都有所下降
这表明，LLM 可能并不依赖于 CoT 所期望的那种逐步逻辑推理过程来理解时间序列
但这并不意味着它们完全没有推理能力，而是它们的理解方式可能不同于我们对“人类推理”的预期。

5.2.2 否定假设；结论：LLM 的重复偏置并不能解释其识别周期结构的能力。

如果该假设成立，在注入噪声后，文本模态的性能应比视觉模态下降更多（因为 token 不再重复）。
但图 4 显示两种模态下降幅度相近，且文本下降往往并不显著。这表明 LLM 识别文本中频率异常的能力并非源于 token 重复偏置。

5.2.3 否定假设 3；结论：LLM 对时间序列的理解与其算术能力无关

设计了一个 in-context 学习场景，模型在五位数加法任务上的准确率下降到 12%，但其异常检测性能仍保持稳定
这说明异常检测能力并不依赖于 LLM 的算术能力。

5.2.4 保留假设 4：多模态 LLM 在图像输入下比在文本输入下更擅长检测时间序列异常

如图 6 所示，在多种模型和异常类型中，M-LLM 在可视化时间序列上表现更好

唯一例外是私有模型在检测频率异常时

5.2.5 否定假设 5；结论LLM 对异常的理解与人类视觉感知不一致

构建了一个“平坦趋势”数据集，其中异常趋势非常微弱，肉眼难以察觉，但通过计算梯度的移动平均可以识别
无论使用文本还是图像模态，LLM 的性能与常规趋势数据集相似，说明它们不受人类视觉的限制。

5.2.6 保留假设 6：输入时间序列越长，LLM 的性能越差

当时间序列从 1000 步插值压缩到 300 步时，模型性能明显提升

这强调了 LLM 在处理长时间序列时的困难，特别是因为每个数字在 tokenizer 中被视为一个单独的 token。

5.2.7 否定假设 7；结论：架构偏置广泛存在

在时间序列分析中，不同模型之间的表现和行为差异显著。例如：

GPT-4o-mini 在是否使用 CoT 提示的情况下表现差异不大，甚至在处理频率异常时使用 CoT 表现稍好；
Qwen 在文本提示下表现较差，但在视觉提示下表现尚可，且对 CoT 提示最为敏感（负面影响大）；
Gemini 与 GPT-4o-mini 类似，在视觉频率异常上表现不佳；
InternVL2 在图像和文本模态之间的性能差距较小，表现较为均衡。

这些结果说明：LLMs 在时间序列分析中的能力高度依赖于模型架构和训练方式，而非所有模型具有一致表现。

5.2.8 额外观察：在所有文本表示方法中，没有一种方法在所有任务上始终表现最佳。

此前的 LLM 时间序列分析研究通常只使用一个“最佳”提示。然而在异常检测任务中，我们发现不存在一个统一表现最优的文本表示方法。
我们原本预期 PAP（Prompt-as-Prefix）在 range 数据集上效果更好，因为如果模型知道时间序列的均值，那么超出范围的异常应更易识别。但实际上，大多数 LLM 并未有效利用这些额外信息，且 PAP 通常不是最优策略。