当前位置: 首页 > news >正文

论文笔记:CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?

ICLR 2025 35666

1 INTRO

  • LLMs 在时间序列预测中的显著进展使其被应用于多个领域,但在时间序列分析中的有效性仍存在争议。
    • 虽然一些研究人员认为 LLMs 可以利用其预训练知识来理解时间序列模式,但其他研究人员认为简单的模型可以与 LLMs 相匹配甚至超越它们
    • 这种争议引发了以下根本性问题:LLMs 是否真正理解时间序列?
  • 要回答这个问题,必须超越模型的预测性能。
    • 预测通常依赖于MSE等指标,这些指标可能会掩盖模型对时间序列动态的深层理解
      • 一个仅输出相近常数的模型可能仍然能够获得可接受的 MSE,但这并不能揭示其对模式的解释能力。
    • 将重点转向异常检测会改变游戏规则:它迫使 LLMs 识别出不规律的行为,从而测试它们是否真正理解底层模式,而不仅仅是如何外推平均值。
  • ——>论文首次全面研究了 LLMs 在时间序列异常检测中的能力
    • 提出了7个假设,并一一验证之

2 时间序列异常检测

2.1 异常的定义

2.1.1 生成函数式定义法

假设时间序列是确定性的,数据点 xt 如果偏离由生成函数 G 预测的值超过阈值 δ,则被认为是异常:

2.1.2 条件概率定义法

假设时间序列是随机的,数据点 xt 如果其条件概率低于某个阈值 ϵ,则被认为是异常:

2.2 异常检测算法的输出:

  • 输出格式1:二进制标签 Y:={y1,y2,…,yT},其中 yt=1 表示异常,yt=0 表示正常
  • 输出格式2:异常分数 {s1,s2,…,sT},其中分数越高表示越可能是异常
    • 通过阈值 θ 可以将分数转换为二进制标签。

2.3 异常类型

3 7条假设

  • 假设1:链式思考推理
    • LLMs 不会从逐步推理中受益。
    • 即在分析时间序列数据时,明确的推理提示(如“让我们一步一步思考”)不会提升 LLMs 的性能,甚至可能导致性能下降。
  • 假设2:重复偏差
    • LLMs 的重复偏差与其识别周期性结构的能力相关。
    • 如果 LLMs 依赖于重复的模式来识别周期性异常,那么在引入微小噪声后,其性能应该会显著下降
  • 假设3:算术能力

    • LLMs 的算术能力(如加法和乘法)与其外推线性和指数趋势的能力相关。

    • 如果 LLMs 依赖算术能力来识别趋势异常,那么削弱其算术能力后,其性能应该会下降。

  • 假设4:视觉推理

    • 时间序列异常作为图像比作为文本更容易被 LLMs 检测。

    • 这可能是因为人类分析师通常通过视觉方式检测时间序列异常,而多模态 LLMs(M-LLMs)在视觉任务上表现出色。

  • 假设5:视觉感知偏差

    • LLMs 的异常检测能力受到人类感知偏差的限制。

    • 例如,人类在检测加速变化时比检测趋势反转更困难,如果 LLMs 表现出类似的感知偏差,那么它们在检测加速异常时的表现应该比检测趋势反转更差。

  • 假设6:长文本上下文偏差

    • LLMs 在处理较短时间序列时表现更好,即使这意味着信息丢失

    • 这可能是因为 LLMs 在处理长序列时存在困难,尤其是在需要处理大量时间步长时。

  • 假设7:模型家族一致性

    • LLMs 对时间序列的理解在不同模型家族之间是一致的。

    • 如果这一假设成立,那么在某些模型上观察到的现象应该在其他模型上也能复现。

4 实验

4.1  实验设置

4.1.1 模型

  • 选用四个最先进的多模态大语言模型(M-LLMs)进行实验
    • Qwen-VL-Chat
    • InternVL2-Llama3-76B
    • GPT-4o-mini
    • Gemini-1.5-Flash
  • 对于每个模型,报告得分最高的具体变体或前 3 个变体
    • 零样本和少样本学习:

      • 零样本学习:LLMs 在没有任何标注样本的情况下进行异常检测。

      • 少样本学习:LLMs 使用少量标注样本进行学习,以提高检测性能。

    • COT:链式思考

    • 输入表示

      • TEXT 文本

      • vision 图像:使用 Matplotlib 生成时间序列的可视化图像

    • PaP 代表 Prompt-as-Prefix,提供均值,中位数等

    • TpD 代表 Token-per-Digit,0.246 → 2 4 6

    • CSV 代表 Comma-Separated-Values(逗号分隔值)格式

    • DysCalc 表示“计算障碍”变体(Dyscalculia 的缩写)

      • 该变体通过 in-context learning 的方式降低模型执行简单算术操作的能力

    • Calc 是 DysCalc 变体的对照组。它使用相同的用户问题,但模型给出的步骤是经过修正的,例如:

    • S0.3 表示将时间序列中的数据点数量下采样为原始大小的 30%。

 4.1.2 输出

  • 为了确保结果的一致性与易于解释性,我们提示 LLM 以结构化的 JSON 列表形式输出异常区间
    • [{"start": 10, "end": 25}, {"start": 310, "end": 320}, ...]

4.2 结果

4.2.1 保留假设1:未发现任何证据表明使用思维链(CoT)提示能提升 LLM 在时间序列分析中的性能

  • 当我们显式使用 CoT 来模拟人类对时间序列的逐步推理时,所有模型在所有异常类型上的检测性能都有所下降
  • 这表明,LLM 可能并不依赖于 CoT 所期望的那种逐步逻辑推理过程来理解时间序列
  • 但这并不意味着它们完全没有推理能力,而是它们的理解方式可能不同于我们对“人类推理”的预期。

5.2.2 否定假设 ;结论:LLM 的重复偏置并不能解释其识别周期结构的能力。

  • 如果该假设成立,在注入噪声后,文本模态的性能应比视觉模态下降更多(因为 token 不再重复)。
  • 但图 4 显示两种模态下降幅度相近,且文本下降往往并不显著。这表明 LLM 识别文本中频率异常的能力并非源于 token 重复偏置。

5.2.3 否定假设 3;结论:LLM 对时间序列的理解与其算术能力无关

  • 设计了一个 in-context 学习场景,模型在五位数加法任务上的准确率下降到 12%,但其异常检测性能仍保持稳定
  • 这说明异常检测能力并不依赖于 LLM 的算术能力。

5.2.4 保留假设 4:多模态 LLM 在图像输入下比在文本输入下更擅长检测时间序列异常

如图 6 所示,在多种模型和异常类型中,M-LLM 在可视化时间序列上表现更好

唯一例外是私有模型在检测频率异常时

5.2.5 否定假设 5;结论LLM 对异常的理解与人类视觉感知不一致

  • 构建了一个“平坦趋势”数据集,其中异常趋势非常微弱,肉眼难以察觉,但通过计算梯度的移动平均可以识别
  • 无论使用文本还是图像模态,LLM 的性能与常规趋势数据集相似,说明它们不受人类视觉的限制。

5.2.6 保留假设 6:输入时间序列越长,LLM 的性能越差

当时间序列从 1000 步插值压缩到 300 步时,模型性能明显提升

这强调了 LLM 在处理长时间序列时的困难,特别是因为每个数字在 tokenizer 中被视为一个单独的 token。

5.2.7 否定假设 7;结论:架构偏置广泛存在

在时间序列分析中,不同模型之间的表现和行为差异显著。例如:

  • GPT-4o-mini 在是否使用 CoT 提示的情况下表现差异不大,甚至在处理频率异常时使用 CoT 表现稍好;

  • Qwen 在文本提示下表现较差,但在视觉提示下表现尚可,且对 CoT 提示最为敏感(负面影响大);

  • Gemini 与 GPT-4o-mini 类似,在视觉频率异常上表现不佳;

  • InternVL2 在图像和文本模态之间的性能差距较小,表现较为均衡。

这些结果说明:LLMs 在时间序列分析中的能力高度依赖于模型架构和训练方式,而非所有模型具有一致表现。

5.2.8 额外观察:在所有文本表示方法中,没有一种方法在所有任务上始终表现最佳。

  • 此前的 LLM 时间序列分析研究通常只使用一个“最佳”提示。然而在异常检测任务中,我们发现不存在一个统一表现最优的文本表示方法。
  • 我们原本预期 PAP(Prompt-as-Prefix)在 range 数据集上效果更好,因为如果模型知道时间序列的均值,那么超出范围的异常应更易识别。但实际上,大多数 LLM 并未有效利用这些额外信息,且 PAP 通常不是最优策略。

相关文章:

  • Kafka Connect实战:从环境搭建到全流程操作
  • solana 编写智能合约 然后调用它
  • C#/.NET/.NET Core技术前沿周刊 | 第 42 期(2025年6.9-6.15)
  • Debian 编译安装 ruby3.2
  • webpack到vite的改造之路
  • SOME/IP学习随笔
  • Trae - 非科班在建模比赛中的 AI 编程手|AI编程社知识库精选
  • vscode snippet 工程模板文件分享
  • 【SSH】在VScode中配置SSH
  • 一次硬件恢复之后数据文件0kb的故障恢复---惜分飞
  • 本地生活是如何进行抽佣的
  • 19|Whisper+ChatGPT:请AI代你听播客
  • Flask 快速精通:从入门到实战的轻量级 Web 框架指南
  • git submodule 和git repo介绍
  • 告别微服务,迎接SCS(Self-Contained Systems)?新概念还是炒冷饭?
  • 算法 学习 排序 2025年6月16日10:25:37
  • MySQL 命令行的核心操作命令详解
  • 始理解NLP:我的第一章学习心得
  • SQL注入漏洞-下篇
  • Hive 3.x集成Apache Ranger:打造精细化数据权限管理体系
  • wordpress建站很麻烦/企业网站关键词优化
  • 佛山网站制作网站/北京竞价托管代运营
  • 钓鱼网站到底怎么做/查找关键词的工具叫什么
  • 水头网站建设/廊坊seo关键词排名
  • 建筑网建筑规范大全/软件排名优化
  • WordPress设置两个域名/北京网站建设东轩seo