ICLR 2025 | ROSE:一种基于频率分解与时间序列寄存器的通用时序预测模型
近年来,随着物联网、智能交通、金融市场等领域海量时序数据的涌现,设计一款能够在不同场景下通用、轻量且高效的时序预测模型成为研究热点。传统方法多依赖于对单一数据集的针对性调参,且难以应对跨域任务中的频率多样性与领域特定信息缺失。为此,ROSE(Register‑assisted generAl time SEries forecasting with decomposed frequency learning)提出了“频率分解 + 时间序列寄存器(TS‑Register)”的联合预训练框架,通过多频率掩码学习通用特征,并利用寄存器模块捕获领域特定信息,从而在有限下游样本或零样本场景下依然取得优越的效果。实验证明,ROSE 在七个公开基准上不仅实现了平均 15% 的全量数据预测误差降低,还在 10% 少样本和零样本设置中超越多种最先进模型,且参数量仅为 7.4M,推理效率显著领先同类方法。
另外,我整理了ICLR 2025时间序列相关论文合集,感兴趣的dd我~
论文这里
论文基本信息
- 原文标题:ROSE: REGISTER‑ASSISTED GENERAL TIME SERIES FORECASTING WITH DECOMPOSED FREQUENCY LEARNING
- 作者:Yihang Wang, Yuying Qiu, Peng Chen, Kai Zhao
~Kai_Zhao17, Yang Shu, Zhongwen Rao, Lujia Pan, Bin Yang, Chenjuan Guo - 论文地址:https://openreview.net/forum?id=tdttNKCtyB
摘要
针对跨域时序预测模型在多源数据中难以兼顾通用性与领域特定性的问题,本文提出了一种轻量级的预训练框架 ROSE。其核心在于:
- 分解频率学习:利用多阈值频率掩码分离高、低频信号,通过多次掩蔽与重构使模型提取跨域通用特征;
- 时间序列寄存器:预训练阶段构建寄存器簇(Register),自动聚类并存储不同域的信息,微调阶段通过 Top‑K 选择与可训练低秩矩阵补充实现自适应迁移。
在七个真实世界基准(包括 Weather、Traffic、Electricity、ETT 等)上,ROSE 在全量数据下平均将 MSE 降低 15%,在 10% 少样本场景下平均降幅超过 12%,并在零样本设置中显著超越多种基础模型。此外,ROSE 参数量仅 7.4M,推理速度优于同类型大规模基石模型。
研究背景及相关工作
为了便于理解,本文将相关内容拆分为“研究背景”与“相关工作”两部分展开。
研究背景
时序预测在能源调度、交通流量、气象预报、金融市场等领域扮演关键角色。然而,传统统计模型(如 ARIMA)与基于 RNN、CNN 的深度学习方法往往依赖手工特征或特定架构,对长短期依赖的捕捉能力和跨域泛化能力有限。变压器(Transformer)凭借自注意力机制在长序列建模中取得突破,但仍需针对不同数据集设计超参,并且在数据匮乏情况下表现不足。此外,单一数据集预训练无法充分利用多源时序之间的共性与差异,模型难以在新领域直接迁移。由此,如何构建一个预训练的“基石模型”(Foundation Model),既能提取跨域通用表示,又能保留领域特定信息,实现高效少样本或零样本预测,成为亟待解决的挑战。
相关工作
传统时序预测方法
- 统计模型:ARIMA 等经典方法具有良好的理论基础,但对非线性和多变量扩展能力有限。
- 深度学习模型:RNN/LSTM 可捕获时序依赖,但难以并行训练;TCN 与 CNN 模型擅长局部特征提取;变压器引入自注意力后可高效捕获长依赖,但对序列长度敏感且计算成本高。
基于预训练的时序基础模型
- Masked Modeling 与对比学习:SimMTM、TS2Vec 等方法通过掩码重构或对比学习获取通用表征,但忽视了跨域数据的频率复合特性。
- 大规模 Foundation Model:MOMENT、MOIRAI、Timer、Chronos 等尝试在海量时序上预训练,取得一定泛化效果,但缺乏对领域特定信息的提取机制,往往采用“直接迁移”策略,难以针对下游任务进行自适应调优。
主要贡献
本文工作可归纳为三点核心创新:
- 分解频率学习(Decomposed Frequency Learning)
提出多阈值频率掩码机制,对时序信号进行多次高/低频分解掩蔽与重构,使模型在预训练阶段学习到多频率视角下的通用时序特征。 - 时间序列寄存器(TS‑Register)
构建可学习寄存器,将多域数据的领域特定嵌入聚类存储;在微调阶段通过 Top‑K 选择与低秩补充,实现下游任务的自适应迁移。 - 轻量高效的通用时序基础模型
ROSE 参数量仅 7.4M,却在全量训练、10% 少样本及零样本场景下均超越多种大型基石模型,且推理速度远优于竞品,满足资源受限场景需求。
研究方法与基本原理
本文方法可分为四个模块:输入表示、分解频率学习、TS‑Register 设计与预训练/微调策略。
问题定义与整体架构
给定多源预训练数据集 Dpre={(Xtj,Ytj)}j=1ND_{pre}=\{(X_t^j,Y_t^j)\}_{j=1}^NDpre={(Xtj,Ytj)}j=1N,每个时序样本 Xt∈RLX_t∈ℝ^LXt∈RL,目标预测未来 Yt∈RFY_t∈ℝ^FYt∈RF。ROSE 采用 Encoder–Decoder 架构,Patchify 输入后生成补丁 token,与寄存器 token 级联作为 Transformer 编码器输入;分别以重构头和预测头进行自监督重构与有监督预测,共同优化。
分解频率学习
- 多频率掩码生成:对时间序列 x∈RLx∈ℝ^Lx∈RL 进行 rFFT,得到频域表示 xfreq∈CL/2+1x_{freq}∈ℂ^{L/2+1}xfreq∈CL/2+1。采样 KfK_fKf 个阈值 {τi}\{\tau_i\}{τi} 与二值指示 {μi}\{\mu_i\}{μi},构建掩码矩阵 M∈{0,1}Kf×(L/2+1)M∈\{0,1\}^{K_f×(L/2+1)}M∈{0,1}Kf×(L/2+1),对高频(μi=1\mu_i=1μi=1)或低频(μi=0\mu_i=0μi=0)部分分别掩蔽。
- 时域重构:对每个掩码后频域信号应用 irFFT,生成 KfK_fKf 条掩蔽时序序列 {xmaski}\{x_{mask}^i\}{xmaski},再分 Patch、映射为 PPP 个补丁 token,输入编码器进行重构与预测。
- 损失函数:重构损失 Lrec=∥x−x^∥22\mathcal{L}_{rec}=\|x-\hat x\|_2^2Lrec=∥x−x^∥22,预测损失 Lpred=∑F∈{96,192,336,720}∥YF−Y^F∥22\mathcal{L}_{pred}=\sum_{F∈\{96,192,336,720\}}\|Y_F-\hat Y_F\|_2^2Lpred=∑F∈{96,192,336,720}∥YF−Y^F∥22,整体预训练损失 Lpre=Lrec+Lpred+Lreg\mathcal{L}_{pre}=\mathcal{L}_{rec}+\mathcal{L}_{pred}+\mathcal{L}_{reg}Lpre=Lrec+Lpred+Lreg,其中 Lreg\mathcal{L}_{reg}Lreg 为寄存器聚类损失。
时间序列寄存器(TS‑Register)
- 预训练阶段:初始化寄存器簇 E∈RH×DrE∈ℝ^{H×D_r}E∈RH×Dr,对每个样本嵌入 xex_exe,通过最小化 ∥xe−eδ∥2\|x_e-e_δ\|^2∥xe−eδ∥2 聚类更新簇心 eδe_δeδ,将其转化为 NrN_rNr 个 register token。
- 微调阶段:冻结寄存器,仅通过 Top‑K 最近邻选择 kkk 个向量并取平均 eˉk\bar e_keˉk,再与可训练低秩矩阵 A=uvTA=u v^TA=uvT 逐元素相乘生成微调寄存器 token,使模型捕获下游数据特有信息。
预训练与微调策略
- 共训练重构与预测:预训练时将重构 decoder 参数复制至预测 decoder,前向共享,反向仅重构梯度;微调时仅优化预测头与低秩矩阵。
- 归一化:采用 REVIN 先归一化每个样本,再逆归一化恢复预测值。
实验与结果分析
为了验证 ROSE 在不同场景下的泛化与效率,设计了以下实验设置。
全量数据(Full‑shot)与少样本(Few‑shot)预测
- 设置:全量微调与仅 10% 数据微调,均使用 L=512 、F∈{96,192,336,720}。
- 全量结果:ROSE 在七个基准上的平均 MSE 较最优基线降低 15%。
- 少样本结果:在 10% 少样本设置下,ROSE 平均再降 12%,显著验证了预训练迁移能力。
数据集 | ROSE (全量) MSE | 最佳基线 MSE | 降低比例 |
---|---|---|---|
ETTh1 | 0.391 | 0.459 | 14.8% |
ETTm2 | 0.246 | 0.287 | 14.3% |
Traffic | 0.390 | 0.433 | 9.9% |
… | … | … | … |
零样本(Zero‑shot)预测
在未见下游数据的前提下直接预测,ROSE 平均在各数据集 MSE 上较 Timer、Moirai 分别降低 9% 和 6%,并相比 Moment 实现 43% 的显著提升,证明了模型轻量高效的泛化能力。
模型效率与消融分析
- 模型规模与推理速度:ROSE 参数量仅 7.4M,推理耗时约 0.65s,远低于 Timer(67.4M, 5.99s)和 MOIRAI(311M, 7.9s),满足资源受限场景需求。
- 消融实验:去除 TS‑Register、预测任务或重构任务,均导致 MSE 提升;多频率掩码相较于随机频率和 Patch 掩蔽均带来 3%~5% 的性能增益。
总结与展望
总结
本文提出 ROSE,通过多频率掩码分解学习通用表征,并结合 TS‑Register 捕获领域特定信息,实现了在全量、少样本及零样本场景下的高精度时序预测。实验证明,ROSE 不仅在预测性能上超过多种最先进模型,还在参数量与推理效率上具备显著优势,适用于资源受限与多域迁移场景。
展望
未来可进一步拓展预训练数据规模,引入更多模态(如文本、图像)协同训练,并探索 ROSE 在时序分类、异常检测等任务中的应用潜力。