当前位置：首页 > news >正文

ICLR 2025 | ROSE：一种基于频率分解与时间序列寄存器的通用时序预测模型

news 2025/8/3 21:18:13

近年来，随着物联网、智能交通、金融市场等领域海量时序数据的涌现，设计一款能够在不同场景下通用、轻量且高效的时序预测模型成为研究热点。传统方法多依赖于对单一数据集的针对性调参，且难以应对跨域任务中的频率多样性与领域特定信息缺失。为此，ROSE（Register‑assisted generAl time SEries forecasting with decomposed frequency learning）提出了“频率分解 + 时间序列寄存器（TS‑Register）”的联合预训练框架，通过多频率掩码学习通用特征，并利用寄存器模块捕获领域特定信息，从而在有限下游样本或零样本场景下依然取得优越的效果。实验证明，ROSE 在七个公开基准上不仅实现了平均 15% 的全量数据预测误差降低，还在 10% 少样本和零样本设置中超越多种最先进模型，且参数量仅为 7.4M，推理效率显著领先同类方法。
title
另外，我整理了ICLR 2025时间序列相关论文合集，感兴趣的dd我~
论文这里

论文基本信息

原文标题：ROSE: REGISTER‑ASSISTED GENERAL TIME SERIES FORECASTING WITH DECOMPOSED FREQUENCY LEARNING
作者：Yihang Wang, Yuying Qiu, Peng Chen, Kai Zhao
~Kai_Zhao17, Yang Shu, Zhongwen Rao, Lujia Pan, Bin Yang, Chenjuan Guo
论文地址：https://openreview.net/forum?id=tdttNKCtyB

摘要

针对跨域时序预测模型在多源数据中难以兼顾通用性与领域特定性的问题，本文提出了一种轻量级的预训练框架 ROSE。其核心在于：

分解频率学习：利用多阈值频率掩码分离高、低频信号，通过多次掩蔽与重构使模型提取跨域通用特征；
时间序列寄存器：预训练阶段构建寄存器簇（Register），自动聚类并存储不同域的信息，微调阶段通过 Top‑K 选择与可训练低秩矩阵补充实现自适应迁移。
在七个真实世界基准（包括 Weather、Traffic、Electricity、ETT 等）上，ROSE 在全量数据下平均将 MSE 降低 15%，在 10% 少样本场景下平均降幅超过 12%，并在零样本设置中显著超越多种基础模型。此外，ROSE 参数量仅 7.4M，推理速度优于同类型大规模基石模型。

研究背景及相关工作

为了便于理解，本文将相关内容拆分为“研究背景”与“相关工作”两部分展开。

研究背景

时序预测在能源调度、交通流量、气象预报、金融市场等领域扮演关键角色。然而，传统统计模型（如 ARIMA）与基于 RNN、CNN 的深度学习方法往往依赖手工特征或特定架构，对长短期依赖的捕捉能力和跨域泛化能力有限。变压器（Transformer）凭借自注意力机制在长序列建模中取得突破，但仍需针对不同数据集设计超参，并且在数据匮乏情况下表现不足。此外，单一数据集预训练无法充分利用多源时序之间的共性与差异，模型难以在新领域直接迁移。由此，如何构建一个预训练的“基石模型”（Foundation Model），既能提取跨域通用表示，又能保留领域特定信息，实现高效少样本或零样本预测，成为亟待解决的挑战。

主要贡献

本文工作可归纳为三点核心创新：

分解频率学习（Decomposed Frequency Learning）
提出多阈值频率掩码机制，对时序信号进行多次高／低频分解掩蔽与重构，使模型在预训练阶段学习到多频率视角下的通用时序特征。
时间序列寄存器（TS‑Register）
构建可学习寄存器，将多域数据的领域特定嵌入聚类存储；在微调阶段通过 Top‑K 选择与低秩补充，实现下游任务的自适应迁移。
轻量高效的通用时序基础模型
ROSE 参数量仅 7.4M，却在全量训练、10% 少样本及零样本场景下均超越多种大型基石模型，且推理速度远优于竞品，满足资源受限场景需求。

研究方法与基本原理

本文方法可分为四个模块：输入表示、分解频率学习、TS‑Register 设计与预训练／微调策略。

问题定义与整体架构

给定多源预训练数据集 $D_{pre}=\{(X_t^j,Y_t^j)\}_{j=1}^N$ ，每个时序样本 $Xt∈RLX_t∈ℝ^L$ ，目标预测未来 $Yt∈RFY_t∈ℝ^F$ 。ROSE 采用 Encoder–Decoder 架构，Patchify 输入后生成补丁 token，与寄存器 token 级联作为 Transformer 编码器输入；分别以重构头和预测头进行自监督重构与有监督预测，共同优化。

分解频率学习

多频率掩码生成：对时间序列 $x∈RLx∈ℝ^L$ 进行 rFFT，得到频域表示 $xfreq∈CL/2+1x_{freq}∈ℂ^{L/2+1}$ 。采样 $K_f$ 个阈值 ${τi}\{\tau_i\}$ 与二值指示 ${μi}\{\mu_i\}$ ，构建掩码矩阵 $M∈\{0,1\}^{K_f×(L/2+1)}$ ，对高频（ $μi=1\mu_i=1$ ）或低频（ $μi=0\mu_i=0$ ）部分分别掩蔽。
时域重构：对每个掩码后频域信号应用 irFFT，生成 $K_f$ 条掩蔽时序序列 ${x_{mask}^i\}$ ，再分 Patch、映射为 $P$ 个补丁 token，输入编码器进行重构与预测。
损失函数：重构损失 $Lrec=∥x−x^∥22\mathcal{L}_{rec}=\|x-\hat x\|_2^2$ ，预测损失 $Lpred=∑F∈{96,192,336,720}∥YF−Y^F∥22\mathcal{L}_{pred}=\sum_{F∈\{96,192,336,720\}}\|Y_F-\hat Y_F\|_2^2$ ，整体预训练损失 $Lpre=Lrec+Lpred+Lreg\mathcal{L}_{pre}=\mathcal{L}_{rec}+\mathcal{L}_{pred}+\mathcal{L}_{reg}$ ，其中 $Lreg\mathcal{L}_{reg}$ 为寄存器聚类损失。

时间序列寄存器（TS‑Register）

预训练阶段：初始化寄存器簇 $E∈RH×DrE∈ℝ^{H×D_r}$ ，对每个样本嵌入 $x_e$ ，通过最小化 $x_e-e_δ\|^2$ 聚类更新簇心 $e_δ$ ，将其转化为 $N_r$ 个 register token。
微调阶段：冻结寄存器，仅通过 Top‑K 最近邻选择 $k$ 个向量并取平均 $eˉk\bar e_k$ ，再与可训练低秩矩阵 $A=u v^T$ 逐元素相乘生成微调寄存器 token，使模型捕获下游数据特有信息。

预训练与微调策略

共训练重构与预测：预训练时将重构 decoder 参数复制至预测 decoder，前向共享，反向仅重构梯度；微调时仅优化预测头与低秩矩阵。
归一化：采用 REVIN 先归一化每个样本，再逆归一化恢复预测值。

实验与结果分析

为了验证 ROSE 在不同场景下的泛化与效率，设计了以下实验设置。

全量数据（Full‑shot）与少样本（Few‑shot）预测

设置：全量微调与仅 10% 数据微调，均使用 L=512 、F∈{96,192,336,720}。
全量结果：ROSE 在七个基准上的平均 MSE 较最优基线降低 15%。
少样本结果：在 10% 少样本设置下，ROSE 平均再降 12%，显著验证了预训练迁移能力。

数据集	ROSE (全量) MSE	最佳基线 MSE	降低比例
ETTh1	0.391	0.459	14.8%
ETTm2	0.246	0.287	14.3%
Traffic	0.390	0.433	9.9%
…	…	…	…

Visualization comparison of ROSE with cross-domain pre-training and other SOTA
baselines in the full-shot setting for rare and common patterns.

Visualization of input-512 and predict-336 forecasting results on the ETTh2 dataset in full-shot setting.

零样本（Zero‑shot）预测

在未见下游数据的前提下直接预测，ROSE 平均在各数据集 MSE 上较 Timer、Moirai 分别降低 9% 和 6%，并相比 Moment 实现 43% 的显著提升，证明了模型轻量高效的泛化能力。

模型效率与消融分析

模型规模与推理速度：ROSE 参数量仅 7.4M，推理耗时约 0.65s，远低于 Timer（67.4M, 5.99s）和 MOIRAI（311M, 7.9s），满足资源受限场景需求。
消融实验：去除 TS‑Register、预测任务或重构任务，均导致 MSE 提升；多频率掩码相较于随机频率和 Patch 掩蔽均带来 3%~5% 的性能增益。