当前位置：首页 > news >正文

NeurIPS2025 |MSFT：多尺度建模融入 TSFM 微调，制服时序模型微调的 “混杂因子”！

news 2025/10/14 12:50:47

本篇论文来自NeurIPS2025，最新前沿时序技术，文章提出了一个多尺度微调框架-MSFT，是首个将多尺度建模融入 TSFM 微调的框架，兼容不同编码器类 TSFM，且实现简单。

重新整理以及补充了2025顶会时序合集，整合了更完整的“2025顶会时序合集”，包含论文及代码，无偿分享给大家~需要的可以在宫🀄蚝“时序大模型”回复“资料”自取~

论文名称：Multi-Scale Finetuning for Encoder-based Time Series Foundation Models

论文作者：Zhongzheng Qiao,Chenghao Liu,Yiming Zhang,Ming Jin,Quang Pham,Qingsong Wen,P. N. Suganthan,Xudong Jiang,Savitha Ramasamy

时间序列基础模型（TSFMs）通过大规模预训练获得了出色的零样本时间序列预测性能，但当前研究多聚焦于预训练与零样本评估，对 “如何针对下游任务有效微调 TSFMs” 这一关键问题探索不足。

传统微调（如全参数微调、线性探测、LoRA 等）未考虑时间序列数据的多尺度特性（同一数据在不同采样尺度下呈现不同时序模式，如小时级能耗数据显微观使用模式，日级数据显宏观趋势）与 TSFMs 本身的多尺度预测能力，易导致过拟合、未充分利用预训练知识，最终性能欠佳。

在因果视角下的核心问题：尺度（S）是 “输入上下文（X）- 模型激活知识（M）- 预测结果（Y）” 关系中的混杂因子，会引发虚假关联（如 X 与 M 因 S 产生非因果相关性）。传统微调直接建模，无法排除s的干扰，导致模型依赖非因果关联进行预测。

因此提出了一个新的多尺度微调框架-MSFT，以解决上述问题。

MSFT 针对编码器类 TSFMs（如 MOIRAI、MOMENT、UNITS）设计，通过显式融入多尺度建模解决传统微调缺陷，核心分为三部分：

输入投影层：冻结预训练输入投影参数，为每个尺度添加独立线性适配器（Linear_i），计算该尺度输入嵌入，避免不同尺度间的表征干扰。

注意力层：冻结预训练注意力权重，为每个尺度引入独立 LoRA 模块，激活尺度专属知识，匹配因果公式中 “” 的尺度 - 知识映射关系。

解决 “多尺度 token 时间索引错位导致注意力偏误” 问题，分两步建模依赖：

尺度内注意力：通过掩码限制 token 仅关注同一尺度内的 token，确保捕获尺度内时序依赖。
跨尺度聚合器：设计 “粗到细（C2F）” 和 “细到粗（F2C）” 双分支，先通过线性映射将不同尺度 token 投影到统一空间，再通过重复/ 平均池化对齐时序分辨率，实现跨尺度信息融合。

训练阶段：每个尺度独立输出预测，总损失为各尺度损失的加权和（权重通过 Softmax 学习，对应因果公式中的），即。

推理阶段：将各尺度预测上采样至原始分辨率，通过学习到的加权求和得到最终预测，缓解单一尺度过拟合。

任务：长序列预测（LSF，预测长度 96/192/336/720）、概率预测（PF）。

数据集：LSF 使用 ETT（小时 / 15 分钟级温度）、电力、天气数据集；PF 使用电力、太阳能、交通等 5 个分布外数据集。

对比方法：

长序列预测（LSF）

MSFT 在所有 TSFM 骨干（MOIRAI Small/Base、MOMENT、UNITS）上均优于传统微调方法，且超越从零训练的 SOTA 模型。
例：MOIRAI Base+MSFT 在 ETTm1（15 分钟级温度）的 MSE 较全微调降低 6.8%，在 Weather 数据集 MSE 降低 6.7%；对多尺度模式更丰富的分钟级数据提升更显著。

概率预测（PF）

MSFT 显著降低 CRPS（连续排序概率得分）和 MSIS（平均缩放区间得分），MOIRAI Base+MSFT 在 Solar 数据集 CRPS 较全微调降低 24.4%，在 Istanbul Traffic 数据集降低 18.3%。

消融实验：尺度特异性模块、跨尺度聚合器、加权融合均为关键组件：移除任一组件会导致性能下降，如仅保留尺度内注意力（无跨尺度聚合）时，ETTm1 的 MSE 上升 10%。