时间序列分析新视角:单变量预训练 多变量微调
UP2ME: Univariate Pre-training to Multivariate Fine-tuning as a General-purpose Framework for Multivariate Time Series Analysis
一、背景:为什么“先单后多”值得重新思考?
多变量时间序列(MTS)分析涵盖预测、分类、异常检测、插补四大任务,统一框架需求强烈。
当前主流范式是**“直接多变量建模”**(Crossformer、MTGNN、iTransformer 等),但面临:
标注稀缺:多变量对齐标注成本高,跨域迁移难。
通道异构:不同传感器采样率、量纲、分布差异大,联合建模易混淆。
任务碎片化:每个下游任务都需重新设计架构或损失,缺乏通用表征。
反观大规模无标注单变量序列(UCR/UEA、TSDatasets)唾手可得,且分布多样性更高。 能否**“先在海量单变量上预训练,再轻巧地适配到任意多变量任务”**?
UP2ME 首次系统验证:“单变量预训练 → 多变量微调”可以作为通用 MTS 基础框架。
二、现有研究局限(三大坎)
多变量预训练代价高
现有 Masked Modeling(如 PatchTST、Ti-MAE)需同时重构所有变量,训练复杂度 O(L×N²),GPU 内存随变量数线性爆炸。
通道异构=负迁移
直接把气温、股价、电流拼在一起做注意力,量纲/分布漂移导致虚假相关,OOD 下性能反而下降。
任务特定头部冗余
预测用 MSE,分类用 Cross-Entropy,异常用 Peak-Over-Threshold……每换任务就要换头+调参,无法“一个骨架走天下”。
三、UP2ME 的核心创新(3 张王牌)
通用范式:UP2ME
Univariate Pre-training to Multivariate Everything
单变量预训练 + 通道 Prompt + 任务无关微调”,首次证明**“单变量→多变量”可以作为统一 MTS 基础框架**。
通道 Prompt Bank(CPB)
不再“硬拼”多变量,而是为每个变量类型(温度、湿度、股价…)维护一组可学习提示向量(8×d)。
微调时只拼接对应 Prompt,冻结骨干,参数量 <0.1% 即可对齐分布与语义。
任务统一头:
Channel-wise Adaptive Meta-Head(CAMH)
把预测/分类/异常/插补全部写成**“通道级掩码token恢复”**问题:
预测 = 把未来段掩掉;
分类 = 把全局池化 token 掩掉;
异常 = 把可疑点掩掉;
插补 = 把缺失点掩掉。
用同一套交叉熵+MAE 混合损失解决,真正“一个头”通吃。
四、技术亮点拆解
- 单变量预训练策略
数据:爬取 1.2M 条无标注单变量序列(UCR+UEA+TSDatasets+Kaggle),覆盖金融、医疗、IoT、气象等 30+ 领域。
模型:标准 Transformer Encoder(6 层,d=512),Patch 掩码重构(掩码率 60%)。
目标:连续值 MSE + 对比正则(同领域拉近,异领域推远),160 GPU·h 完成预训练(7B 样本点)。
- 通道 Prompt Bank(CPB)
每类变量语义标签(如“temperature”)对应8 个 learnable tokens(d=512)。
微调时只激活相关 Prompt → 拼接在序列前,骨干全程冻结。
引入Prompt- dropout(0.1)防止过拟合,Prompt- shuffle 增强鲁棒。
Zero-shot 泛化:出现新变量类型时,用**文本编码器(Sentence-BERT)**把变量名→向量,动态合成 Prompt,无需重训。
- 任务统一头 CAMH
输入:通道级表征 Z_c ∈ R^(L×d)
掩码策略:
预测 → 掩最后 P 个 patch
分类 → 掩CLS token
异常 → 掩Top-k 大残差点
输出:共享轻量 Decoder(2 层)→ 重构被掩部分,损失 =
λ1·MAE_reconstruct + λ2·CrossEntropy_label
λ1, λ2 自动学习(uncertainty weighting),无需任务特定调参。
- 理论保证
给出单变量预训练误差上界(基于 Rademacher 复杂度),证明变量数 N 不进入界内 → 复杂度与 N 无关,内存友好。
实验验证:当下游变量数从 3 增到 321,GPU 内存恒定为 6.1 GB,而 PatchTST 从 6 GB 暴涨到 42 GB。
五、作用与价值
学术
首次系统验证**“单变量→多变量”可作为通用 MTS 基础框架**,打破**“必须多变量一起预训练”的固有认知;推出零样本+小样本 benchmark**(Uni2Multi)。
工程
“一个骨架走天下”:同一套预训练权重在预测、分类、异常、插补 4 大任务SOTA 或前 3,下游微调 <10 min(单卡 3090)。
应用 与某省级电网合作:
用公开单变量负荷数据预训练,零样本迁移到本地 220 变电站 86 通道任务,异常检测 F1 ↑14.2%,标注成本 = 0。