当前位置：首页 > news >正文

Triformer：长序列多变量时间序列预测

news 2025/10/14 3:54:10

摘要：本文介绍了Triformer，一种用于长序列多变量时间序列预测的模型。它解决了传统注意力模型复杂度高和无法捕捉变量独特时间模式的问题，通过线性补丁注意力、三角堆叠和变量特定建模提高效率和准确性。在多个数据集上的实验表明，Triformer性能优于现有方法。同时探讨了其局限性和改进方向。
关键词：多变量时间序列预测；注意力机制；线性复杂度；变量特定建模

一、引言

在众多实际应用场景中，如电网电力消耗管理、气候预测等，长序列多变量时间序列预测发挥着至关重要的作用。它能够帮助决策者提前规划，优化资源配置，提升系统运行效率。然而，传统的预测方法在面对这类复杂的时间序列数据时，往往存在诸多挑战。
在这里插入图片描述
一方面，随着时间序列长度的增加，传统方法的计算复杂度急剧上升，导致效率低下。另一方面，不同变量的时间序列具有独特的动态特征，但现有模型通常使用相同的参数空间处理所有变量，无法准确捕捉这些差异，进而影响预测的准确性。因此，开发高效且准确的长序列多变量时间序列预测方法迫在眉睫。

二、相关工作

2.1 短期与长期预测

时间序列预测方法可分为短期和长期预测。短期预测通常关注未来几十步的情况，多依赖递归神经网络（RNNs），如LSTM、GRU，或时间卷积网络（TCNs），像1D卷积、WaveNet等。不过，这些模型在处理长距离依赖关系时存在局限，因为它们依靠中间表示来间接访问输入序列，难以捕捉长期依赖，在长期预测任务中表现欠佳。

相比之下，基于自注意力机制的模型在长期预测中展现出优势，能更好地捕捉长程依赖。但标准自注意力机制的时间和内存复杂度与输入序列长度呈二次方关系（ $O(H^{2})$ ），这在处理长序列时成为瓶颈。为降低复杂度，稀疏注意力机制被提出，如LogTrans（ $O(H(log H)^{2})$ ）和Informer（ $O (H l o g H)$ ），但仍未达到线性复杂度。

2.2 变量不可知与变量特定建模

多数现有研究采用变量不可知的建模方式，即不同变量的时间序列共享相同的模型参数，像RNNs中的权重矩阵、TCNs中的卷积核以及注意力机制中的投影矩阵等。然而，不同变量的时间序列可能具有截然不同的时间模式，这种“一刀切”的方式无法充分挖掘各变量的特征，导致预测准确性受限。

虽然有部分研究尝试变量特定建模，但存在各种问题。如Cirstea等人利用嵌入和超网络生成变量特定权重矩阵，内存消耗大，不适用于长序列预测；Pan等人借助额外元信息生成权重矩阵，但元信息并非总是可得；Bai等人以数据驱动方式学习权重矩阵，可作为对比方法进行实验评估。

2.3 与其他Transformer的区别

与基于池化的Transformer相比，Triformer的补丁注意力（PA）机制具有独特优势。基于池化的Transformer在计算注意力时，每个时间戳需关注所有其他时间戳，导致复杂度较高（ $O(S^{2})$ ），且常依赖池化层缩小输入尺寸。而PA机制中，每个时间戳仅关注伪时间戳，复杂度降为线性（ $O (S)$ ），且无需额外池化层，通过特定的层间传递方式缩小层大小。
在这里插入图片描述

与分层Transformer相比，Triformer专注于时间序列预测领域。分层Transformer主要用于自然语言处理和计算机视觉，在捕捉补丁间依赖关系时复杂度较高；Triformer为每个补丁引入可学习的伪时间戳，不仅降低了复杂度，还能更好地适应时间序列数据的特点。

三、预备知识

3.1 问题定义

多变量时间序列记录多个变量随时间的变化。假设观测值 $x_{t} \in \mathbb{R}^{N}$ 表示在时间戳 $t$ 时 $N$ 个变量的值， $x_{t}^{(i)} \in \mathbb{R}$ 是第 $i$ 个变量在 $t$ 时刻的取值。时间序列预测的目标是学习一个函数 $\mathcal{F}_{\phi}$ ，它以过去 $H$ 个时间戳的观测值为输入，预测未来 $F$ 个时间戳的值，数学表达式为：
$\mathcal{F}_{\phi}\left(x_{t - H + 1}, \ldots, x_{t - 1}, x_{t}\right)=\left(\hat{x}_{t + 1}, \hat{x}_{t + 2}, \ldots, \hat{x}_{t + F}\right)$
其中， $\phi$ 是预测模型的可学习参数， $\hat{x}_{j}$ 是时间戳 $j$ 的预测值。

3.2 自注意力机制

自注意力是基于注意力模型的核心操作。对于具有 $H$ 个时间戳的时间序列 $x^{(i)} \in \mathbb{R}^{H}$ （来自第 $i$ 个变量），标准自注意力机制首先将其转换为查询矩阵 $Q^{(i)} = x^{(i)}W_{Q} \in \mathbb{R}^{H × d}$ 、键矩阵 $K^{(i)} = x^{(i)}W_{K} \in \mathbb{R}^{H × d}$ 和值矩阵 $V^{(i)} = x^{(i)}W_{V} \in \mathbb{R}^{H × d}$ ，这里 $d$ 是隐藏表示维度， $W_{Q}$ 、 $W_{K}$ 、 $W_{V} \in \mathbb{R}^{d × d}$ 是可学习的投影矩阵。

随后，输出通过值矩阵 $V^{(i)}$ 中值的加权和得到，权重（即注意力分数）依据查询矩阵 $Q^{(i)}$ 和键矩阵 $K^{(i)}$ 计算，公式为：随后，输出通过值矩阵 $V^{(i)}$ 中值的加权和得到，权重（即注意力分数）依据查询矩阵 $Q^{(i)}$ 和键矩阵 $K^{(i)}$ 计算，公式为：
$\mathcal{A}\left(Q^{(i)}, K^{(i)}, V^{(i)}\right)=\varphi\left(\frac{Q^{(i)}K^{(i)T}}{\sqrt{d}}\right)V^{(i)}$
其中， $\varphi$ 表示softmax激活函数。但计算注意力分数的时间复杂度为 $O(H^{2})$ ，内存消耗大，这是其主要缺陷。同时，现有基于注意力的方法通常对所有变量使用相同的投影矩阵，难以体现变量的独特性。其中， $\varphi$ 表示softmax激活函数。但计算注意力分数的时间复杂度为 $O(H^{2})$ ，内存消耗大，这是其主要缺陷。同时，现有基于注意力的方法通常对所有变量使用相同的投影矩阵，难以体现变量的独特性。

四、Triformer模型详解

4.1 线性补丁注意力PA

为解决高复杂度问题，Triformer提出线性补丁注意力（PA）机制。它将长度为 $H$ 的输入时间序列按时间维度划分为 $P = H / S$ 个补丁（ $S$ 为补丁大小）。例如，当 $H = 12$ ， $S = 3$ 时，可划分为 $P = 4$ 个补丁。用 $x_{p}=<x_{(p - 1)S + 1}, \ldots, x_{pS}>$ 表示第 $p$ 个补丁。

传统自注意力机制在补丁内计算会带来二次方复杂度，PA机制引入可学习的伪时间戳 $T_{p} \in \mathbb{R}^{N × d}$ 。伪时间戳作为数据容器，补丁内的真实时间戳向其写入信息。在计算注意力时，伪时间戳充当查询，与补丁内所有真实时间戳计算注意力分数，每个真实时间戳仅计算一个分数，从而使复杂度降为线性（ $O (S)$ ）。
在这里插入图片描述

PA的计算过程如公式所示：
$T_{p}=\mathcal{P} \mathcal{A}\left(T_{p}, x_{p}\right)=\left\{\varphi\left(\frac{T_{p}^{(i)}\left(x_{p}^{(i)} W_{K}\right)^{T}}{\sqrt{d}}\right)\left(x_{p}^{(i)} W_{V}\right)\right\}_{i = 1}^{N}$
其中， $T_{p} = {T_{p}^{(i)}}_{i = 1}^{N}$ ，每个变量都有特定的伪时间戳 $T_{p}^{(i)}$ ，体现了变量特异性。

PA在降低复杂度的同时，也缩小了时间感受野，从标准注意力的 $H$ 缩小到补丁大小 $S$ ，这可能影响对不同补丁间关系和长期依赖的捕捉。为解决此问题，Triformer引入递归连接，通过门控规则（公式如下）连接相邻补丁的伪时间戳，维持时间信息流：
$T_{p + 1}=g\left(\Theta_{1}T_{p} + b_{1}\right) \odot \sigma\left(\Theta_{2}T_{p} + b_{2}\right)+T_{p + 1}$
其中， $\Theta_{1}$ 、 $\Theta_{2}$ 、 $b_{1}$ 、 $b_{2}$ 是递归门的学习参数， $\odot$ 表示元素级乘积， $g(\cdot)$ 是tanh激活函数， $\sigma(\cdot)$ 是sigmoid函数，用于控制传递到下一个伪时间戳的信息比例。

4.2 三角堆叠

堆叠多层注意力通常可提升模型性能。在传统注意力模型中，各层输入大小相同，基于池化的方法会使用1D卷积缩小输入尺寸。而Triformer的PA机制在层间传递时，仅将补丁的伪时间戳输入到下一层，使得层大小呈指数级缩小。具体而言，第 $(l + 1)$ 层的大小是第 $l$ 层大小的 $\frac{1}{S_{l}}$ （ $S_{l}$ 是第 $l$ 层的补丁大小）。

由此可得引理：若补丁大小 $S_{l} \geq 2$ （ $\leq l \leq L$ ）， $L$ 层Triformer的时间复杂度为线性 $O (H)$ 。证明过程如下：第 $l$ 层的输入大小最多为 $\frac{H}{\hat{S}^{l - 1}}$ （ $\hat{S}=min _{1 \leq i \leq L} S_{i}$ 是所有层的最小补丁大小），那么 $L$ 层的输入大小总和为：
$\sum_{i = 1}^{L} \frac{H}{\hat{S}^{i - 1}}=H \cdot \sum_{i = 1}^{L}\left(\frac{1}{\hat{S}}\right)^{i - 1}<\frac{\hat{S}}{\hat{S}-1} \cdot H<2 \cdot H$
由于PA的复杂度与输入大小呈线性关系，所以多层PA的复杂度仍为 $O (H)$ 。

在多层Triformer中，各层的补丁数量和伪时间戳数量不同。模型将每层的所有伪时间戳聚合为一个输出 $O^{l}$ ：
$O^{l}=\theta^{l}\left(T_{1}^{l}, \ldots, T_{k}^{l}, \ldots, T_{P}^{l}\right)$
其中， $\theta^{l}$ 是神经网络， $T_{p}^{l}$ 是第 $l$ 层补丁 $p$ 的伪时间戳。所有层的聚合输出连接到预测器，这样做既能利用不同时间尺度的特征，又能提供多个梯度反馈短路径，有助于模型学习。预测器采用全连接神经网络，因其在长期预测中效率较高。

4.3 变量特定建模

简单地为每个变量设置不同的投影矩阵会导致参数空间过大，易出现过拟合、高内存消耗和扩展性差等问题。为解决这些问题，Triformer提出一种轻量级的变量特定建模方法。
在这里插入图片描述

该方法为每个变量 $i$ 引入 $m$ 维记忆向量 $M^{(i)} \in \mathbb{R}^{m}$ ，向量随机初始化且可学习，完全依赖数据驱动，能学习变量的显著特征。对于投影矩阵（以键矩阵 $W_{K}^{(i)} \in \mathbb{R}^{d × d}$ 为例），将其分解为左变量无关矩阵 $L_{K} \in \mathbb{R}^{d × a}$ 、中间变量特定矩阵 $B^{(i)} \in \mathbb{R}^{a × a}$ 和右变量无关矩阵 $R_{K} \in \mathbb{R}^{a × d}$ ，并使中间矩阵紧凑（ $\ll d$ ），以减少参数数量。

不同变量的中间矩阵 $B^{(i)}$ 由其记忆向量 $M^{(i)}$ 通过生成器 $G(\cdot)$ （如1层神经网络）生成。这种分解方式不仅减少了参数数量（直接学习完整矩阵需 $\cdot a^{2}$ 个参数，使用生成器只需 $\cdot m + m \cdot a^{2}$ 个参数），还能通过共享变量无关矩阵起到隐式正则化作用，促进变量间的知识共享，提高预测准确性。

变量特定的键矩阵和值矩阵 $W_{K}^{(i)}$ 、 $W_{V}^{(i)}$ 的生成公式为：
$\left[\begin{array}{l} W_{K}^{(i)} \\ W_{V}^{(i)}\end{array}\right]=\left[\begin{array}{l}L_{K} \mathcal{G}\left(M^{(i)}\right) R_{K} \\ L_{V} \mathcal{G}\left(M^{(i)}\right) R_{V}\end{array}\right]$
这些矩阵用于替换PA中的普通投影矩阵，实现变量特定的注意力计算。

五、实验

5.1 实验设置

数据集：选用四个常用的时间序列数据集，包括 $ETT_{h_{1}}$ 、 $ETT _{m_{1}}$ （电力变压器温度数据，每15分钟观测一次，6变量时间序列，训练/验证/测试集分别覆盖12/4/4个月）、ECL（电力消耗负荷数据，321变量，每小时记录，训练/验证/测试集覆盖15/3/4个月）和Weather（12变量，记录气候特征，每小时收集，训练/验证/测试集覆盖28/10/10个月）。
预测设置：使用历史 $H$ 个时间戳预测未来 $F$ 个时间戳。针对不同数据集，按常用设置变化 $H$ 和 $F$ 的值，如 $ETT_{h_{1}}$ 、ECL和Weather的 $F$ 分别设为24、48、168、336、720、960（对应不同天数的预测）， $ETT_{m_{1}}$ 的 $F$ 为24、48、96、288、672（对应不同小时数的预测）， $H$ 也相应变化。
基线模型：选取六个性能较强的基线模型，包括StemGNN、AGCRN、Informer、Reformer、LogTrans和Autoformer。
实现细节：采用Adam优化器，学习率 $1e^{-4}$ ，模型最多训练10个epoch，使用早停法（耐心值3），批量大小32。默认参数 $d = 32$ 、 $m = 5$ 、 $a = 5$ ，研究不同参数的影响。根据输入大小 $H$ 变化补丁大小（2、3、4、6、7、12、24）和层数（3、4、5），依据验证集选择最优配置。使用相同的位置嵌入机制，所有模型在单个NVIDIA V100 GPU上训练和测试。

5.2 实验结果

在所有数据集上，Triformer的预测准确性均优于基线模型。例如，在 $ETT_{h_{1}}$ 数据集上，当预测步长 $F = 24$ 时，Triformer的MSE为0.328，MAE为0.380，优于其他模型（如下表所示）。AGCRN在与部分变量无关的注意力模型比较中表现较好，凸显了变量特定建模的重要性；Autoformer获得第二好的准确性，体现了自相关的作用。

Method	F	ETT $_{h_{1}}$ MSE	ETT $_{h_{1}}$ MAE
Reformer	24	0.991	0.754
LogTrans	24	0.686	0.604
StemGNN	24	0.488	0.508
AGCRN	24	0.438	0.461
Informer	24	0.577	0.549
Autoformer	24	0.399	0.429
Triformer	24	0.328	0.380

5.3 更长序列的实验

在ECL数据集上进行扩展实验，将 $H$ 和 $F$ 分别增加到1024和2048。结果显示，Informer的性能落后于Triformer，而Autoformer出现内存不足（OOM）的情况，进一步证明了Triformer在处理长序列时的优势。

H/F	Informer MSE	Autoformer MSE	Triformer MSE
1,024	0.512	OOM	0.303
2,048	0.941	OOM	0.350

5.4 消融研究

在ECL数据集上开展消融研究，分析模型各组件的作用。去除变量特定建模（VSM）后，模型准确性显著下降，表明其对捕捉变量独特时间模式至关重要；用简单方法替代轻量级变量特定建模，不仅准确性降低，还增加了参数数量；减少补丁注意力层数或去除多尺度建模，同样会导致准确性大幅下降，说明多层结构和多尺度表示的有效性；去除递归连接虽会降低准确性，但幅度相对较小，且能使计算并行化，提高运行速度。

	MSE	MAE	#Param	s/epoch
Triformer	0.183	0.279	347k	73.11
w/o VSM	0.215	0.273	303k	33.25
w Naive VSM	0.191	0.288	826k	63.81
w/o Stacking	0.203	0.295	258k	56.26
w/o Multiscale	0.266	0.352	285k	71.58
w/o Recurrent	0.191	0.290	346k	65.75

逐块消融研究表明，补丁注意力（PA）、三角堆叠（TS）和VSM都对模型性能有显著贡献。将VSM添加到Informer中，能显著提升其准确性，进一步验证了VSM的有效性。

	MSE	MAE	#Param	s/epoch
PA	0.220	0.313	244k	26.26
PA-RC	0.223	0.314	224k	22.82
PA+TS	0.219	0.312	309k	30.31
PA+VSM	0.199	0.294	259k	48.92
Triformer	0.183	0.279	347k	73.11

F	Informer MSE	Informer+VSM MSE	Triformer MSE
48	0.344	0.274	0.183
168	0.368	0.284	0.182
336	0.381	0.294	0.202
720	0.406	0.316	0.251
960	0.460	0.317	0.248

5.5 超参数敏感性分析

研究发现，Triformer在不同补丁大小和层数设置下，能灵活平衡准确性、效率和参数规模。隐藏表示 $d$ 过小时，模型难以捕捉复杂时间模式，准确性下降； $d$ 过大则可能导致过拟合。内存大小 $m$ 对模型准确性影响较小，表明模型对该参数不敏感。中间矩阵 $B^{(i)}$ 的大小 $a$ 过小时，无法充分捕捉变量特定时间模式， $a = 5$ 时效果较好，继续增大 $a$ 对准确性提升有限。