TimeDART:结合扩散去噪与自回归建模的时间序列自监督学习新框架
本文介绍近期中科大团队结合自回归和扩散机制的时间序列自监督预训练的研究工作——TimeDART。
自监督学习已成为提升时间序列预测的有效方法。其特点是模型能够从未标记数据中通过内部生成的监督信号进行学习,不需要外部标签,而是利用数据本身的内在结构来创建必要的学习信号。然而,捕获时间序列数据中的全局序列依赖性和局部细节特征仍然面临挑战。
为此,团队提出了一种新型生成自监督方法——TimeDART,即用于时间序列预测的扩散自回归Transformer。该方法以时间序列块为基本建模单元,通过基于自注意力的Transformer编码器建模块间依赖性,同时引入扩散与去噪机制捕获块内局部特征。
此外,设计了基于交叉注意力的去噪解码器,在自监督任务中实现可调的优化难度,从而促进更有效的自监督预训练。实验结果表明,与现有方法相比,TimeDART在多种时间序列预测任务中实现了最先进的微调性能。
【论文标题】TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation
【论文链接】[2410.05711] TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation
【代码链接】https://github.com/Melmaphother/TimeDART
研究背景
近年来,基于深度学习的模型在长距离依赖建模方面取得了显著进展。然而,大多数现有方法在捕获时间序列中的长短期依赖性和细粒度特征时存在局限性。此外,自监督学习作为一种从无标签数据中提取可迁移表示的技术,近年来在时间序列领域得到快速发展,但面临着预训练目标与下游任务之间的目标差距以及建模复杂依赖性的挑战。因此,设计一种能够有效结合长短期特征并缩短预训练与下游任务差距的方法,具有重要的研究价值。
在回顾当前研究工作基础之上,结合时间序列的连续状态无界属性和预测任务的生成特性,本文提出了TimeDART:highlight使用diffusion model建模时序数据的连续性,使用auto-regressive建模时序的演化特性。
核心贡献
本研究致力于解决上述挑战。贡献可总结如下:
-
提出了一种新型的生成自监督学习框架TimeDART,通过整合扩散和自回归建模,能够有效捕获时间序列中的全局依赖性和局部细节特征。
-
设计了基于交叉注意力的去噪解码器,在自监督任务中实现了可调的优化难度,显著提升了预训练效果。
-
提出了一种新的扩散与去噪机制,将时间序列块作为建模单元,既降低了计算复杂度,又有效解决了传统方法中噪声敏感性的问题。
-
通过统一框架,将扩散模型与Transformer相结合,在时间序列的生成式建模方面提供了一种全新的视角。
方法解析
核心组件
-
Transformer编码器:使用了具有自注意力机制的Transformer编码器,专注于理解patches之间的依赖关系,有效捕获数据的整体序列结构。
-
噪声调度器与去噪解码器:实现了两个关键过程——扩散和去噪,通过向数据添加和移除噪声来捕获局部特征,这是所有扩散模型中的典型过程,提升了模型在详细模式上的表现。
关键步骤
-
标准化与嵌入
-
输入的多变量时间序列数据进行标准化,确保每个实例具有零均值和单位标准差,以保持最终预测的一致性;
-
将时间序列数据划分为patches而非单个点,这种方法能够捕获更全面的局部信息;
-
patch长度设置为等于步长,确保每个patch包含原始序列的非重叠段,防止训练过程中的信息泄漏。
-
-
因果变换编码
-
使用自注意力的Transformer编码器,用于建模patches之间的依赖关系;
-
通过考虑时间序列数据中不同patches之间的关系,捕获全局序列依赖关系;
-
学习有意义的patch间表示,理解时间序列的高层结构。
-
-
扩散与去噪
-
前向扩散:在输入patches上应用噪声,生成自监督信号,通过从带噪声版本中重构原始数据来学习稳健的表示;
-
基于交叉注意力的去噪解码:接收噪声(作为查询)和编码器的输出(键和值),使用掩码确保第j个噪声输入对应于Transformer编码器的第j个输出。
-
-
自监督优化目标
-
使扩散损失最小化,用相关的扩散损失取代了传统的均方误差损失,使模型能够更好地在时间序列数据上表达多模态信念。最终的损失函数公式为:
-
-
下游转移
-
在预训练之后,丢弃去噪解码器,而将嵌入层和编码器进行迁移。然后,针对各种下游任务对编码器进行调整,添加特定任务的头部。
-
在预测中,对回溯窗口和预测窗口都进行微调,使用一个展平头部进行单步预测,并使用均方误差损失进行优化。
-
在分类中,对带有相应标签的输入序列进行微调,然后使用最大池化头部将潜在表示投影到标签上,并使用交叉熵损失进行优化。
-
实验验证
本文在包括能源、交通、天气和金融等领域的八个公开数据集上验证了TimeDART的有效性。实验结果显示,TimeDART在64个评估指标中有67%的场景取得了最佳表现,尤其是在ETTh2和ETTm2等数据集上全面超越了现有最优方法。此外,TimeDART通过跨领域预训练显著提升了模型的泛化能力,能够在多样化的时间序列数据集上实现优异的预测性能。消融实验进一步证明,去噪扩散和自回归机制在提升模型性能中起到了关键作用。
总结
本文提出了一个新颖的生成自监督方法TimeDART,通过整合扩散与自回归机制,有效解决了时间序列预测中的全局与局部特征捕获问题。TimeDART不仅在多个时间序列数据集上实现了最先进的预测性能,还展示了其在跨领域预训练中的强大泛化能力。我们希望这一研究能够激发更多关于时间序列生成建模的深入探索。