当前位置：首页 > news >正文

Non-stationary Diffusion For Probabilistic Time Series Forecasting论文阅读笔记

news 2025/8/21 7:20:52

Non-stationary Diffusion For Probabilistic Time Series Forecasting

摘要

时间序列数据受到潜在的物理动力学和外部影响，其不确定性通常随时间而变化。现有的去噪扩散概率模型（DDPMs）受到加性噪声模型（ANM）的恒定方差假设的限制，往往不能捕捉到这种非平稳性质。本文作者利用位置尺度噪声模型（LSNM）来放宽人工神经网络的固定不确定性假设，设计了一个基于扩散的概率预测框架，称为非平稳扩散（NsDiff），实现对不确定性的变化模式进行建模。具体来说，NsDiff将基于扩散的去噪条件生成模型与预训练的条件均值和方差估计器相结合，实现自适应端点分布建模。此外，还提出了一种不确定性感知噪声调度，该调度动态调整噪声水平以准确反映每一步数据的不确定性，并将时变方差集成到扩散过程中。

引言

时序数据预测工作一般是通过历史时序数据 $X\pmb{X}$ 来训练模型，然后预测未来的时序片段 $Y\pmb{Y}$ 。因此可以看作在拟合分布 $E[Y∣X]\mathbb{E}[\pmb{Y}|\pmb{X}]$ 。这样的方法忽略了在预测过程中的时序不确定性。

去噪扩散概率模型（Denoising Diffusion Probabilistic Models ，DDPMs）基于加性噪声模型（Additive Noise Model，ANM）在概率时序预测工作中提供了不确定性。其加性噪声为固定的高斯噪声，拟合过程表示为： $ϵ∼N(0,σ)\pmb{Y}=f(\pmb{X})+\pmb{\epsilon}, \; \pmb{\epsilon}\sim\mathcal{N}(\pmb{0},\pmb{\sigma})$ 。该方法在计算机视觉和自然语言生成工作中都有较大的贡献，但是对于非平稳时间序列数据的预测还需要进一步研究。

在这里插入图片描述

上图利用ILI（流感样疾病）数据集，分别对三种方法的效果进行展示（具有不同的端点分布（左）和估计不确定性（右））：TimeGrad 、TMDM 和NsDiff(本文所提方法)。其中，TimeGrad的端点分布服从标准正态分布 $N(0,I)\mathcal{N}(\pmb{0},\pmb{I})$ ，TMDM则使用 $N(f(X),I)\mathcal{N}(f(\pmb{X}),\pmb{I})$ 。前者无法获取非稳定特征，后者则可以通过 $f(X)f(\pmb{X})$ 获取时序数据的变化趋势，但是他的协方差限制了其准确预测不确定性的能力。

本文为了更好地处理随不确定性变化的非平稳性，我们在DDPMs中引入了位置尺度噪声模型（Local-Scale Noise Model，LSNM），它通过纳入上下文变化的方差放宽了传统的加性噪声模型（ANM）的限制： $Y=f(X)+g(X)ϵ\pmb{Y}=f(\pmb{X})+\sqrt{g(\pmb{X})}\pmb{\epsilon}$ ，其中 $g(X)g(\pmb{X})$ 是基于 $X\pmb{X}$ 变化的参数。

主要贡献如下：

作者观察到ANM不足以捕获变化的不确定性，并提出了一个集成LSNM的新框架，以允许显式不确定性建模。本作品是首次尝试介绍LSNM转化为概率时间序列预测
为了从根本上提升DDPM的噪声建模能力，我们通过动态适应每一步噪声方差的不确定性噪声调度，将时变方差无缝地集成到核心扩散过程中
实验结果表明，NsDiff在捕获不确定性方面具有较好的性能。具体来说，与最近第二好的基线相比在TMDM中，NsDiff在真实数据集上的改进可达66.3%，在合成数据集上的改进可达88.3%

预备工作

问题描述：

多元时间序列： $X∈RN×D\pmb{X}\in\mathbb{R}^{N\times D}$ ，其中 $N$ 是历史窗口尺寸， $D$ 是特征维度数量
未来的多元时间序列： $Y={p(y1),p(y2),...,p(yM)∣y∈RD}\pmb{Y}=\{p(y_1), p(y_2), ..., p(y_M)|y\in\mathbb{R}^D\}$ ，其中 $M$ 是为未来窗口尺寸
以前的工作拟合该过程为： $ϵ∼N(0,σ)\pmb{Y}=f_{\phi}(\pmb{X})+\pmb{\epsilon},\;\pmb{\epsilon}\sim\mathcal{N}(\pmb{0},\pmb{\sigma})$
本文的工作：
$\pmb{Y}=f_{\phi}(\pmb{X})+\sqrt{g_{\psi}(\pmb{X})}\pmb{\epsilon},\;\pmb{\epsilon}\sim\mathcal{N}(\pmb{0},\pmb{\sigma})$

$fϕ(X)f_{\phi}(\pmb{X})$ 和 $gψ(X)g_{\psi}(\pmb{X})$ 可以被视为具有预训练参数 $ϕ\phi$ 和 $ψ\psi$ 的先验知识，其中 $fϕ(X)f_{\phi}(\pmb{X})$ 建模条件期望 $E[Y∣X]\mathbb{E}[\pmb{Y}|\pmb{X}]$ ， $gψ(X)g_{\psi}(\pmb{X})$ 建模变化的不确定性。

DDPMs

未来序列分布： $pθ(Y0):=∫pθ(Y0:T)dY1:Tp_\theta(\pmb{Y}_0):=\int p_\theta(\pmb{Y}_{0:T})d\pmb{Y}_{1:T}$ ，其中 $Y1,...,YT\pmb{Y}_1,...,\pmb{Y}_T$ 是潜变量
联合分布被描述为马尔可夫链： $pθ(Y0:T):=p(YT)∏t=1Tpθ(Yt−1∣Yt)p_\theta(\pmb{Y}_{0:T}):=p(\pmb{Y}_T)\prod_{t=1}^{T}p_\theta(\pmb{Y}_{t-1}|\pmb{Y}_t)$ ，其中端点分布为 $p(YT):=N(0,I)p(\pmb{Y}_T):=\mathcal{N}(0, \pmb{I})$
前向过程 $Y0→YT\pmb{Y}_0\rightarrow\pmb{Y}_T$ ：
$q(\pmb{Y}_{1:T}|\pmb{Y}_0):=\prod_{t=1}^{T}q(\pmb{Y}_t|\pmb{Y}_{t-1})\\ q(\pmb{Y}_t|\pmb{Y}_{t-1}):=\mathcal{N}(\pmb{Y}_t;\sqrt{1-\beta_t}\pmb{Y}_{t-1},\beta_t\pmb{I})$
其中， $βt∈(0,1)\beta_t\in(0, 1)$ 是一个扩散技巧参数，用于控制端点分布 $YT∼N(0,I)\pmb{Y}_T\sim\mathcal{N}(0,\pmb{I})$
前向过程可以简化为： $q(Yt∣Y0)=N(Yt;αˉtYt−1,(1−αˉt)I)q(\pmb{Y}_t|\pmb{Y}_0)=\mathcal{N}(\pmb{Y}_t;\sqrt{\bar{\alpha}_t}\pmb{Y}_{t-1},(1-\bar{\alpha}_t)\pmb{I})$ ，其中 $αt:=1−βt\alpha_t:=1-\beta_t$ ，且 $αˉ:=∏i=1tαt\bar{\alpha}:=\prod_{i=1}^{t}\alpha_t$
后向过程：
$KaTeX parse error: Can't use function '$' in math mode at position 2: $̲p_\theta(\pmb{Y…$
优化目标为：
$\mathbb{E}_{\pmb{Y}_0\sim q(\pmb{Y}_0),\eta\sim\mathcal{N}(0,\pmb{I}),t}||\eta-\eta_\theta|^2$

在这个基本的正向和反向过程之后，许多基于扩散的方法改进了反向过程或先验分布与历史时间序列信息。然而，它们固定了先验分布的方差，关注的是期望匹配。不确定性的先验设置和训练在很大程度上被忽略了。

方法

在这里插入图片描述

前向和反向过程

使用不同的噪声模型LSNM形成端点分布
$p(\pmb{Y}_T|f_\phi(x),g_\psi(x)):=\mathcal{N}(f_\phi(\pmb{X},g_\psi(\pmb{X})))$
其中， $fϕ(x)f_\phi(x)$ 为条件期望 $E[Y∣X]\mathbb{E}[\pmb{Y}|\pmb{X}]$ 建模，该条件期望 $E[Y∣X]\mathbb{E}[\pmb{Y}|\pmb{X}]$ 可以通过任何预测模型参数化,遵循已有的工作（Reversible instance normalization for accurate time-series
forecasting against distribution shift；Adaptive normalization for non-stationary
time series forecasting: A temporal slice perspective）来训练不确定度 $gψ(x)g_\psi(x)$ 的先验尺度，用输入方差来预测输出方差。

前向过程逐步修改每一步的噪声以接近端点分布。为了将时变方差无缝地整合到扩散过程中，我们提出了一个不确定性感知的噪声调度，并将数据方差纳入前向过程分布中： $q(Yt∣Yt−1,fϕ(X),gψ(X),σY0)q(\pmb{Y}_t|\pmb{Y}_{t-1},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}),\pmb{\sigma}_{\pmb{Y}_0})$ 。具体来说，给定预训练良好的模型 $fϕf_\phi$ ， $gψg_\psi$ 和先验状态 $Yt−1\pmb{Y}_{t-1}$ ，我们控制缩放方差从起点的实际方差 $σY0\pmb{\sigma}_{\pmb{Y}_0}$ 过渡到端点 $gψXg_\psi{\pmb{X}}$ 。得到的分布为正态分布：
$\mathcal{N}(\pmb{Y}_t;\sqrt{\alpha_t}\pmb{Y}_{t-1}+(1-\sqrt{\alpha_t})f_\phi(\pmb{X}),(\beta_t^2g_\psi(\pmb{X})+\alpha_t\beta_t\pmb{\sigma}_{\pmb{Y}_0})\\ \beta_t^2g_\psi(\pmb{X})+\alpha_t\beta_t\pmb{\sigma}_{\pmb{Y}_0}) := \pmb{\sigma}_t$
其中共享系数 $βt\beta_t$ 是噪声标度常数。随着噪声步骤 $t$ 的增大， $βtgψ(X)\beta_tg_\psi(\pmb{X})$ 项增大， $αtσY0\alpha_t\pmb{\sigma}_{\pmb{Y}_0}$ 项减小。当 $t = T$ 时， $αt=0\alpha_t=0$ ，变量收敛到假设的端点分布 $gϕ(X)g_\phi(\pmb{X})$ 。这使得DDPM能够自适应地调整每一步的噪声水平，以捕获数据的不确定性。正向分布允许一个封闭形式的采样分布 $q(Yt∣Y0,fϕ(X),gψ(X),σY0)q(\pmb{Y}_t|\pmb{Y}_{0},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}),\pmb{\sigma}_{\pmb{Y}_0})$ 具有任意时间步长 $t$ ：
$\mathcal{N}(\pmb{Y}_t;\sqrt{\bar{\alpha}_t}\pmb{Y}_{0}+(1-\sqrt{\bar\alpha_t})f_\phi(\pmb{X}),(\bar\beta_t-\tilde\beta_t)g_\psi(\pmb{X})+\tilde\beta_t\pmb{\sigma}_{\pmb{Y}_0})\\ (\bar\beta_t-\tilde\beta_t)g_\psi(\pmb{X})+\tilde\beta_t\pmb{\sigma}_{\pmb{Y}_0}) := \bar{\pmb{\sigma}}_t$
其中:
$βˉt:=1−αˉtα^t:=∑k=0t−1(∏i=t−ktαi)αt−k, β~t:=α~t−α^t \tilde\alpha_t = \sum_{k=0}^{t-1}\prod_{i=t-k}^{t}\alpha_i,\;\bar\beta_t:=1-\bar\alpha_t\\ \hat\alpha_t:=\sum_{k=0}^{t-1}(\prod_{i=t-k}^{t}\alpha_i)\alpha_{t-k},\;\tilde\beta_t:=\tilde\alpha_t-\hat\alpha_t$
在反向过程中，当以 $Y0\pmb{Y}_0$ 为条件时， $Yt−1\pmb{Y}_{t-1}$ 的后验是可处理的，可重述为：
$q(\pmb{Y}_{t-1}|\pmb{Y}_{t},\pmb{Y}_0,f_{\phi(\pmb{X}),g_{\psi}(\pmb{X}),\pmb{\sigma}_{\pmb{Y}_0}}) := \mathcal{N}(\pmb{Y}_{t-1};\tilde\mu,\tilde\sigma)$
这里:
$\tilde\mu:=\gamma\pmb{Y}_0+\gamma_1\pmb{Y}_t+\gamma_2f_\phi(\pmb{X})\\ \tilde\sigma:=\frac{\sigma_t\bar\sigma_{t-1}}{\alpha_t\bar\sigma_{t-1}+\sigma_t}$
其中：
$\gamma_0 := \frac{\sqrt{\bar\alpha_{t-1}}\sigma_t}{\alpha_t\bar\sigma_{t-1}+\sigma_t},\\\ \gamma_1 := \frac{\sqrt{\bar\alpha_{t}}\sigma_t-1}{\alpha_t\bar\sigma_{t-1}+\sigma_t},\\ \gamma_2 := \frac{\sqrt{\alpha_{t}}(\alpha_{t}-1)\sigma_{t-1}+(1-\sqrt{\bar\alpha_{t-1}})\sigma_t}{\alpha_t\bar\sigma_{t-1}+\sigma_t}$
按照DDPM的基本步骤参数化降噪模型 $pθ(Yt−1∣Yt,fϕ(X),gψ(X))p_\theta(\pmb{Y}_{t-1}|\pmb{Y}_{t},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}))$ ，以匹配前向过程后验 $q(Yt−1∣Yt,fϕ(X),gψ(X),σY0)q(\pmb{Y}_{t-1}|\pmb{Y}_{t},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}),\pmb{\sigma}_{\pmb{Y}_0})$ 。

损失函数

通过优化两个分布的KL散度，将去噪过渡步骤 $pθ(Yt−1∣Yt,fϕ(X),gψ(X))p_\theta(\pmb{Y}_{t-1}|\pmb{Y}_{t},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}))$ 近似为标签去噪过度步骤 $q(Yt−1∣Yt,fϕ(X),gψ(X),σY0)q(\pmb{Y}_{t-1}|\pmb{Y}_{t},f_{\phi}(\pmb{X}),g_{\psi}(\pmb{X}),\pmb{\sigma}_{\pmb{Y}_0})$ 。与经典DDPM一样，只优化对角方差项，分别表示为 $σ~\tilde\sigma$ 和 $σθ\sigma_\theta$ 。损失定义为噪声匹配项的KL散度：

$\mathcal{L} = \mathbb{E}[D_{KL}(\mathcal{N}_x;\tilde\mu,\tilde\sigma||\mathcal{N}(y;\mu_\theta,\sigma_\theta))]\propto\mathbb{E}[||\eta-\eta_\theta||_2^2+\sum_i\frac{\tilde\sigma_i}{\sigma_{\theta,i}}-\sum_i\log(\frac{\tilde\sigma_i}{\sigma_{\theta,i}})]$
其中 $ηθ\eta_\theta$ 为估计噪声， $η\eta$ 为真噪声。第一项保证了后验均值的估计，其余项保证了方差的估计。

预训练 $fϕf_\phi$ 和 $gψg_\psi$

为了训练 $fϕf\phi$ ，我们遵循先前的工作（Transformer-modulated diffusion models for probabilistic multivariate time series forecasting），并利用非平稳Transformer（Non-stationary
transformers: Exploring the stationarity in time series forecasting）作为主干模型。训练过程与标准监督时间序列模型的训练过程相同（Informer: Beyond efficient transformer
for long sequence time-series forecasting）。对于 $gψg_\psi$ 的训练，我们使用滑动窗口方法提取估计值的方差，参考（Reversible instance normalization for accurate time-series
forecasting against distribution shift；Adaptive normalization for non-stationary time series forecasting: A temporal slice perspective；Frequency adaptive normalization for non-stationary time series forecasting）。具体来说，给定时间序列标签 $Y0\pmb{Y}_0$ ，估计值的方差定义为：
$\sigma_{\pmb{Y}_0}=Var(SlidingWindow(\pmb{Y}_0))$
该过程为有监督训练过程。