当前位置：首页 > news >正文

【时序预测-5】FFT、STL、ARIMA频域特征和时序分解

news 2025/9/25 13:27:26

频域特征和时序分解详解

一、基于FFT的频域特征

1. FFT是什么？

FFT（快速傅里叶变换）：将时间域的信号转换为频率域，揭示数据中隐藏的周期性成分。

核心思想：任何复杂的时间序列都可以分解为不同频率的正弦波之和。

2. 具体例子：用电量的FFT分析

原始时间域数据（24小时用电量）：

时间：  00  01  02  03  04  05  06  07  08  09  10  11  12  13  14  15  16  17  18  19  20  21  22  23
用电：  50  45  40  35  30  35  40  60  80  90  85  80  75  70  75  80  85  95  100 90  80  70  60  55

FFT分析后发现的频率成分：

# FFT分解结果
频率成分1：频率=1/24小时，幅度=30    # 24小时周期（一天一个循环）
频率成分2：频率=1/12小时，幅度=15    # 12小时周期（上午下午两个峰值）
频率成分3：频率=1/8小时，幅度=8      # 8小时周期（三班倒工作制影响）
频率成分4：频率=1/4小时，幅度=3      # 高频噪声
...# 提取的频域特征
dominant_frequency = 1/24          # 主导频率：24小时
dominant_period = 24               # 主导周期：24小时  
spectral_energy = [30², 15², 8², 3²] # 各频率的能量
total_energy = 30² + 15² + 8² + 3² = 1162
frequency_peak = 30                # 最大频谱峰值

3. 频域特征的业务含义

# 从FFT结果可以得出
if dominant_period == 24:conclusion = "用电量主要遵循日循环规律"if spectral_energy[0] / total_energy > 0.7:conclusion = "日周期非常稳定，预测相对容易"if len(significant_frequencies) > 5:conclusion = "用电模式复杂，存在多重周期性"

4. 实际应用

长期用电量的FFT分析（365天数据）：

# FFT分析一年的日用电量数据
fft_result = {'主导周期': 7天,           # 周周期最强'次要周期': 365天,         # 年周期'第三周期': 30天,          # 月周期'周周期能量占比': 45%,      # 工作日/周末差异很明显'年周期能量占比': 25%,      # 夏冬季节差异'月周期能量占比': 10%,      # 月初月末缴费影响'噪声占比': 20%            # 随机波动
}# 生成的特征
features = {'has_strong_weekly_cycle': 1,      # 有强周周期'seasonal_strength': 0.25,         # 季节性强度'predictability_score': 0.8        # 基于频谱的可预测性评分
}

二、STL分解详解

1. STL是什么？

STL（Seasonal and Trend decomposition using Loess）：一种时间序列分解方法，将数据分解为趋势、季节性和残差三部分。

特点：

可以处理任何类型的季节性
季节性成分可以随时间变化
对异常值相对鲁棒

2. STL分解实例

原始用电量数据（24个月）：

月份     用电量
2022.01  400度
2022.02  420度  
2022.03  300度
2022.04  280度
2022.05  250度
2022.06  350度
2022.07  450度
2022.08  480度
2022.09  320度
2022.10  290度
2022.11  380度
2022.12  410度
2023.01  420度
2023.02  440度
...

STL分解结果：

趋势成分（Trend）

月份     趋势值   含义
2022.01  340度   基础用电水平，缓慢上升
2022.02  342度   
2022.03  344度   长期趋势：每月增加约2度
2022.04  346度   
2022.05  348度   
2022.06  350度   
2022.07  352度   
2022.08  354度   
2022.09  356度   
2022.10  358度   
2022.11  360度   
2022.12  362度   
2023.01  364度   持续的增长趋势

季节性成分（Seasonal）

月份     季节因子  含义（每年重复的模式）
1月      +50度    冬季取暖
2月      +70度    最冷月
3月      -50度    春季温和
4月      -70度    最舒适月
5月      -100度   春季最低
6月      0度      过渡期
7月      +90度    夏季空调
8月      +120度   最热月，用电最多
9月      -40度    秋季回落
10月     -70度    秋季温和
11月     +10度    开始取暖
12月     +40度    冬季取暖

残差成分（Residual）

月份     残差     可能原因
2022.01  +10度   比预期稍高（可能特别冷）
2022.02  +8度    正常
2022.03  +6度    正常
2022.04  +4度    正常
2022.05  +2度    正常
2022.06  0度     完全符合预期
2022.07  +8度    比预期高（可能特别热）
2022.08  +6度    正常
...

3. STL vs 传统分解的优势

传统分解的局限：

# 传统方法假设季节性固定
传统季节因子：
夏季永远 = +100度
冬季永远 = +50度

STL的优势：

# STL允许季节性变化
2022年夏季因子 = +90度
2023年夏季因子 = +110度  # 天气更热，或空调使用增加
2024年夏季因子 = +95度   # 节能意识提高# STL能适应季节性的演变

三、X-13-ARIMA分解详解

1. X-13-ARIMA是什么？

X-13-ARIMA：美国商务部开发的官方季节性调整程序，广泛用于经济数据的季节性分解。

特点：

自动识别最佳的ARIMA模型
处理复杂的季节性模式
能处理交易日效应、节假日效应
提供详细的诊断信息

2. X-13-ARIMA分解过程

Step 1：自动模型识别

# X-13自动测试多种ARIMA模型
candidate_models = [ARIMA(0,1,1)(0,1,1)_12,  # 季节性ARIMAARIMA(1,1,0)(0,1,1)_12,ARIMA(2,1,2)(0,1,1)_12,...
]# 选择AIC最小的模型
best_model = ARIMA(1,1,1)(0,1,1)_12

Step 2：分解结果

x13_decomposition = {'original': raw_data,'trend': trend_component,           # 趋势成分'seasonal': seasonal_component,     # 季节性成分  'irregular': irregular_component,   # 不规则成分'seasonally_adjusted': trend + irregular,  # 季节调整后数据# X-13特有的额外信息'trading_day_effect': td_component,    # 交易日效应'holiday_effect': holiday_component,   # 节假日效应'outliers': outlier_list,             # 检测到的异常值'model_diagnostics': diagnostic_info   # 模型诊断
}

3. X-13 vs STL对比

# 相同点
both_methods = {'decompose_into': ['trend', 'seasonal', 'residual'],'purpose': '分离时序成分','output': '季节调整数据'
}# 不同点
differences = {'STL': {'method': '局部回归(Loess)','flexibility': '高，适应任何季节性','speed': '快','use_case': '探索性分析'},'X-13-ARIMA': {'method': 'ARIMA建模','flexibility': '中等，专门处理经济数据','speed': '慢，需要模型选择','use_case': '官方统计、经济数据'}
}

四、实际应用建议

1. 方法选择指南

def choose_decomposition_method(data_characteristics):if data_characteristics['data_type'] == '经济数据':return 'X-13-ARIMA'  # 标准做法elif data_characteristics['has_complex_seasonality']:return 'STL'  # 更灵活elif data_characteristics['need_quick_results']:return 'STL'  # 更快速elif data_characteristics['has_trading_day_effect']:return 'X-13-ARIMA'  # 专门处理这类效应else:return 'STL'  # 通用选择

2. 特征工程应用

# 基于分解结果创建特征
def create_decomposition_features(decomposition_result):features = {# 基础成分特征'trend_value': current_trend,'seasonal_value': current_seasonal,'residual_value': current_residual,# 衍生特征'trend_direction': np.sign(trend_slope),'seasonal_strength': seasonal_variance / total_variance,'trend_strength': trend_variance / total_variance,'residual_strength': residual_variance / total_variance,# 预测相关特征'seasonally_adjusted_value': trend + residual,'expected_seasonal_pattern': next_month_seasonal_factor}return features

五、应用实例

假设你有 30 天的历史用电量序列 $y_t$ （ $\dots, 30$ ），希望将 FFT、STL、ARIMA 提取的特征作为辅助输入，用于提升后续预测模型（如 XGBoost、LSTM 或 Transformer）的性能。以下是具体做法（不训练 ARIMA 作为主模型，仅提取其特征）：

1. 特征提取策略（充分保留结构信息）

（1）STL 分解 → 多通道时序特征

对 $y_{1:30}$ 做 STL 分解（预设周期，如 7 天）：
$y_t = T_t + S_t + R_t$
不只取统计量，而是将 $T_t$ 、 $S_t$ 、 $R_t$ 作为三条并行时序，与原始 $y_t$ 拼接为 4 通道输入（形状 [30, 4]）。
若用深度模型（LSTM/Transformer），直接输入这 4 通道；若用树模型（XGBoost），可取最近 3–7 天的各分量值作为滑动窗口特征，拼成一个固定长度的向量（如 12–28 维），作为单一样本的特征。

（2）FFT → 频域特征 + 重构信号

对 $y_{1:30}$ 做 FFT，得频谱 $Y^k\hat{Y}_k$ 。
提取：
- 主周期： $T=30arg⁡max⁡k>0∣Y^k∣T = \frac{30}{\arg\max_{k>0} |\hat{Y}_k|}$
- 频谱能量： $∑k=1K∣Y^k∣2\sum_{k=1}^K |\hat{Y}_k|^2$ （ $K=2∼3K=2\sim3$ ）
- 重构周期信号： $y~t=IFFT(Y^1:K)\tilde{y}_t = \text{IFFT}(\hat{Y}_{1:K})$ ，作为第 5 条时序通道。它是一个确定性变换结果，是依据K个主要频率算出来的，长度仍为 30，与原始时间对齐
静态特征（ $T$ , 能量）作为样本级特征； $y~t\tilde{y}_t$ 作为动态特征。

（3）ARIMA → 统计结构特征（谨慎使用）

因 30 点数据短，仅拟合低阶 ARIMA（如 $\leq 1$ ）。
提取：
- 差分阶数 $d$ （0 或 1）
- AR 系数 $ϕ1\phi_1$ （若 $p = 1$ ）
- 残差方差 $σ2\sigma^2$
替代方案更鲁棒：用 ACF/PACF 在 lag-1、lag-7 的值代替 AR 系数，避免过拟合。

2. 特征整合到预测模型

方案 A：深度模型（LSTM/Transformer）

输入张量： $[yt,Tt,St,Rt,y~t][y_t, T_t, S_t, R_t, \tilde{y}_t]$ ，形状 [30, 5]
静态特征（主周期、ACF(7)、 $σ2\sigma^2$ 等）通过 FiLM 或 concat projection 融入每个时间步
模型自动学习各分量权重，无需人工设计聚合逻辑

方案 B：树模型（XGBoost/LightGBM）

可以将以下特征拼成一条数据，让模型进行预测

构造特征向量包含：
- 原始值： $y_{28}, y_{29}, y_{30}$
- STL 分量： $T_{30}, S_{30}, R_{30}$ ，或滑动窗口均值/趋势
- FFT 特征：主周期 $T$ 、频谱能量
- ARIMA/ACF 特征：ACF(1), ACF(7)
共约 10–15 维特征，适合小样本建模

3.深度模型详解

对完整历史序列 $y_{1:30}$ 执行以下操作：

STL 分解（预设周期，如 7）：
$y_t = T_t + S_t + R_t,\quad t=1,\dots,30$
得到三条长度为 30 的分量序列： $T_t, S_t, R_t$
FFT 重构：
- 对 $y_{1:30}$ 做 FFT，取前 $K=2∼3K=2\sim3$ 个主频
- IFFT 重构周期信号 $y~t\tilde{y}_t$ ，长度也为 30
静态特征提取（标量，每样本一个）：
- 主周期 $T=30/arg⁡max⁡k>0∣Y^k∣T = 30 / \arg\max_{k>0} |\hat{Y}_k|$
- ACF(7)（反映周周期强度）
- STL 残差方差 $σ2=Var(Rt)\sigma^2 = \text{Var}(R_t)$

动态输入张量（主输入）：
$X_{\text{dynamic}} = \begin{bmatrix} y_1 & T_1 & S_1 & R_1 & \tilde{y}_1 \\ y_2 & T_2 & S_2 & R_2 & \tilde{y}_2 \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ y_{30} & T_{30} & S_{30} & R_{30} & \tilde{y}_{30} \end{bmatrix} \in \mathbb{R}^{30 \times 5}$
静态特征向量：
$x_{\text{static}} = [T,\ \text{ACF}(7),\ \sigma^2] \in \mathbb{R}^3$
融合方式（以 concat projection 为例）：
- 将 $xstaticx_{\text{static}}$ 复制 30 次，得到 $R30×3\mathbb{R}^{30 \times 3}$
- 与 $XdynamicX_{\text{dynamic}}$ 拼接： $[X_{\text{dynamic}},\ \text{repeat}(x_{\text{static}}, 30)] \in \mathbb{R}^{30 \times 8}$
- 或通过一个线性层投影到与隐藏维度对齐后加到每个时间步的 token 表示中

将融合后的输入 $X$ 送入 LSTM 或 Transformer 编码器
模型内部自动学习：
- 各通道的重要性（如季节项 $S_t$ 在周周期强时被赋予更高权重）
- 时间依赖（如最近几天的趋势变化）
- 静态特征对动态表示的调制（如高 ACF(7) 时增强对 $S_t$ 的关注）
输出层：
- 通常取最后一个时间步的隐藏状态 $h_{30}$
- 通过一个全连接层（或 MLP）映射到标量：
  $y^31=MLP(h30) \hat{y}_{31} = \text{MLP}(h_{30})$
训练时：需要真实标签 $y_{31}$ ，通过最小化损失（如 MSE）更新参数
预测时：只需输入 $X$ （由 $y_{1:30}$ 构造），模型直接输出 $y^31\hat{y}_{31}$

⚠️ 注意：每次预测新一天（如第 32 天），必须重新用 $y_{1:31}$ 重新计算 STL/FFT/ACF，不能复用旧特征，因为这些分解依赖完整历史。

4.树模型详解

构造的每条样本是一个 10–15 维的特征向量，对应 某一天（如第 30 天）的历史状态。

该样本的 标签（target）是下一天的真实用电量，即 $y_{31}$ 。
因此，如果你有 30 天原始数据 $y1,…,y30y_1, \dots, y_{30}$ ，你最多只能构造 27 条训练样本（因为要用 $y_{28}, y_{29}, y_{30}$ 预测 $y_{31}$ ，但 $y_{31}$ 必须已知才能训练）。

✅ 训练数据格式示例（滑动窗口构造）：

样本 1：用 $y1∼y3y_1 \sim y_3$ 构造特征 → 标签 = $y_4$
样本 2：用 $y2∼y4y_2 \sim y_4$ 构造特征 → 标签 = $y_5$
…
样本 27：用 $y27∼y29y_{27} \sim y_{29}$ 构造特征 → 标签 = $y_{30}$

⚠️ 注意：你提到的“原始值： $y_{28}, y_{29}, y_{30}$ ”是用于预测第 31 天的输入，但训练时第 31 天必须存在（即你实际需要 ≥31 天数据才能构造出预测第 31 天的样本）。

训练完成后，模型是一个 映射函数：
$y^t+1=f(features from yt−2:t) \hat{y}_{t+1} = f\big( \text{features from } y_{t-2:t} \big)$

预测第 31 天的具体步骤：

用已知的 $y1∼y30y_1 \sim y_{30}$ ：
- 对 $y_{1:30}$ 做 STL 分解 → 得到 $T_{30}, S_{30}, R_{30}$
- 对 $y_{1:30}$ 做 FFT → 得主周期 $T$ 、频谱能量
- 计算 ACF(1)、ACF(7) 等统计量
构造输入特征向量：
- 原始值： $y_{28}, y_{29}, y_{30}$
- STL： $T_{30}, S_{30}, R_{30}$
- FFT： $T$ , 能量
- ACF：ACF(1), ACF(7)
- （共 10–15 维）
输入训练好的 XGBoost/LightGBM 模型 → 输出 $y^31\hat{y}_{31}$

🔁 若要预测第 32 天？
通常有两种做法：

滚动预测（rolling forecast）：将 $y^31\hat{y}_{31}$ 当作真实值，拼入序列，重新计算所有特征（包括 STL/FFT），预测 $y_{32}$ 。但误差会累积。
仅预测下一步：实际部署中，往往每天只预测“明天”，等真实值到来后再更新模型或特征。