当前位置：首页 > news >正文

TCN‑Transformer‑GRU（单输入‑单输出）在 MATLAB 中的实现思路与完整示例代码

news 2025/11/17 7:16:01

TCN‑Transformer‑GRU（单输入‑单输出）在 MATLAB 中的实现思路与完整示例代码

下面给出从数据准备到模型训练、预测、评估的完整工作流，代码基于 MATLAB R2024b（Deep Learning Toolbox），适用于 单变量（即一条时间序列）预测任务。实现思路参考了 NRBO‑TCN‑Transformer‑BiGRU 的完整示例[[1]]以及 TCN‑GRU‑Attention 单变量多步预测的实现[[2]]，并结合了 Transformer 单变量预测的常用位置编码方式[[3]]。

1. 工作流程概览

读取并归一化原始序列
滑动窗口切片：把序列划分为 lookBack（输入长度）×horizon（预测步长）的样本。
构建网络：
- sequenceInputLayer → TCN（因果卷积 + 残差块）
- 位置编码（相对/绝对） → TransformerEncoder（多头注意力）
- GRU（单向或双向） → 全连接层 → 回归层
训练：使用 Adam 优化器，监控验证 RMSE。
预测 & 逆归一化：对测试窗口进行滚动预测，得到完整的预测序列。
评估：计算 RMSE、MAE、R² 等指标。

2. 关键代码（可直接复制运行）

%% 1. 参数设置
lookBack = 30;      % 输入窗口长度
horizon  = 1;       % 预测步长（单步预测）
numEpoch = 120;
miniBatchSize = 64;
learningRate = 1e-3;%% 2. 读取数据（假设 data.csv 只有一列时间序列）
raw = readmatrix('data.csv');          % N×1 向量
data = (raw - mean(raw)) / std(raw);   % Z‑score 标准化%% 3. 滑动窗口划分
X = [];
Y = [];
for i = 1 : length(data)-lookBack-horizon+1X(:,i) = data(i : i+lookBack-1);Y(:,i) = data(i+lookBack+horizon-1);
end
X = permute(X, [1 3 2]);   % (lookBack)×1×N
Y = permute(Y, [1 3 2]);   % 1×1×N% 划分训练/验证
idx = floor(0.8*size(X,3));
XTrain = X(:,:,1:idx);   YTrain = Y(:,:,1:idx);
XVal   = X(:,:,idx+1:end); YVal = Y(:,:,idx+1:end);%% 4. 网络结构
layers = [ ...sequenceInputLayer(1,'Name','input')%--- TCN（因果卷积 + 残差块）---convolution1dLayer(3,64,'DilationFactor',1,'Padding','causal','Name','conv1')reluLayer('Name','relu1')batchNormalizationLayer('Name','bn1')additionLayer(2,'Name','add1')   % 与残差支路相加% 残差支路（恒等映射）convolution1dLayer(1,64,'Name','res1')%--- 位置编码（相对）---functionLayer(@(X) X + positionalEncoding(size(X,1),64), ...'Name','posEnc','Formattable',true)%--- Transformer Encoder（多头注意力）---transformerEncoderLayer(64,4,128,'Name','transEnc')%--- GRU（单向）---gruLayer(64,'OutputMode','last','Name','gru')%--- 回归输出 ---fullyConnectedLayer(1,'Name','fc')regressionLayer('Name','output')];lgraph = layerGraph(layers);
% 连接残差支路
lgraph = connectLayers(lgraph,'input','res1');
lgraph = connectLayers(lgraph,'bn1','add1/in2');%% 5. 训练选项
options = trainingOptions('adam', ...'InitialLearnRate',learningRate, ...'MaxEpochs',numEpoch, ...'MiniBatchSize',miniBatchSize, ...'Shuffle','every-epoch', ...'Plots','training-progress', ...'ValidationData',{XVal,YVal}, ...'ValidationFrequency',30, ...'Verbose',false);%% 6. 训练模型
net = trainNetwork(XTrain,YTrain,lgraph,options);%% 7. 滚动预测（单步递推）
numTest = length(data) - lookBack;
pred = zeros(1,numTest);
for t = 1:numTestseq = data(t : t+lookBack-1);seq = reshape(seq,lookBack,1,1);pred(t) = predict(net,seq);
end
% 逆标准化
pred = pred * std(raw) + mean(raw);
actual = raw(lookBack+1:end);%% 8. 评估指标
rmse = sqrt(mean((pred-actual).^2));
mae  = mean(abs(pred-actual));
fprintf('RMSE = %.4f, MAE = %.4f\n',rmse,mae);

说明

positionalEncoding 为自定义函数，实现标准的正弦/余弦位置编码（参考 Transformer 单变量实现[[4]]）。
TCN 残差块采用 因果卷积（Padding='causal'）保证信息只能从过去流向未来，符合时间序列建模的因果性要求[[5]]。
transformerEncoderLayer 中的 NumHeads=4、FeedForwardSize=128 为常用配置，可通过 NRBO 超参数搜索进一步优化（如搜索卷积核数、膨胀率、Transformer 层数、GRU 隐藏单元等）[[6]]。
训练过程使用 training-progress 可实时观察验证 RMSE，帮助判断是否出现过拟合。

3. 常见调优技巧

方向	建议
窗口长度	`lookBack` 取 20‑50 之间常能兼顾局部特征与计算成本；可通过交叉验证挑选最优值。
TCN 参数	膨胀因子 `dilation = 2.^[0:n-1]`（指数增长）可显著扩大感受野；卷积核数 32‑128 之间常见。
Transformer	多头数 4‑8、前馈维度 2‑4 倍隐藏单元；若显存受限可降低 `NumHeads`。
GRU	单向 GRU 已足够单步预测；若需要捕获前后文，可改为 `bilstmLayer` 或 `gruLayer` 的 `Bidirectional` 形式。
学习率	采用分段学习率衰减（如每 30 epoch 降 0.5）可提升收敛稳定性。
正则化	`batchNormalizationLayer` 与 `dropoutLayer`（0.2‑0.3）可防止过拟合，尤其在数据量较小时。

4. 结果可视化（示例）

figure;
plot(actual,'b','LineWidth',1.2); hold on;
plot(pred,'r--','LineWidth',1.2);
legend('真实值','TCN‑Transformer‑GRU 预测');
title('单变量时间序列预测效果');
xlabel('时间步');
ylabel('数值');
grid on;