当前位置: 首页 > news >正文

transformer➕lstm训练回归模型

使用 Transformer 和 LSTM 优化时序数据回归模型:全流程分析

在机器学习和深度学习中,处理时序数据是一项常见的任务。无论是金融预测、气象预测还是库存管理等领域,时序数据都扮演着至关重要的角色。对于时序数据的建模,深度学习模型,如 LSTM(长短期记忆网络)和 Transformer,已被广泛应用。本文将介绍如何结合 LSTM 和 Transformer 模块,构建一个优化后的回归模型,并展示从数据生成到模型训练的全流程。

目录

  1. 数据生成与处理

  2. 模型构建与优化

  3. 模型训练与评估

  4. 总结与展望


数据生成与处理

在时序数据建模中,首先需要准备数据。我们将生成一组合成的时序数据,并进行数据预处理,使其适应 LSTM 和 Transformer 模型的输入要求。

生成合成时序数据

我们使用 Python 库 timeseries-generator 来生成包含线性趋势和白噪声的时序数据,数据形式类似于股票价格或传感器数据的变化。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from timeseries_generator import LinearTrend, WhiteNoise, Generator# 设置随机种子以确保结果可重现
np.random.seed(42)# 定义线性趋势和白噪声
lt = LinearTrend(coef=0.5, offset=10.0, col_name="linear_trend")
wn = WhiteNoise(stdev_factor=0.1)# 生成数据
g = Generator(factors={lt, wn}, features=None, date_range=pd.date_range(start="2020-01-01", end="2020-12-31"))
g.generate()# 获取生成的数据
df = g.df
df['target'] = df['linear_trend'] + df['white_noise'] + np.random.normal(0, 0.1, len(df))# 可视化生成的数据
plt.figure(figsize=(10, 6))
plt.plot(df['date'], df['target'], label='Generated Time Series')
plt.xlabel('Date')
plt.ylabel('Value')
plt.title('Synthetic Time Series Data')
plt.legend()
plt.grid(True)
plt.show()

这段代码生成了包含线性趋势和噪声的时序数据,并可视化了其变化趋势。

数据预处理

为了将数据输入到 LSTM 和 Transformer 模型中,我们需要对数据进行归一化处理,并将其转换为适合模型输入的格式。

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split# 选择特征和目标变量
X = df[['linear_trend', 'white_noise']].values
y = df['target'].values# 归一化处理
scaler_X = MinMaxScaler()
scaler_y = MinMaxScaler()
X_scaled = scaler_X.fit_transform(X)
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1))# 重塑 X 为 LSTM 输入格式
X_scaled = X_scaled.reshape((X_scaled.shape[0], 1, X_scaled.shape[1]))# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, shuffle=False)print(f"Training data shape: {X_train.shape}")
print(f"Test data shape: {X_test.shape}")

这段代码将数据标准化,并将其重塑为 LSTM 输入格式。


模型构建与优化

在本次任务中,我们将结合 Transformer 和 LSTM 模块来构建一个优化的时序数据回归模型。Transformer 模块负责捕捉长程依赖关系,LSTM 模块负责建模短期时序依赖。

模型定义

我们定义了一个包含 Transformer 和 LSTM 的混合模型。Transformer 模块采用了多头自注意力机制(MultiHeadAttention),并与 LSTM 网络共同处理时序数据。

import tensorflow as tf
from tensorflow.keras import layers, regularizersclass TransformerLSTMModel(tf.keras.Model):def __init__(self, input_dim, output_dim, lstm_units=64, transformer_heads=4, transformer_dim=64, dropout_rate=0.5, l2_reg=0.01, initial_lr=0.1):super(TransformerLSTMModel, self).__init__()# Transformer 模块self.transformer_attention = layers.MultiHeadAttention(num_heads=transformer_heads, key_dim=transformer_dim)self.transformer_dropout = layers.Dropout(dropout_rate)self.transformer_norm = layers.LayerNormalization()# LSTM 模块self.lstm_layer = layers.LSTM(lstm_units, return_sequences=True)self.lstm_norm = layers.LayerNormalization()# 全连接层self.dense1 = layers.Dense(128, activation='relu', kernel_regularizer=regularizers.l2(l2_reg))self.batch_norm1 = layers.BatchNormalization()self.dropout1 = layers.Dropout(dropout_rate)self.dense2 = layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l2(l2_reg))self.batch_norm2 = layers.BatchNormalization()self.dropout2 = layers.Dropout(dropout_rate)# 输出层self.output_layer = layers.Dense(output_dim, activation='linear')# 学习率调度self.lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(initial_lr, decay_steps=100000, decay_rate=0.96, staircase=True)self.optimizer = tf.keras.optimizers.Adam(learning_rate=self.lr_schedule)def call(self, inputs):# Transformer 模块x = self.transformer_attention(inputs, inputs)x = self.transformer_dropout(x)x = self.transformer_norm(x)x = layers.Add()([x, inputs])  # 残差连接# LSTM 模块x = self.lstm_layer(x)x = self.lstm_norm(x)# 聚合时间步的输出x = layers.GlobalAveragePooling1D()(x)# 全连接层x = self.dense1(x)x = self.batch_norm1(x)x = self.dropout1(x)x = self.dense2(x)x = self.batch_norm2(x)x = self.dropout2(x)# 输出outputs = self.output_layer(x)return outputsdef compile_model(self):self.compile(optimizer=self.optimizer,loss='mean_squared_error',metrics=['mae'])  # 回归任务使用均方误差损失函数

模型优化

在模型优化过程中,我们使用了以下技术:

  1. Transformer 模块: 使用多头自注意力机制捕捉全局信息。

  2. LSTM 模块: 负责处理时序依赖,帮助模型理解时间序列的短期依赖关系。

  3. 正则化: 通过 L2 正则化、Dropout 和批量归一化,防止过拟合。

  4. 学习率调度: 使用指数衰减学习率调度,在训练过程中动态调整学习率,优化训练过程。


模型训练与评估

在数据预处理和模型构建完成后,我们开始训练模型,并监控训练过程中的损失和 MAE 曲线。

# 训练模型
history = model.fit(X_train, y_train, epochs=30, batch_size=32, validation_data=(X_test, y_test))# 评估模型
test_loss, test_mae = model.evaluate(X_test, y_test)
print(f"Test Loss: {test_loss}")
print(f"Test MAE: {test_mae}")# 绘制训练过程中的损失和 MAE 曲线
import matplotlib.pyplot as pltplt.figure(figsize=(12, 6))# 绘制损失曲线
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Val Loss')
plt.title('Loss over Epochs')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()# 绘制 MAE 曲线
plt.subplot(1, 2, 2)
plt.plot(history.history['mae'], label='Train MAE')
plt.plot(history.history['val_mae'], label='Val MAE')
plt.title('Mean Absolute Error over Epochs')
plt.xlabel('Epochs')
plt.ylabel('MAE')
plt.legend()plt.tight_layout()
plt.show()

训练完成后,我们打印了测试集上的损失(Loss)和 MAE(Mean Absolute Error)结果,帮助我们了解模型的表现。

未来展望

  • 模型进一步优化:

可以尝试使用其他先进的模型架构,如 TCN(时序卷积网络)或 GRU(门控循环单元),以提高预测精度。

  • 超参数调整: 通过网格搜索或随机搜索来调整模型的超参数,以达到更好的预测效果。

  • 多任务学习: 该模型还可以扩展为多任务学习,用于解决多个相关的时序预测任务。

通过这样的深度学习模型,可以有效地捕捉时序数据中的复杂模式,提升预测的准确性。

 

相关文章:

  • hybird接口
  • 从 MDM 到 Data Fabric:下一代数据架构如何释放 AI 潜能
  • TS 泛型
  • Springboot之maven依赖管理
  • 【Vue】组件自定义事件 TodoList 自定义事件数据传输
  • 第八章--图
  • 在 Ubuntu 下使用 ESP-IDF 通过串口烧录 ESP32
  • 【日撸 Java 三百行】Day 3(注释,基本if语句,函数调用)
  • C++编程语言:从高效系统开发到现代编程范式的演进之路
  • 对标研华ECU-461,搭载飞腾4核/8核国产处理器, 提供8网 8串B码对时 双显 无风扇的ARM通信管理平台
  • 优势演员-评论家A2C详解:python从零实现
  • Cyber Weekly #54
  • 小程序问题(记录版)
  • spring详解-循环依赖的解决
  • 如何通过代理 IP 实现异地直播推流
  • 荣耀A8互动娱乐组件部署实录(第1部分:服务端环境搭建)
  • Android开发-工程结构
  • HarmonyOS基本的应用的配置
  • 编程日志4.25
  • Messenger.Default.Send 所有重载参数说明
  • 刘诚宇、杨皓宇进球背后,是申花本土球员带着外援踢的无奈
  • 六大车企一季报:比亚迪近92亿净利稳居第一,多家车企营收下滑
  • 娱见 | 为了撕番而脱粉,内娱粉丝为何如此在乎番位
  • “模”范生上海,如何再进阶?
  • “五一”假期余额不足两天,多地景点已约满、限流
  • 韩国代总统、国务总理韩德洙宣布辞职