当前位置：首页 > news >正文

脑电模型实战系列：进入序列世界-用LSTM处理脑电时序数据

news 2025/9/26 11:56:21

大家好！欢迎来到《脑电情绪识别模型实战系列：从新手到高手》的第四篇实战博客。上篇我们探讨了model_3.py，一个带Dropout的全连接网络，通过层级递减和正则化将验证准确率提升到88-92%。今天，我们迈入序列模型领域，聚焦model_4.py，这是一个简单的LSTM网络，用于处理脑电数据的时序特性。

为什么这个模型标志着“进入序列世界”？前三篇的全连接模型（Dense）将EEG数据扁平化处理，忽略了时间维度，导致对脑电信号的动态模式捕捉不足。LSTM（Long Short-Term Memory）作为RNN的一种变体，能记住长期依赖，完美适合脑电的时序数据。我们会从全连接过渡到RNN，解释输入形状(40,101)，讨论LSTM vs. Dense的优势，并通过逐行注解和模拟数据分析代码链路。如果你已掌握前篇，这篇将带你理解时序建模的魅力！

从全连接过渡到RNN：为什么需要序列处理？

前篇的全连接模型（如model_3.py）将数据reshape成(样本,4040)的扁平向量，简单高效，但脑电信号是时序的：每个试验的EEG数据有时间演变（e.g., 40通道在时间上的变化）。全连接忽略了“顺序”，容易丢失情绪动态（如从平静到兴奋的过渡）。

RNN（Recurrent Neural Network）通过循环结构处理序列，LSTM是其改进版，解决梯度消失问题（用门控：遗忘门、输入门、输出门）。在脑电情绪识别中，LSTM能捕捉时间依赖：例如，早期脑波影响后期情绪标签预测。

LSTM vs. Dense的优势：

捕捉时间依赖：Dense是静态的，每个输入独立；LSTM有隐藏状态（memory cell），能“记住”序列历史。脑电数据如(40,101)：40时间步（e.g., 40个时间窗），101特征（e.g., 频域/统计值），LSTM逐步处理，输出综合序列信息。
优势示例：Dense可能将所有特征平均对待；LSTM能学习“前10步的低频波预示高valence”。
缺点：计算密集（序列长时慢），但本模型简单（单层LSTM 10 units），epochs仅10，易上手。

结果：acc~80-85%（因epochs少），但序列捕捉让val acc优于同等Dense ~5%。

输入形状(40,101)解释：脑电数据的时序表示

DEAP数据原始(40试验,40通道,8064样本)，经main.py特征工程成(32被试,40试验,40通道,101特征)。load_data_2d预处理成(1280样本,40,101)：每个样本是(40时间步,101特征向量)。

40：可能代表40个时间窗或通道（序列长度）。
101：每个步的特征（均值、方差、FFT功率等）。
为什么这样？脑电是序列信号，(40,101)保留时序，而非扁平4040维。LSTM输入(batch, timesteps, features) = (128,40,101)。

示例：一个样本[ [f1_t1, f2_t1, ..., f101_t1], [f1_t2, ...,], ..., [f1_t40, ...] ]，LSTM从t1到t40逐步更新状态。

实现流程：从数据到模型的全链路

实现model_4.py的流程如下（便于复现）：

环境准备：安装TensorFlow/Keras，运行main.py生成outfile1/2.npy，确保data.py的load_data_2d可用。
数据加载与预处理：调用load_data_2d，reshape成(1280,40,101)，标签one-hot。
模型构建：Sequential添加LSTM+Dense。
编译与训练：Adam优化器，categorical_crossentropy损失，fit_generator 10 epochs。
验证与可视化：评估val_acc，绘制accuracy曲线。
调试与优化：调整units或epochs，分析序列效果。

用时：准备10min，训练2-5min（epochs少，RTX 3060）。

数据预处理：load_data_2d详解

model_4.py用load_data_2d（data.py），处理成2D序列。模拟数据：data=np.random.rand(2,40,40,101)（2被试），labels=np.random.randint(0,2,(2,40))。实际：1280样本。

代码片段（逐行注解，摘自data.py）：

python

from random import seed  # 导入随机种子
import tensorflow as tf  # 导入TensorFlow
import numpy as np  # 导入NumPy
from sklearn.model_selection import train_test_split  # 导入划分函数seed = 7  # 固定种子
np.random.seed(seed)def preprocess_2d(x, y):  # 预处理函数"""(32,40,40,101)->(1280,40,101)示例：x=(2,40,40,101)→(80,40,101)，y=(2,40)→(80,2)"""x = tf.cast(x, dtype=tf.float32)  # 转float32，示例：随机数组保持精度x = tf.reshape(x, [-1, 40, 101])  # 重塑为(样本, timesteps, features)，示例：(80,40,101)，40步，每步101维y = tf.reshape(y, [-1])  # 标签扁平，示例：(80,)y = tf.cast(y, dtype=tf.int32)  # 转int32y = tf.one_hot(y, 2)  # one-hot，示例：(80,2)return x, ydef load_data_2d(batch_size=128):  # 加载数据'''返回Dataset，示例：train_db~1024样本，每个(40,101)'''data = np.load('outfile1.npy')  # 加载EEG，示例：(2,40,40,101)valence_labels = np.load('outfile2.npy')  # 加载标签，示例：(2,40)data_train, data_test, valence_labels_train, valence_labels_test = train_test_split(data, valence_labels, test_size=0.2, random_state=seed)  # 划分train_db = tf.data.Dataset.from_tensor_slices((data_train, valence_labels_train))  # 创建Datasettrain_db = train_db.batch(batch_size).map(preprocess_2d).shuffle(10000)  # 批处理、预处理、打乱，示例：x=(128,40,101),y=(128,2)test_db = tf.data.Dataset.from_tensor_slices((data_test, valence_labels_test))test_db = test_db.batch(batch_size).map(preprocess_2d)return train_db, test_db

为什么这样？保留(40,101)序列，让LSTM处理时序；不同于1D的4040维扁平。

代码逐行解析：构建和训练model_4.py

核心链路：加载数据 → Sequential(LSTM+Dense) → compile → fit → plot。LSTM(10 units)简单，处理序列。

模拟数据：x=np.random.rand(4,40,101)（4样本），y=np.array([[1,0],[0,1],[1,0],[0,1]]）。LSTM逐步更新隐藏状态，最终输出[4,10]→Dense[4,2]。

完整代码（逐行注解）：

python

from data import load_data_2d  # 导入2D加载函数
import tensorflow as tf  # 导入TF
import matplotlib.pyplot as plt  # 导入绘图train_db, dev_db = load_data_2d(128)  # 加载Dataset，示例：x=(128,40,101),y=(128,2)### tf.keras构建卷积神经网络（LSTM结构） #### 构建模型
model = tf.keras.Sequential([  # Sequential堆叠tf.keras.layers.LSTM(units=10, input_shape=(40, 101)),  # LSTM层：10隐藏单元，输入(40步,101特征)，默认tanh激活，返回最后输出（非序列），示例：输入[1,40,101]→[1,10]（序列压缩成向量）tf.keras.layers.Dense(2, activation=tf.nn.softmax)  # 输出层：2单元，Softmax，示例：[1,10]→[1,2]概率
])# 输出网络结构
model.build((None, 40, 101))  # 构建，输入(None,40,101)，示例：(4,40,101)→(4,2)
model.summary()  # 打印，示例：参数~4k（小模型）model.compile(tf.keras.optimizers.Adam(0.001), loss=tf.keras.losses.categorical_crossentropy, metrics=['accuracy'])  # 编译：Adam(lr=0.001)，交叉熵损失，准确率指标，示例：loss计算pred vs label# 开始训练
history = model.fit_generator(train_db, epochs=10, validation_data=dev_db)  # 训练10轮，示例：acc从0.5升到0.8# 画图
history.history.keys()  # 检查键：'loss','accuracy','val_loss','val_accuracy'
plt.plot(history.epoch, history.history.get('accuracy'), label='accuracy')  # 训练acc曲线，示例：[0.5,0.55,...,0.8]
plt.plot(history.epoch, history.history.get('val_accuracy'), label='val_accuracy')  # 验证曲线
plt.legend()  # 图例
plt.show()  # 显示

逐行解释（补充示例）：

加载：2D Dataset，序列输入。
模型：LSTM处理序列，units=10小（入门）；Dense分类。LSTM内部：遗忘/输入/输出门控制状态更新。
build/summary：参数少~4k，高效。
compile：Adam适合序列梯度；损失匹配one-hot。
fit_generator：10 epochs短，快速见效。
plot：可视化收敛。

运行结果：验证模型与可视化

我用RTX 3060运行（~2-5min）。DEAP上，train acc~85%，val acc~80-85%（序列优势，优于同epochs Dense ~75%）。

验证结果：

评估：model.evaluate(dev_db)，val acc~0.82，loss~0.4。示例：256测试，~210正确。
混淆矩阵：类似前篇，用predict和confusion_matrix，示例：[[110,20],[15,111]]，精度~82%。
序列效果：val acc高于扁平模型，证明时间依赖捕捉。

可视化：添加EarlyStopping（调试）：

python

from tensorflow.keras.callbacks import EarlyStopping
early_stop = EarlyStopping(monitor='val_loss', patience=2)
history = model.fit_generator(..., callbacks=[early_stop])  # 示例：早停于epoch 8
# plot如上

结果图：蓝线train升，橙线val跟，10 epochs趋稳。