VMD-LSTM模型在医疗时序数据处理中的降噪与预测优化研究
摘要
电子病历时序数据具有高噪声、非平稳特性,现有模型处理此类数据存在显著局限性。本文提出VMD-LSTM混合模型,采用“分解-预测-集成”框架:通过变分模态分解(VMD)将原始数据分解为平稳的本征模态函数(IMFs),结合参数自适应优化提升处理效果。核心结果显示,与单一LSTM(RMSE=0.86,MAE=0.62)和EMD-LSTM(RMSE=0.63,MAE=0.45)相比,VMD-LSTM取得最优预测精度(RMSE=0.51,MAE=0.38)。该模型为ICU患者风险评估提供高精度时序分析工具,具有重要临床转化价值。
引言
随着全球医疗信息化建设的深入推进,电子病历(Electronic Health Record, EHR)作为医疗数据的核心载体,已成为现代医院管理体系的重要组成部分。根据国家卫生健康委员会统计数据,截至 2023 年底,我国三级医院电子病历应用水平分级评价中,达到 5 级及以上的医院占比仅为 32.6%,二级医院及基层医疗机构的数据结构化程度、信息整合能力与临床决策支持需求之间存在显著差距。传统电子病历系统普遍面临数据孤岛、非结构化文本占比超 70%、信息检索效率低、临床决策辅助能力不足等痛点,难以满足“健康中国 2030”战略下对精准医疗、分级诊疗及医疗质量提升的要求[1]。以北京市公共数据开放平台为例,其收录的 165000 余条病程记录印证了 EHR 的规模化应用价值,但医疗时序数据的非线性、非平稳特性与噪声干扰,导致传统分析方法面临严峻挑战。
医疗时序数据处理的核心难点体现在三个方面:一是经验模态分解(EMD)存在高达 30% 的模态混叠率,无法有效分离复杂信号成分;二是线性模型(如自回归模型、滑动平均模型)难以捕捉数据中的非线性关系,在长时间跨度或多维度数据场景下预测效果显著下降;三是单一长短期记忆网络(LSTM)对高噪声数据的特征提取效率不足,无法充分挖掘多尺度时序依赖[1][2][3]。
针对上述问题,本研究提出变分模态分解 - 长短期记忆网络(VMD - LSTM)混合模型框架。变分模态分解(VMD)作为先进的信号处理技术,能够有效分解复杂信号、抑制噪声,实现频谱分离度 > 20%,揭示信号的多尺度特征;LSTM 则在序列数据建模,尤其是捕捉长期依赖关系方面表现卓越[3][4][5]。二者的融合可充分发挥信号处理与深度学习的协同优势,通过“分解 - 预测 - 重构”流程应对医疗时序数据的高噪声、强非平稳挑战。
本研究的具体目标包括:①构建自适应 VMD 参数优化框架,提升信号分解的鲁棒性;②实现多模态医疗时序数据融合,整合结构化临床指标与非结构化笔记信息;③验证模型在 30 天死亡率预测中的效能,为临床决策提供量化支持。方法部分将重点推导 VMD 变分优化公式及 LSTM 注意力机制改进,通过数学建模与网络结构优化,进一步提升模型的降噪精度与预测性能。
相关工作
医疗时序数据降噪方法研究
医疗时序数据降噪技术历经多代发展,传统方法、深度学习方法与模态分解方法在适应性与局限性上呈现显著差异。传统方法中,数字滤波器通过频域处理实现降噪,但存在频带混叠问题;小波阈值法虽具备局部时频分析能力,却受限于阈值与小波基选择的主观性;经验模态分解(EMD)通过递归分解提取内禀模态函数(IMF),但易产生模态混叠与虚假分量,难以满足非平稳医疗信号的处理需求[6]。
深度学习方法通过数据驱动建模提升降噪智能化水平。例如,VMD-LSTM噪声处理框架先利用变分模态分解(VMD)将原始信号拆解为多频段成分,再通过LSTM网络动态识别强干扰噪声并抑制,实现噪声与有效信号的自适应分离[7]。此类方法依赖大规模标注数据训练模型,在低数据场景下泛化能力受限。
模态分解方法是当前研究热点,其中EMD、集合经验模态分解(EEMD)及自适应噪声完备集合经验模态分解(CEEMDAN)等通过模态分量提取关键信息,但仍未完全解决模态混叠问题[8]。VMD作为改进技术,通过变分优化框架实现自适应频带划分,突破傅里叶变换局限性,在非线性非平稳信号处理中表现突出:其分解精度可达98.2%,且能有效防止模态混叠,较EMD在心率(HR)和呼吸速率(RR)估计精度上分别提升2.7和5.2个百分点[9][10]。
VMD核心优势体现在三方面:一是通过预设模态数(k)和惩罚参数(α)控制分解过程,较EMD的递归机制更具稳定性[6];二是结合智能优化算法(如改进浣熊优化算法ICOA)搜索最优参数,提升噪声抑制效率,例如ICOA-VMD算法可精准重构心跳信号[11];三是在极端噪声场景下仍保持高性能,如77 GHz雷达检测中,人体20 cm幅度晃动时,VMD优化算法的RR和HR估计精度仍可达97.7%和96.9%[10]。
2025年技术演进中,混合降噪策略成为趋势。两阶段VMD结合噪声补偿技术解决同频干扰,VMD-PE-SG方法通过排列熵(PE)区分信号/噪声主导分量,在卫星原子钟信号处理中较EEMD的信噪比(SNR)提升21.2%[12][13]。这些进展推动VMD在ECG、EEG等医疗信号降噪中的规模化应用,为后续预测模型提供高质量数据输入[14][15]。
时序预测模型在医疗领域的应用
时序预测模型在医疗健康领域已实现多场景深度渗透,涵盖生理指标监测、疾病风险评估、临床决策支持等关键环节,其技术演进路径呈现从单一算法到混合模型的跨越,逐步破解医疗时序数据非平稳性、高噪声、多变量耦合的复杂特性。
技术演进与模型创新
医疗时序数据的非平稳性与动态复杂性对传统预测方法构成挑战。早期模型多依赖单一机器学习算法(如ELM),难以捕捉生理信号的非线性动态特征[16]。随着深度学习技术的发展,LSTM 及其变体(如 GRU) 凭借门控机制实现长序列依赖关系建模,在电子病历(EHR)分析中展现出突出优势,可精准捕捉心率、呼吸率等生命体征的时序趋势[10][17]。例如,基于 EHR 数据的 LSTM 模型结合 LightGBM 算法,在谵妄发生预测任务中实现 AUC 0.952、F1 值 0.759 的性能,显著优于传统机器学习方法[17]。
为进一步解决非平稳时序数据的分解与降噪问题,混合模型成为技术突破方向。融合信号处理(如变分模态分解 VMD)、智能优化算法(如群智优化、麻雀搜索算法 SSA)与深度学习(如 LSTM)的复合架构,已广泛应用于医疗场景:VMD 可将复杂时序数据分解为若干平稳子序列,降低噪声干扰并凸显特征规律,再结合 LSTM 进行非线性映射,形成“分解-预测-集成”的完整范式[4][18]。例如,VMD-SSA-LSTM 模型在医疗健康监测中有效提升多变量时序预测精度[4],而 VMD-PLO-Transformer-LSTM 等更复杂的混合架构进一步拓展了医疗预测的应用边界[19]。
临床应用与量化性能
在生理指标预测领域,模型精度直接影响临床决策有效性。基于 PPG 信号的心率估计通过 VMD 降噪与隐马尔可夫模型(HMM)跟踪,实现不同距离常规环境下 95.40% 的平均检测精度[11];改进 VMD 算法在大规模随机人体运动场景中仍能精确估计呼吸率等生命体征参数[10]。血糖浓度预测方面,VMD 与群智优化 ELM 的融合模型通过信号分解与特征增强,显著提升短期预测精度[16],为糖尿病患者个性化干预提供依据。
疾病预测与电子病历分析中,时序模型展现出显著临床价值。LSTM 技术在电子病历系统中用于疾病风险预测与辅助诊断,结合 AI 辅助管理系统可提升文档处理效率 40% 以上,同时降低医疗差错率 15%-20%[1][20]。在意识障碍(DOC)患者诊疗中,EEG 信号经 VMD 处理后,可为意识水平评估提供客观依据,辅助预测潜在恢复可能性[15],体现时序模型在神经重症领域的转化潜力。
混合模型核心优势:通过 VMD 等信号分解技术破解非平稳数据难题,结合 LSTM 深度建模能力,混合模型在医疗时序预测中展现出三大特性:① 噪声鲁棒性,如 ICOA-VMD 方法对心率检测的抗干扰能力[11];② 多变量适应性,支持生命体征、实验室指标等多源数据融合[5];③ 动态追踪性,如 VMD-HMM 架构实现心率等参数的实时精准跟踪[12]。
泛化能力与临床转化
2025 年基于 VMD-DBO-LSTM 的多变量时序预测研究进一步验证了混合模型的泛化价值:其不仅适用于单一生理指标(如血糖、心率),还可拓展至多模态医疗数据(如 EHR 结合影像特征),通过动态模态分解与优化算法提升模型对个体差异的适应性[18]。这种“信号处理-深度学习-智能优化”的技术融合路径,为解决医疗数据异质性、样本不平衡等问题提供了通用框架,尤其在基层医疗资源有限场景下,可通过轻量化模型部署实现生命体征远程监测与疾病早期预警,推动精准医疗的普惠化发展[4][5]。
未来,随着可穿戴设备普及与多组学数据积累,VMD-LSTM 等混合模型有望在慢性病管理、围手术期风险评估等领域实现更深度的临床转化,其核心价值在于将复杂时序数据转化为可解释的临床决策支持证据,最终提升医疗服务的效率与质量。
混合模型设计策略
混合模型设计以“分解-预测-集成”为核心框架,通过变分模态分解(VMD)与深度学习模型的协同实现优势互补。VMD将复杂非平稳时序数据分解为多个本征模态分量(IMF),降低数据复杂度并分离噪声与有效信号;LSTM则凭借门控机制捕捉长时序依赖关系,二者结合形成高效预测范式[21]。
核心协同原理:VMD通过窄带模态分解(如ECG信号分解为VMFs)实现噪声隔离[22],LSTM对分解后的平稳分量进行时序建模,典型流程为“VMD分解→特征提取→LSTM预测→结果集成”[21]。
组件协同案例显示,VMD与深度学习结合可显著提升性能:VMD-CNN-BiLSTM融合VMD的模态分离、CNN的局部特征提取及BiLSTM的双向时序捕捉能力,提升多变量预测精度[23];VMD-SSA-LSTM引入麻雀搜索算法优化LSTM超参数,对各IMF分量独立预测后加权融合,增强模型稳定性[18][24]。医疗领域中,VMD-AF-GRU通过分解传染病序列并融合聚类重构子序列,提升预测准确度[25];VMD-TCN-BiLSTM-Attention则通过TCN与双向LSTM结合,有效捕捉多尺度医疗时序依赖[26]。
与OVMD-RDCNN-MKRVFLN等复杂模型相比,VMD-LSTM在高噪声、多周期医疗数据中具有独特优势:VMD的自适应分解特性(如通过中心频率设计小波滤波器组)可针对性去除ECG等信号中的窄带噪声[22],而LSTM对缺失值与非线性关系的鲁棒性,使其更适用于电子病历等不完整时序数据的建模需求,为医疗时序预测提供了轻量化且高效的解决方案。
方法
变分模态分解原理
变分模态分解(VMD)是一种非递归、自适应的信号分解技术,核心思想是将非线性非平稳信号分解为K个具有不同中心频率和有限带宽的内禀模态函数(IMF),通过频域优化实现模态的自适应分离,有效解决传统分解方法的模态混叠问题[6][27]。其数学本质是通过构建并求解变分问题,实现信号在频域的精细化划分,为后续特征提取和噪声抑制提供高质量输入[2][5]。
变分优化问题构建
VMD的核心目标是最小化各模态的带宽之和,同时满足所有模态重构原始信号的约束条件。目标函数的物理意义在于通过限制每个IMF的频率散布范围,使分解后的模态具有更集中的频谱特性,从而增强信号局部特征的可解释性[14][28]。约束条件则确保分解过程不丢失原始信号信息,保障模态组合的完整性[