当前位置: 首页 > news >正文

基于目标导向扩散模型与影响函数的EHR数据生成方法

目录

一、理论支撑:扩散模型基础

​​1.前向过程​​

​​2. 反向过程​​

二、TarDiff方法框架

1. ​​影响函数的定义​​

2. ​​梯度引导的逆向扩散​​

3. ​​实施流程​​

三、实验验证与性能分析

1. ​​数据替代测试(TSTR)​​

2. ​​数据增强测试(TSRTR)​​

3. ​​处理类别不平衡的能力​​

4. ​​生成样本可视化对比​​

四、计算效率分析

五、结论与贡献


文献名称:Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation

作者:Bowen Deng , Chang Xu , Hao Li , Yuhao Huang , Min Hou , Jiang Bian

发表会议:2025KDD

电子健康记录(EHR)数据蕴含着巨大的医疗价值,然而传统生成模型在合成此类数据时,通常侧重于学习其​​统计分布​​和​​时间依赖性​​,未能充分考虑生成数据对​​下游任务性能​​的优化作用。EHR数据普遍存在​​分布不均衡​​问题,传统生成模型仅基于数据分布合成样本,在遇到罕见病症时,由于缺乏对这些少数模式的学习,生成能力受限。此外,尽管传统方法能够保证生成数据的​​统计保真度​​,却难以确保其在特定下游任务(如疾病预测或分类模型)中带来性能提升。

针对上述局限性,本研究将合成数据生成的指导思想从传统的“​​保真度优先​​”转变为“​​效用性优先​​”。我们引入了“​​影响函数​​”(Influence Function)的概念,用以生成能显著提升下游任务性能的样本,特别是对改善模型在​​少数类样本​​上表现至关重要的数据。本文提出的​​TarDiff​​(Target-oriented Diffusion)框架,其核心思想是将数据生成的目标从单纯模仿数据分布,转化为​​优化生成数据在下游任务中的性能​​。它通过影响函数量化引入新生成样本后下游任务损失的减少量,并将该影响梯度作为引导信号注入到反向去噪过程,从而生成能更好提升下游任务性能的样本。

一、理论支撑:扩散模型基础

扩散模型包括前向加噪和反向去噪两个过程.

​​1.前向过程​​

逐步向数据中添加高斯噪声。设原始数据为x_{0}​,则在时间步t时有:

q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t \mathbf{I})

其中 βt​∈(0,1)是噪声调度参数。通过重参数化技巧,可写为:

x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})

这使得采样过程可导,便于梯度优化。

​​2. 反向过程​​

学习一个去噪模型:

p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(t))

通常固定方差,均值由神经网络预测。训练目标是最小化预测噪声与真实噪声之间的均方误差:

L(\theta) = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon_\theta(x_t, t) - \epsilon \|^2 \right]

条件扩散模型(如Classifier Guidance)可通过附加信息(如标签 y)引导生成:

\tilde{\mu}_\theta(x_t, y, t) = \mu_\theta(x_t, y, t) + \alpha \nabla_{x_t} \log p(y | x_t)

二、TarDiff方法框架

TarDiff的核心思想是:​​将生成目标从模仿数据分布转变为优化下游任务性能​​。通过影响函数量化合成样本对任务损失的影响,并以此指导扩散过程。

图1 影响指导扩散框架

1. ​​影响函数的定义​​

设下游任务 T的损失函数为 \ell_T,训练集为 \mathcal{D}_{\text{train}}。若加入合成样本 \hat{z} = (x, y),重新训练模型得到参数\phi^{\hat{z}},则其于指导集\mathcal{D}_{\text{guide}}上的损失变化为:

\Delta \mathcal{L}_T(\hat{z}) = -\mathbb{E}_{(x', y') \sim \mathcal{P}} \left[ \ell_T(x', y'; \phi^{\hat{z}}) - \ell_T(x', y'; \phi^*) \right]

目标为生成使 ΔLT​(z^)最大的样本。

2. ​​梯度引导的逆向扩散​​

在每一步去噪中,TarDiff 不仅依赖标签条件,还引入影响梯度作为引导:

\tilde{\mu}_{\theta}(x_{t}, y, t)=\mu_{\theta}(x_{t}, y, t)+\alpha \nabla_{x_{t}} \Delta \mathcal{L}_{T}

其中\hat{z}_{t}=(x_{t}, y)。通过链式法则与梯度缓存机制,实际计算时使用:

J=\nabla_{x_{t}}\left[G \cdot \nabla_{\phi} \ell(x_{t}, y ; \phi^{*})\right]

其中G = -\sum_{(x',y') \in \mathcal{D}_{\text{guide}}} \frac{\varepsilon \cdot \nabla_{\phi} \ell(x', y'; \phi^{*})}{\|\nabla_{\phi} \ell(\hat{z}; \phi^{*})\|^{2}}是指导集梯度的聚合向量。

3. ​​实施流程​​

TarDiff 分为三个阶段:

​​Stage 1:预训练下游模型​​

\mathcal{D}_{\text{train}}上训练任务模型f_{\phi},得到最优参数\phi^{*}

​​Stage 2:计算影响梯度​​

对指导集\mathcal{D}_{\text{guide}}​中每个样本计算梯度g_i = \nabla_{\phi} \ell(x_i, y_i; \phi^{*}),聚合并归一化得到 G。

​​Stage 3:引导扩散采样​​

在逆向扩散的每一步中,计算引导项J,更新均值:

\tilde{\mu}_t = \mu_t + w \cdot J

采样x_{t-1} \sim \mathcal{N}(\tilde{\mu}_t, \Sigma_{\theta}(t)),最终得到合成样本\hat{z} = x_0

三、实验验证与性能分析

TarDiff 在六个公开医疗数据集(包括 MIMIC-III、eICU 及多种生理信号数据集)上进行了评估,结果显示其在不同下游任务(如死亡率预测、ICU 停留时间预测)中均达到最先进性能。

1. ​​数据替代测试(TSTR)​​

模型仅使用合成数据训练,在真实测试集上评估。验证合成数据能否代替真实数据进行训练。

Method

MIMIC-III Mortality (AUROC)

eICU Mortality (AUROC)

TimeGAN

0.5144

0.6238

Real Data

0.6350

0.6869

​​TarDiff​​

​​0.6373​​

​​0.6308​​

表1 MIMICIII和eICU数据集上合成数据生成方法的性能比较

TarDiff 合成数据训练出的模型性能接近甚至超过使用真实数据训练的基线。

2. ​​数据增强测试(TSRTR)​​

将合成数据与真实数据按不同比例混合训练模型,验证合成的数据对训练效果的提升能力(即数据增强能力)。TarDiff 在多数比例下均优于基线方法。

图2 MIMIC-III与eICU数据集死亡率及ICU停留时间预测的AUROC比较

3. ​​处理类别不平衡的能力​​

梯度分析表明,少数类样本的梯度范数显著大于多数类(如表3所示)。TarDiff 通过影响引导自然聚焦于少数类,无需额外加权机制即可提升其分类性能:

Guidance Type

MIMIC-III Minority F1

All Samples

0.108

Minority-only

​​0.163​​

Majority-only

0.066

表3  具有类别特定指导的少数类F1

4. ​​生成样本可视化对比​​

下图展示了不同方法生成的正负样本对比,TarDiff 生成的序列在形态学和趋势上更接近真实数据:

图3 eICU上不同方法生成的ICU-Stay阴性样本可视化

四、计算效率分析

尽管引入了梯度引导机制,TarDiff 的额外计算开销主要集中于:

一阶段:下游模型训练与梯度缓存(10–167秒,依赖数据集规模);

采样阶段:每步仅增加 lightweight的向量运算,整体采样速度仍优于多数扩散基线方法(如 BioDiffusion、DiffusionTS)。

五、结论与贡献

TarDiff 通过将​​影响函数​​与​​条件扩散模型​​相结合,成功实现了从“保真度驱动”到“效用驱动”的生成范式转变。其不仅能生成高质量、高保真的医疗时间序列数据,还能显著提升下游临床任务的性能,特别是在处理类别不平衡和罕见病例识别方面表现突出,并为隐私保护下的数据共享提供了新思路。

http://www.dtcms.com/a/396288.html

相关文章:

  • 公司网站怎么优化电商网站设计工作内容
  • 网站建站公司有必要做吗互联网产品运营推广方案
  • ansible安装与模块使用
  • 网站建设分金手指专业二五wordpress主题no.7
  • 免费关键词挖掘网站柳州市住房建设保障网
  • 想用好 AI 辅助编程,什么最重要?
  • 福州省建设局网站成都三合一网站建设
  • 河北省建设工程网站建设银行个人网站
  • 关于组件封装
  • 德国购物网站大全wordpress空间服务器
  • 应持续抓好二级网站的建设工作免费制作永久个人网站
  • 【Linux网络编程】数据链路层 高级IO模型
  • 网站怎么做下拉刷新合肥仿站定制模板建站
  • 程序员做项目网站关于中秋节网页设计实训报告
  • 16.Linux RAID 存储技术
  • 网站摇奖活动怎么做只做特卖的网站
  • LLM安全基础入门:揭开大模型安全的面纱
  • 响应式外贸网站案例做公众号主页面的有哪些网站
  • 建企业网站需要多少钱网站建设摊销会计分录
  • 手机与pc的网站开发中国好公司网站建设
  • 网站建设公司好哪家好免费网站推广工具有哪些
  • 无锡外贸网站制作宜城网站定制
  • 数据图表展示网站茶叶 企业 网站建设
  • 南京建设工程网站石家庄营销推广网站
  • 太原网站制作最新招聘信息宿迁哪里做网站
  • 如何介绍设计的网站模板广州互联网网站建设
  • 静态网站怎么维护局网站内容建设考核
  • 麻城建设网站浙江城乡建设局和住建局
  • 手机开发商东莞优化哪家好
  • LVS负载均衡技术全解析