PSDNorm:面向睡眠分期的时间归一化新范式
在多中心睡眠脑电(EEG)研究中,模型往往在一个数据集上表现良好,却在另一中心的病人上性能骤降。
造成这一现象的“域偏移(Domain Shift)”问题,正是 ICLR 2026 投稿论文《PSDNorm: Temporal Normalization for Deep Learning in Sleep Staging》所要解决的核心。
一、研究背景
在睡眠分期任务中,模型需要从 EEG 等生理信号中识别 Wake、N1、N2、N3、REM 等睡眠阶段。
但由于采集设备、受试人群、采样率等差异,不同中心的数据分布存在显著偏移。
传统的归一化方法(如 BatchNorm、LayerNorm、InstanceNorm)虽然在视觉或语音领域表现优异,但在 EEG 这种强时序相关信号上并不适用:
- BatchNorm 忽略了时间相关性;
- LayerNorm 在跨通道归一化时丢失了时间结构;
- InstanceNorm 假设样本独立同分布,无法处理信号的自相关特性。
作者指出,这些归一化层在时间维度上是“盲”的,无法感知信号的周期性与功率谱密度(Power Spectral Density, PSD)特征,因此在跨域泛化时效果有限。
二、核心方法:PSDNorm 层
论文提出的 PSDNorm(Power Spectral Density Normalization) 是一种可直接插入网络的归一化层,
核心思想是在时频域上对特征图进行“功率谱对齐”,让模型学习到 域不变的时序统计结构。
✳️ 1. 核心思想
与其在时域中简单做零均值单位方差标准化,PSDNorm 选择在频域中执行以下步骤:
- 估计特征图的功率谱密度 (PSD):通过 Welch 方法计算每个通道的频谱;
- 计算批次的 Wasserstein 均值(Riemannian barycenter):得到当前 batch 的平均频谱分布;
- 执行 Monge 映射 (Monge Mapping):利用最优传输理论,将每个样本的 PSD 对齐至该均值;
- 生成过滤器 Ĥ 并在频域中归一化特征图,从而抑制域间分布差异。
这一过程不仅考虑信号的能量分布,还保留其时间自相关结构。
✳️ 2. 公式描述
G~(j)=M∗f(G(j)−μ^(j)1∗ℓT,P^) \tilde{G}^{(j)} = \mathcal{M}*f(G^{(j)} - \hat{\mu}^{(j)} 1*\ell^T, \hat{P}) G~(j)=M∗f(G(j)−μ^(j)1∗ℓT,P^)
其中:
- ( hatPhat{P}hatP):当前批次的 PSD 重心;
- ( mathcalMf(⋅)mathcal{M}_f(\cdot)mathcalMf(⋅) ):基于 Monge 映射的归一化函数;
- ( fff ):控制时间相关性范围的滤波参数(典型取值 1~17)。
当 ( fff=1 ) 时,PSDNorm 退化为普通的 InstanceNorm。
✳️ 3. 层内流程概览(训练阶段)
输入特征图 G → PSD 估计 → 批次 PSD 均值↓
计算运行中 Riemannian 重心 → 生成频域滤波器 Ĥ↓
Monge 映射归一化输出 G̃
伪代码如下:
三、实验与结果
🧪 数据与设置
论文在 10 个大型睡眠分期数据集 上进行验证,包括:
SHHS、MASS、CHAT、SOF、MROS、CFS、CCSHS、HPAP、ABC、PHYS
共计 10,000+ 被试、14,000+ 夜次、千万级样本,使用 leave-one-dataset-out (LODO) 评估方案。
基线方法涵盖:
- 传统归一化:BatchNorm / LayerNorm / InstanceNorm
- 预处理方法:Temporal Monge Alignment (TMA)
📊 主要结果(摘要)
方法 | LODO 准确率 (%) | 数据效率 | 说明 |
---|---|---|---|
BatchNorm | 80.2 | 1× | 常见基线 |
LayerNorm | 79.8 | 1× | 无时序建模 |
TMA (预处理) | 82.1 | 2× | 仅离线对齐 |
PSDNorm (本文) | 84.7 | 4× 更高数据效率 | 在线频谱对齐 |
结论:在相同架构下,PSDNorm 显著提升跨域泛化性能,且在仅使用 25% 训练数据时,性能可匹敌完整 BatchNorm 训练。
四、作者主要贡献
- 🚀 提出 PSDNorm:首个可嵌入网络、基于功率谱对齐的时序归一化层。
- 🧠 理论上将 Monge 最优传输 与 Riemannian 流形均值 引入神经网络归一化。
- 🔬 在 10 个真实临床数据集上实现 跨域 SOTA 泛化性能。
- ⚙️ 提供可直接替换 BatchNorm 的模块实现,计算复杂度 O(Ncℓf log f)。
- 💡 实验显示该方法 无需重训练即可提升测试域鲁棒性。
五、启发与思考
✴️ 启发 1:从时间到频率的归一化视角
PSDNorm 将“归一化”从时域转移到频域,使模型对 频谱能量差异 不敏感,
这对跨设备、跨人群 EEG 建模尤其关键。
✴️ 启发 2:域泛化可从网络层级解决
相较 SleepDG、SleepDIFFormer 等通过损失函数或对抗学习对齐特征的方案,
PSDNorm 将“域对齐”直接嵌入到网络结构层面,提升可复用性与可部署性。
✴️ 启发 3:跨域 EEG 的统一基准方向
该研究展示了统一处理多数据源 EEG 的潜力,为未来“全球化 PSG 模型”提供基础组件。
六、总结
PSDNorm 通过频谱域的归一化策略,在不改变模型结构的前提下显著增强跨域泛化能力。
它不仅是一种“归一化层”,更是一种 隐式的时频对齐机制。
未来可结合 Transformer 或 Domain-Generalization 框架(如 SleepDG、SleepDIFFormer)进一步提升鲁棒性。
一句话总结:
PSDNorm 把“BatchNorm 的统计标准化”升级为“时间—频率域的分布对齐”,
让深度学习模型在多中心睡眠 EEG 中学会“听懂同一种脑电语言”。