当前位置：首页 > news >正文

Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains

news 2025/10/10 4:52:11

这篇论文标题为《Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains》，核心目标是提升糖尿病视网膜病变（Diabetic Retinopathy, DR）分级模型在“未见过的新域（unseen domains）”中的泛化能力，也就是解决领域泛化（Domain Generalization, DG）问题。

一、全文讲了什么？

1. 研究背景

DR 是导致全球失明的主要原因之一，早期准确分级有助于干预治疗。

尽管深度学习在DR自动分级中表现良好，但其在临床实际部署时会受到域间分布差异（如图像质量、风格、设备、标注偏差等）的严重影响。

2. 问题定义与三类挑战

论文指出，之前方法多只考虑简单视觉差异（如颜色、亮度），但实际泛化失败的根本原因还包括三类更复杂的挑战：

视觉与图像退化风格偏移（Style & Degradation Shift）

诊断模式多样性（Diagnostic Pattern Diversity）

数据不平衡（Domain-Class Imbalance）

3. 提出方法：GDRNet 框架

论文提出一个统一的新方法 GDRNet（Generalizable Diabetic Retinopathy Grading Network），包含三个核心模块：

FundusAug（视网膜图像伪影增强）：对图像进行增强（如亮度、色调、模糊、斑点等），增加训练图像的多样性以适应新域。

DahLoss（动态混合监督损失）：结合监督学习与对比学习，保持类内差异性（intra-class variation）并强化像素级诊断信息。

DCR（领域-类别感知的重加权）：通过软加权方式，解决某些类别/域样本数量少导致训练偏移的问题。
在这里插入图片描述

4. 实验验证与基准构建

作者构建了一个名为 GDRBench 的领域泛化基准，包含 8 个公开数据集。

实验包括两个设定：

DG测试（多源训练、单域测试）
在这里插入图片描述

ESDG测试（单源训练、多域测试）
在这里插入图片描述

GDRNet 在 AUC、Accuracy、F1 等指标上在两个设定中均超过所有对比方法。

二、创新点总结

论文的三大创新点可以归纳如下：

提出三重泛化挑战

首次系统性提出领域泛化失败不仅是视觉差异造成的，而是：

视觉&退化风格偏移

诊断模式多样性

域-类别数据不平衡

这一多因素分析为后续设计提供理论依据。

设计统一的三模块泛化增强框架 GDRNet

对应上面三类挑战，GDRNet 由以下创新组件组成：

FundusAug：首个系统结合图像风格+退化特征的视网膜增强模块（亮度、色调+斑点、模糊、光晕等）。

DahLoss：结合交叉熵监督和实例对比损失的混合损失，动态调整其比重，引导模型兼顾类别判别性与局部病灶保留。

DCR：引入 soft 软权重的领域-类别联合重加权方法，避免稀有样本过度放大或忽略。

建立完整的领域泛化评估基准 GDRBench

构建了包含 8 个常用DR公开数据集的泛化评估基准（DG 和更极端的 ESDG 设置），公布代码和数据集组合配置，为后续研究提供标准化平台。

背景与动机
以往的 DR（Diabetic Retinopathy）研究往往只在单一数据集或简单组合上进行评估，不能真实反映模型在“未见过的真实临床域”中的泛化能力。例如：训练集和测试集图像质量类似；来源医院相同或设备类似；不涉及跨地域、跨人群、跨成像标准的数据偏移。
但在真实世界部署中，算法常遇到全新医院、不同设备甚至不同种族人群拍摄的图像，因此，需要一个标准、开放、广泛覆盖的跨域评估平台。
GDRBench 的设计与组成
GDRBench 是作者首次提出的用于领域泛化的糖网病分级评估基准，包括来自中国、印度、美国、法国、阿联酋等地的 DR 数据。
设置两种评估模式：

模式名称	说明
DG 测试**（Domain Generalization）	多源训练，单域测试（留一个域为目标，其余训练）
ESDG 测试（Extreme Single-Domain Generalization）	更严格，只用一个数据集训练，测试模型能否泛化到剩余所有数据集（如用 DeepDR 训练，测 EyePACS、Messidor 等）

支持三大评价指标：AUC（曲线下面积）、Accuracy（准确率）、F1 Score（宏平均）

实验价值与实证优势
（1）GDRBench 涵盖了不同成像质量、诊断模式、类别比例分布、国家地域背景，代表了现实中的高维异构性；
（2）实验结果证明：在 GDRBench 上，多数现有模型（如 MixStyle、Fishr）都会在 ESDG 下显著性能下降；
（3）GDRNet 在两个设置（DG 和 ESDG）中均优于所有 baseline，验证了评估基准的挑战性与模型的稳健性。

查看全文

http://www.dtcms.com/a/257854.html