当前位置: 首页 > news >正文

论文阅读 2025-9-13 论文阅读随心记

随便记录一下最近阅读的几篇论文

1. Does DINOv3 Set a New Medical Vision Standard?

第一章 动机 (Motivation)

自然图像领域的成功范式:大型语言模型(LLMs)和视觉基础模型(如 DINO 系列)证明,通过自监督学习(SSL)在海量无标注数据上进行预训练,可以学习到极其强大且通用的表征能力,并遵循显著的“缩放定律”(模型越大、数据越多,性能越好)。

医学影像领域的独特挑战:

  1. 数据稀缺与获取困难:医学数据标注成本极高,且受隐私、法规限制,难以构建大规模数据集。
  2. 模态极度多样化:包括 2D(X光、病理切片)、3D(CT、MRI)、灰度图、RGB图像等多种成像技术,每种都需要不同的视觉理解能力。
  3. 对细微特征敏感:诊断依赖于捕捉图像中微小、细微的异常模式,因此对视觉表征的质量要求极高。

核心矛盾与问题: 医学领域亟需一个强大的、现成的(off-the-shelf)视觉特征提取器,但受限于上述挑战,很难从头训练一个大规模医学视觉基础模型。那么,一个直接的问题是:在自然图像上训练出的顶尖模型,其能力能否直接迁移到医学领域? 这就引出了论文要探究的几个根本性问题。

第二章 论文基准测试设置 (Benchmark Setup)

1. 2D医学图像分类 (2D Medical Image Classification)

任务描述:处理二维平面图像进行诊断分类。
方法:直接将2D图像输入DINOv3编码器,获取图像级特征后进行线性分类或更复杂的下游训练。

使用的数据集与评估协议:

数据集模态内容与规模任务评估协议
NIH-14胸部X光112,120张图像,30,805名患者14种胸廓疾病的多标签分类严格遵守官方提供的患者划分
RSNA-Pneumonia胸部X光29,700张图像肺炎分类(二分类)遵循MGCA论文提出的标准化数据划分方法
Camelyon16病理WSI (RGB)399张淋巴结切片乳腺癌转移检测(肿瘤 vs. 正常)1. 官方划分(270训练/129测试)
2. 多折交叉验证 on test set
3. 在Camelyon17上测试泛化能力(跨中心)
Camelyon17病理WSI (RGB)多中心数据集,500张切片(100名患者)作为域外泛化测试集使用其官方训练集作为测试集(因官方测试标注未公开),评估从Camelyon16训好的模型在Unseen子集上的表现
BCNB病理WSI (RGB)1,058名患者的早期乳腺癌活检切片5项预测任务:
- 腋窝淋巴结(ALN)转移状态
- 分子状态(ER, PR, HER2, Ki67)
5折交叉验证,每折内按 7:1:2 划分训练/验证/测试集。使用CLAM方法提取图像块(~968 patches/WSI)

2. 3D医学图像分类 (3D Medical Image Classification)

  • 任务描述:对三维体积数据(如CT、MRI)进行整体分类。 核心方法:采用 “切片级特征提取 + 聚合” 策略:
  • 独立处理:将3D体积的每一个2D切片分别输入DINOv3 backbone,得到每个切片的特征嵌入(embedding)。
  • 特征聚合:将所有切片的特征通过平均池化(Mean Pooling) 聚合为一个代表整个体积的特征向量。
  • 下游分类:用聚合后的特征训练分类器。

使用的数据集与评估协议:

数据集模态内容与规模任务评估协议
CT-RATE非增强CT47,000个CT体积,20,000名患者18种临床异常的多标签二分类使用官方数据划分。采用两种下游评估方法:
1. 零样本 k-NN
2. 线性探测(Linear Probing)

3. 3D医学图像分割 (3D Medical Image Segmentation)

  • 任务描述:在三维体积数据上进行体素级的预测,以分割解剖结构或病变。
  • 核心方法:采用 “逐片特征提取 + 伪3D重构” 策略
  • 逐片处理:将3D体积的每一个2D切片分别输入DINOv3,并保留完整的2D特征图(而非图像级嵌入)。
  • 构建伪3D特征体积:将所有2D特征图沿切片方向堆叠,形成一个3D的特征体积
  • 轻量级分割头:将这个伪3D特征体积输入一个轻量的3D分割头(如UNet式 decoder),最终生成体素级预测。

使用的数据集与评估协议:

数据集模态内容与任务评估协议
Medical Segmentation Decathlon (MSD)CT, MRI10个不同的3D分割任务,涵盖脑肿瘤、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠官方评估平台已关闭,采用 5折交叉验证。遵循此前工作的标准协议(体积标准化、随机旋转/翻转等数据增强)
CREMI电子显微镜(EM)3个子集(A,B,C),难度递增,用于神经元分割每个子集:前100张切片训练,后25张测试
AC3/AC4电子显微镜(EM)两个密集标注的EM体积,用于神经元分割在AC4(前80切片)上训练,在AC3(前100切片)上测试 -> 测试域外泛化
AutoPET-IIPET/CT1,014个全身PET/CT扫描,用于肿瘤病灶分割使用官方划分的训练/验证集。强度标准化,使用随机旋转/翻转等数据增强
HECKTOR 2022PET/CT882个头颈部PET/CT扫描,用于原发灶(GTVp)和淋巴结(GTVn)肿瘤分割遵循官方挑战协议和预处理流程(图像配准、强度标准化)

实验baseline model设置

模型参数量预训练数据数据类型数据模态学习范式
BiomedCLIP86M1500万图像-文本对2D 图像-文本多样生物医学图像文本监督
CT-CLIP86M5万体积+报告3D 体积-文本胸部CT文本监督
UNI304M1亿图像块2D 图像块头部/腹部/胸部CT视觉自监督
CONCH86M117万 2D 块-文本对2D 块-文本病理学文本监督
DINOv3-S/B/L22M/86M/304M17亿自然图像2D 图像自然图像视觉自监督

第三章 实验结论分析

任务类别具体任务与数据集实验结论原因分析
2D分类胸部X光分类 (NIH-14, RSNA-Pneumonia)表现出色,确立新基线。DINOv3-L在NIH-14上AUC 0.7865,超越医学专用模型BiomedCLIP (0.7771)。在RSNA上与BiomedCLIP性能接近。DINOv3从自然图像中学到的物体结构和形状表征能力,与X光片中基于宏观结构异常进行诊断的模式高度吻合。
2D分类病理切片(WSI)分类 (Camelyon16, Camelyon17, BCNB)性能显著落后。AUC (~0.84) 远低于病理专用模型UNI和CONCH (AUC >0.96),仅与ResNet50相当。泛化能力差。病理分析依赖细粒度的纹理和细胞模式,与DINOv3关注的“物体”级特征不匹配。表明领域专业化预训练绝对必要
3D分类3D CT体积分类 (CT-RATE)性能卓越,显著超越基线。DINOv3-B (线性探测) AUC 0.798,显著高于专用基线CT-CLIP (0.731)。DINOv3的2D特征通过切片平均池化聚合后,能有效表征整个3D体积,捕捉与诊断相关的视觉模式。
3D分割多器官分割 (MSD)都是物体级别特征,表现尚可但平庸。为自监督方法设立新SOTA基线,但整体性能(71% Dice)远低于全监督nnU-Net (81.4% Dice)。在个别任务(肺、脾)上达到最佳。简单的“冻结主干+逐片处理”策略不足以击败端到端训练的复杂3D架构。但其强大的2D特征是一个“不错的起点”。
3D分割神经元分割 (EM: CREMI, AC3/4)灾难性失败。误差指标(VOI, ARAND)比经典方法高出十倍以上DINOv3特征缺乏高频纹理细节,无法描绘神经元间错综复杂的边界。自然图像与EM图像领域差距过大
3D分割肿瘤分割 (PET/CT: AutoPET-II, HECKTOR)性能极差。Dice分数极低(<15%),远低于现有模型(>50%)。DINOv3特征适用于解剖结构,但无法解读PET数据中的功能性代谢信息。这是与自然图像模式的根本性背离
缩放定律所有任务缩放定律不一致且不可靠。性能不随模型变大(S->B->L)或分辨率提高而单调增加。最佳模型规模因任务而异。自然图像与医学图像存在领域差距。简单地堆砌计算资源不能解决所有问题,必须为不同任务仔细选择模型规模和分辨率

2. Training Language Models to Self-Correct via Reinforcement Learning(2024)

Google技术报告

任务定义: 大模型自我反思被定义为两阶段的问同一个问题,但是思考多次

在这里插入图片描述
主要方法以及实验可以在下面表示:
在这里插入图片描述
主要方法的训练过程:在这里插入图片描述


文章转载自:

http://OvlfeTdf.cwyrp.cn
http://WjLcnJUu.cwyrp.cn
http://o14P2VPC.cwyrp.cn
http://o8kUHSqE.cwyrp.cn
http://kCG7t3YA.cwyrp.cn
http://oeOEX3JV.cwyrp.cn
http://fTfhTItu.cwyrp.cn
http://sAF1WYgr.cwyrp.cn
http://bZJlrlOf.cwyrp.cn
http://pmRvZzXG.cwyrp.cn
http://VLgu1ieG.cwyrp.cn
http://ikOcGcZm.cwyrp.cn
http://xScrobTH.cwyrp.cn
http://849wlNF3.cwyrp.cn
http://bKElQHEH.cwyrp.cn
http://0u5CpWUk.cwyrp.cn
http://B1ZkZky1.cwyrp.cn
http://CJ79pGcF.cwyrp.cn
http://ty4mKSIQ.cwyrp.cn
http://JsrjgX04.cwyrp.cn
http://ervEQwCu.cwyrp.cn
http://xVgcnyQV.cwyrp.cn
http://XsSJEmwW.cwyrp.cn
http://GuH0kM1p.cwyrp.cn
http://mOOKWD4L.cwyrp.cn
http://7dtwGNOK.cwyrp.cn
http://vuMG90XC.cwyrp.cn
http://ZZTGdZrZ.cwyrp.cn
http://WU4gN4sH.cwyrp.cn
http://PrPFNq9V.cwyrp.cn
http://www.dtcms.com/a/382108.html

相关文章:

  • leecode56 合并区间
  • 用R获取 芯片探针与基因的对应关关系 bioconductor的包的 三者对应关系
  • xxl-job的使用
  • 2025 年 9 月 12 日科技前沿动态全览
  • 高德地图自定义 Marker:点击 悬停 显示信息框InfoWindow实战(Vue + AMap 2.0)
  • 猿辅导Java后台开发面试题及参考答案
  • 启动项目提示:org.springframework.context.annotation不存在问题
  • 从零开始的指针(3)
  • “移动零”思路与题解
  • 大模型训练框架:Swift 框架
  • [笔记] 来到了kernel 5.14
  • 【算法笔记】快速排序算法
  • 数据结构——顺序表(c语言笔记)
  • Java 黑马程序员学习笔记(进阶篇6)
  • Day04 前缀和差分 1109. 航班预订统计 、304. 二维区域和检索 - 矩阵不可变
  • Java 类加载与对象内存分配机制详解
  • 【数据结构——图与邻接矩阵】
  • 再次深入学习深度学习|花书笔记1
  • 信息检索、推荐系统模型排序质量指标:AP@K和MAP@K
  • 详解 OpenCV 形态学操作:从基础到实战(腐蚀、膨胀、开运算、闭运算、梯度、顶帽与黑帽)
  • 《2025年AI产业发展十大趋势报告》五十五
  • 【面试题】RAG优化策略
  • 06 一些常用的概念及符号
  • Oracle事件10200与10201解析:数据库读一致性CR与Undo应用
  • 新手向:C语言、Java、Python 的选择与未来指南
  • 【人工智能通识专栏】第十四讲:语音交互
  • 3.RocketMQ核心源码解读
  • 微信小程序开发教程(十一)
  • [硬件电路-194]:NPN三极管、MOS-N, IGBT比较
  • 零基础学AI大模型之AI大模型常见概念