CVPR 2025 | 医学影像加速进化:深度学习×多模态,精准诊断再升级
关注gongzhonghao【CVPR顶会精选】
今天聊一个医学图像领域的前沿探索:结合空间感知卷积、扩散模型与视觉语言模型,从图像配准到合成分割,再到跨模态理解,打造了一个更加智能、鲁棒且可泛化的医学影像工具链。
无论是SACB-Net带来的精准对齐,Noise-Consistent Diffusion实现的高质量合成与稳健分割,还是BIOMEDICA推动的跨学科大规模影像-文本数据资源,这些工作共同指向了医学图像分析的未来方向:更精确、更全面、更可解释,有望在临床诊断与科研中发挥革命性作用。今天小图给大家精选3篇CVPR有关医学图像方向的论文,请注意查收!
论文一:SACB-Net: Spatial-awareness Convolutions for Medical Image Registration
方法:
作者将模型在3D配准骨干的关键层嵌入SACB,通过多尺度邻域聚合与相对位置感知调制卷积权重,使特征同时捕捉细粒度形态与全局拓扑,从而更准确地预测致密形变场。 训练阶段以固定图与经形变后的移动图之间的相似性为主目标,并加入空间平滑与拓扑一致性等正则,使形变既贴合解剖边界又保持连续稳定。推理时输入体数据对,经SACB-Net输出位移场并完成重采样对齐;消融与对比显示在多项指标上持续领先,同时几乎不引入额外延迟。
创新点:
提3D Spatial-Awareness Convolution Block,显式注入局部与全局空间上下文,强化方向性与几何敏感度,从源头提升配准表征力。
以即插即用的方式融入主流配准主干,参数与计算开销轻量,却在多模态与多数据集上稳定增益,具备良好可迁移性与鲁棒性。
结合空间先验的训练与约束策略,兼顾对齐精度与形变平滑,减少结构折叠与伪配准现象,提升临床可用性。
论文链接:
https://arxiv.org/abs/2503.19592
图灵学术论文辅导
论文二:Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation
方法:
作者以孪生扩散分支在共享或配对噪声调度下同步去噪,通过一致性损失约束两路潜在表示与生成图像的形态对齐,从而在合成阶段即保证结构保真。 训练时联合标准扩散重建目标与形态敏感的分割/边界损失,通过跨时间步的一致性正则抑制伪纹理与形变漂移,并以生成样本动态增广分割模型。 推理与应用阶段利用少量种子便可高效生成形态稳定的样本并无缝喂给分割网络,带来更好的Dice/IoU与泛化表现,同时保持合理计算与存储开销。。
创新点:
设计Siamese-Diffusion架构共享或对齐噪声过程,使成像内容在不同视角/模态下保持形态一致,从源头抑制结构漂移。
引入跨时间步的噪声一致性约束与形态先验,强化边界与解剖结构的可辨性,显著提升下游分割质量。
打通“合成—分割”一体化训练/增广流程,在多数据集上相较现有扩散与分割方法取得稳定优势与更强泛化。
论文链接:
https://www.alphaxiv.org/overview/2505.06068v1
图灵学术论文辅导
论文三:BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
方法:
团队设计了端到端的数据管线从PubMed自动解析论文图表与对应文字说明,结合版面/引用关系进行图文配对、去重与质量筛查,并遵循隐私与伦理准则完成规范化清洗。接着,在模型层面采用对比对齐与生成式目标联合预训练,使图像编码与医学文本嵌入在统一表征空间高质量对齐,同时通过领域术语与知识约束增强细粒度语义理解。 最后,在评测环节覆盖图文检索、图像描述与医学VQA等任务,结果显示所训练的生物医学VLM在准确率与稳健性上全面领先,并以开源数据与模型促进后续研究与临床应用。
创新点:
首次从大规模PubMed文献系统化抽取并清洗医学图像—标题/说明成对数据,打造开放可复用的生物医学图文语料库。
以领域数据驱动的预训练范式构建生物医学VLM,相比通用模型显著提升检索、描述与问答等关键任务的可用性与精度。
打通数据、模型与评测三位一体的开放生态,为可复现研究与临床落地提供标准化基准与可扩展资源。
论文链接:
https://arxiv.org/abs/2501.07171
本文选自gongzhonghao【CVPR顶会精选】