⭐CVPR2025 病理分析全能模型 CPath-Omni 横空出世
⭐CVPR2025 病理分析全能模型 CPath-Omni 横空出世
📄论文题目:CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology
✍️作者及机构:Yuxuan Sun 等(浙江大学、西湖大学等)
🧩面临问题:当前病理图像分析存在明显局限。病理图像尺寸极大,全切片图像(WSI)分辨率可达 10 万 ×10 万像素;现有模型多单独训练局部 patch 级和全局 WSI 级模型,导致知识难以跨尺度整合,模型存在冗余;且不同任务需分别训练专用模型,缺乏通用性。
🎯创新点及其具体研究方法:
1️⃣ 研发病理专用视觉编码器 CPath-CLIP:整合 CLIP-L 模型与基于 DINOv2 的 Virchow2 模型作为视觉编码器,前者保留语义特征,后者增强细粒度视觉特征;采用 Qwen2-1.5B 大语言模型替代传统 GPT-2 作为文本编码器,提升语义对齐能力;基于 70 万 + 高质量病理图像 - 文本对数据集 CPath-PatchCaption 训练,在零样本和少样本任务中实现最优性能。
2️⃣ 提出全尺度统一分析模型 CPath-Omni:基于 LLaVA-NEXT 框架,构建包含 CPath-CLIP(处理 patch 级)和 SlideParser(处理 WSI 级)的双视觉组件架构,结合 Qwen2.5-14B 大语言模型实现多尺度输入处理。采用四阶段训练策略:先通过 CPath-PatchCaption 数据集预对齐视觉与语言特征;再用 35 万 + patch 级指令样本微调局部任务能力;接着利用 WSI 报告数据适配全局特征;最后通过混合 patch 级和 WSI 级样本联合训练,实现跨尺度知识迁移。
3️⃣ 构建大规模病理多模态数据集:整合 7 类任务(分类、视觉问答、描述生成等)的 42 个数据集,涵盖 70 万 + patch 级图像 - 文本对、35 万 + patch 级指令样本、5850 份 WSI 报告及 3.3 万 + WSI 级指令样本,为模型训练提供全面数据支撑。