论文阅读 2025-9-9 多模态相关
阅读一些多模态相关的论文
1. Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction
虽然这篇论文还没被接收,但是可以看看。
不过说实话,很多细节都没有展示清楚,所以可能只是了解一下他用到的技术而已(可能只是为了创新而创新),是否可信不作考究,只做了解。
(1)多模态特征解构:
这个技术之前在某一篇论文读过,但是现在突然想不起来了(好像是这篇https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Multi-Modal_Learning_With_Missing_Modality_via_Shared-Specific_Feature_Modelling_CVPR_2023_paper.pdf)。不过很清晰的就是特征分为shared和explored的,我非常喜欢这种方法。不过这篇论文也没有引用清楚,有点难绷。而且他这里用的encoder我猜测是MLP,他也没讲清楚。不过细节上可能还是有点不一样,这个方法我是认可的。
具体获得V_specific和V_shared的算法如下(一般般吧,不是很懂regional在哪):
Modality-shared and modality explore features Vshare,Vexplore can be obtained by proposed regional cross-attention algorithm, see Algorithm 1.
(2)论文中的 Reorganization Module:
就是把4个特征随机打乱顺序,也不知道有什么好打乱的(不是说4个特征不合理,而是说这么少特征又不是序列,到底在打乱什么),明明在一张3090上面就能跑,估计也没几个特征。反正就强行说得自己很牛逼,细看其实都是空的。当然了,这个reorganize我是认可的,如果特征多了,那么确实可以防止MoE中的这个gate对于positional embedding的过拟合。如果不是序列生成任务,对序列的token顺序没什么要求的话,我认为这么做可能确实是可行的。
(3)Dynamic MoE Fusion则更不用说,其实就是concat,套了一个MoE的皮。实验不想看了。
(4)其实关于模态也就是那么几个模态,主要发力的还是WSI,其他实在就是没什么用的。
我不认为这个论文作为多模态论文是一篇说服力强的论文。
2. Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling
问题:
现实应用中常遇到模态缺失的情况(某些模态在训练或测试时不可用),而传统多模态方法通常假设所有模态始终完整可用,这限制了其实际应用。
核心思想:
通过学习共享特征和模态特定特征,构建一个对缺失模态鲁棒的多模态表示模型。
3. IMAGEBIND: One Embedding Space To Bind Them All