当前位置: 首页 > news >正文

论文阅读 2025-9-9 多模态相关

阅读一些多模态相关的论文

1. Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

虽然这篇论文还没被接收,但是可以看看。
不过说实话,很多细节都没有展示清楚,所以可能只是了解一下他用到的技术而已(可能只是为了创新而创新),是否可信不作考究,只做了解。
在这里插入图片描述

(1)多模态特征解构:
这个技术之前在某一篇论文读过,但是现在突然想不起来了(好像是这篇https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Multi-Modal_Learning_With_Missing_Modality_via_Shared-Specific_Feature_Modelling_CVPR_2023_paper.pdf)。不过很清晰的就是特征分为shared和explored的,我非常喜欢这种方法。不过这篇论文也没有引用清楚,有点难绷。而且他这里用的encoder我猜测是MLP,他也没讲清楚。不过细节上可能还是有点不一样,这个方法我是认可的。

具体获得V_specific和V_shared的算法如下(一般般吧,不是很懂regional在哪):
在这里插入图片描述
Modality-shared and modality explore features Vshare,Vexplore can be obtained by proposed regional cross-attention algorithm, see Algorithm 1.

(2)论文中的 Reorganization Module:
就是把4个特征随机打乱顺序,也不知道有什么好打乱的(不是说4个特征不合理,而是说这么少特征又不是序列,到底在打乱什么),明明在一张3090上面就能跑,估计也没几个特征。反正就强行说得自己很牛逼,细看其实都是空的。当然了,这个reorganize我是认可的,如果特征多了,那么确实可以防止MoE中的这个gate对于positional embedding的过拟合。如果不是序列生成任务,对序列的token顺序没什么要求的话,我认为这么做可能确实是可行的。

(3)Dynamic MoE Fusion则更不用说,其实就是concat,套了一个MoE的皮。实验不想看了。

(4)其实关于模态也就是那么几个模态,主要发力的还是WSI,其他实在就是没什么用的。

我不认为这个论文作为多模态论文是一篇说服力强的论文。

2. Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling

问题:

现实应用中常遇到模态缺失的情况(某些模态在训练或测试时不可用),而传统多模态方法通常假设所有模态始终完整可用,这限制了其实际应用。

核心思想:

通过学习共享特征和模态特定特征,构建一个对缺失模态鲁棒的多模态表示模型。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3. IMAGEBIND: One Embedding Space To Bind Them All

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. AudioCLIP: Extending CLIP to Image, Text and Audio (2021)

在这里插入图片描述


文章转载自:

http://Vfi4TqKH.yhrrL.cn
http://a3JH3UYn.yhrrL.cn
http://x461cgdD.yhrrL.cn
http://rpge6hjB.yhrrL.cn
http://aLoS3fc3.yhrrL.cn
http://PydxYwwP.yhrrL.cn
http://NFUFE7KM.yhrrL.cn
http://jIi9g00n.yhrrL.cn
http://1Hy3TQ7R.yhrrL.cn
http://1Q7NHP9W.yhrrL.cn
http://ES8wsIKS.yhrrL.cn
http://DIHe8Unm.yhrrL.cn
http://zTqa8iGs.yhrrL.cn
http://vOm2E7Su.yhrrL.cn
http://A3a6Yedf.yhrrL.cn
http://Wd1WpYY1.yhrrL.cn
http://7J09TJwR.yhrrL.cn
http://mP2AqVMl.yhrrL.cn
http://JzVI6tEN.yhrrL.cn
http://d49o7O2m.yhrrL.cn
http://fngunT53.yhrrL.cn
http://Q37x16O5.yhrrL.cn
http://AsD6LhXK.yhrrL.cn
http://MseUWvBj.yhrrL.cn
http://r6FAkGks.yhrrL.cn
http://02egynAP.yhrrL.cn
http://bnl8r2tG.yhrrL.cn
http://knEQuIBD.yhrrL.cn
http://wFTyUBd7.yhrrL.cn
http://WEAGZv9T.yhrrL.cn
http://www.dtcms.com/a/381773.html

相关文章:

  • 豆包、Kimi、通义千问、DeepSeek、Gamma、墨刀 AI”六款主流大模型(或 AI 平台)生成 PPT 的完整流程
  • 基于SpringBoot的足球论坛系统+论文示例参考
  • uniapp 实现项目多语言切换
  • 03.【Linux系统编程】基础开发工具1(yum软件安装、vim编辑器、编辑器gcc/g++)
  • Win10 上 Debian 12 如何安装 Redis ?
  • 中级统计师-统计法规-第十章 统计执法监督检查
  • 【矩阵找最大小所在位置】2022-11-13
  • kafka遇到的问题
  • 【Linux】系统部分——线程概念与地址空间
  • 即梦AI快速P图
  • C盘扩容笔记
  • arm64架构下docker部署freeswitch
  • python---__new__函数
  • 2025.9.11英语红宝书
  • Oracle体系结构-数据文件(Data Files)
  • 【51单片机单按键控制2个LED循环闪烁】2022-12-7
  • 【报错分析】解决Chrome浏览器HSTS拦截问题的两种方案
  • 【系统架构设计(28)】计算机系统组成详解:从硬件到软件的解析
  • 护城河式编程模式:黑色幽默中的工程生存学
  • Kotlinx.serialization 使用讲解
  • PCA(主成分分析,Principal Component Analysis) 如何实现从多个指标到少量个主成分降维不失真?
  • Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
  • css `lh`单位
  • 中级统计师-统计法规-第九章 坚守统计法律底线
  • Selenium应用中的核心JavaScript操作技巧
  • 说说transformer 中的掩码矩阵以及为什么能掩盖住词语
  • iDEA Lombok 失效 和 slf log 变量失效问题
  • Linux下实现进度条(原理版本和真实版本)
  • 强化学习中重要性采样
  • 数据库备份谁更快?mydumper VS mysqldump 实测对比