当前位置：首页 > news >正文

多模态融合的分类、跨模态对齐的方法

news 2025/7/1 14:18:48

两者的主要区别

维度	扩模态对齐	扩模态融合
目标	对齐模态间的表示，使其语义一致	融合模态间的信息，生成联合表示
关注点	模态间的相似性和语义一致性	模态间的互补性和信息整合
空间	映射到共享的公共语义空间	生成新的联合特征空间
方法	对比学习、共享空间、注意力机制	特征拼接、深度交互、动态权重
应用场景	图文匹配、模态检索、跨模态翻译	情感分析、视觉问答、图文生成

扩模态对齐更注重模态间的一致性，解决“如何让模态之间更好地理解彼此”的问题。

扩模态融合更注重模态间的互补性，解决“如何将不同模态的信息结合起来”以更好地完成任务的问题。

两者在多模态学习中往往是互补的，许多任务会先进行对齐，再进行融合。

什么是多模态融合（MultiModal Fusion）？

多模态融合能够充分利用各模态之间的互补优势，将来自不同模态的信息整合成一个稳定且全面的多模态表征。表征学习通过从原始数据中自动提取各模态有效特征，生成稳定全面的多模态表征。

表征学习（Representation Learning） ≈ 向量化（Embedding）

多模态分为几类？

从数据处理的层次角度来划分，多模态融合可分为数据级融合、特征级融合和目标级融合。

一、数据级融合（Data-Level Fusion）：

数据级融合是在预处理阶段将不同模态的原始数据直接合并，适用于高度相关和互补的数据场景。

例如image与文本的数据融合，将image的patches与text的token进行融合：

图像可以通过切分为小的 patches（例如，16x16 的小块）来表示，每个 patch 都可以看作是一个小的图像单元。
序列（如文本）已经被分割成 tokens（如单词或子词）。
数据级融合可以直接将这些图像 patches 和文本 tokens 合并为一个统一的输入序列。

二、特征级融合（Feature-Level Fusion）：

特征级融合是在特征提取之后、决策之前进行的融合。不同模态的数据首先被分别处理，提取出各自的特征表示，然后将这些特征表示在某一特征层上进行融合。广泛应用于图像分类、语音识别、情感分析等多模态任务中。

三、目标级融合（Decision-Level Fusion）：

目标级融合是在各单模态模型决策后，将预测结果进行整合以得出最终决策，适用于多模型预测结果综合的场景，如多传感器数据融合、多专家意见综合等。

什么是跨模态对齐（MultiModal Alignment）？

1. 按对齐目标分类

（1）语义对齐（Semantic Alignment）

定义：对齐不同模态在语义层面的表示，使得具有相同语义的内容在不同模态中具有相似的表示。
特点：
- 关注模态之间的语义相似性。
- 通常通过共享语义空间或对比学习实现。
应用：图文匹配、图文检索。
示例：一张图片中的“猫”与文本描述“a cat”在语义空间中对齐。

（2）时序对齐（Temporal Alignment）

定义：对齐不同模态在时间维度上的信息，确保它们在时间上的同步。
特点：
- 常用于动态模态（如视频、音频）与文本之间的对齐。
- 需要处理模态间的时间尺度差异。
应用：视频字幕生成、视频问答。
示例：视频中的某一帧与对应的语音或文本描述对齐。

（3）结构对齐（Structural Alignment）

定义：对齐不同模态中更高层次的结构化信息，如对象、关系或场景。
特点：
- 不仅关注单一元素，还关注模态中的关系或上下文。
- 需要建模复杂的模态间关系。
应用：视觉问答、场景理解。
示例：图片中两个物体“猫”与“桌子”的空间关系（如“猫在桌子上”）与文本描述对齐。

2. 按对齐方式分类

（1）显式对齐（Explicit Alignment）

定义：通过明确的监督信号或标签（如配对数据）进行对齐。
特点：
- 需要大量标注数据。
- 对齐过程直接依赖于明确的映射关系。
应用：图文配对、视频-文本配对。
示例：通过标注数据对图片和文本描述进行配对。

（2）隐式对齐（Implicit Alignment）

定义：通过无监督或弱监督的方式，隐式地对齐模态间的表示。
特点：
- 无需明确的标签或配对信息。
- 通常通过对比学习实现，例如CLIP，这是一种弱标签。
应用：跨模态检索、无监督多模态学习。
示例：通过对比学习让图片和文本自然对齐，而无需明确的配对标签。

3. 按对齐技术分类

（1）基于共享空间的对齐

定义：将不同模态的特征映射到一个共享的表示空间中进行对齐。
特点：
- 通过神经网络学习一个公共空间。
- 模态间的距离度量直接在共享空间中完成。
应用：图文检索、跨模态生成。
示例：利用对比学习，将图片和文本映射到同一个嵌入空间。

（2）基于注意力机制的对齐

定义：利用注意力机制捕捉模态间的相关性并进行对齐。
特点：
- 动态关注模态间的关键部分。
- 可用于局部对齐或全局对齐。
应用：视觉问答、图文生成。
示例：通过注意力机制对齐图片中的局部区域与文本中的关键词。

（3）基于生成模型的对齐

定义：通过生成一个模态的表示来对齐另一个模态。
特点：
- 生成的模态表示与目标模态一致。
- 可用于无监督对齐。
应用：跨模态生成、模态转换。
示例：利用生成对抗网络（GAN）将图片生成对应的文本描述。

一文搞懂多模态学习（多模态融合 + 跨模态对齐）

http://www.dtcms.com/a/61346.html

相关文章：

Spring boot创建时常用的依赖

flask_restx 定义任意类型参数

MySQL主从延迟分析

JVM、MySQL常见面试题(尽力局)

蓝桥杯P19718-回文字符串题解

从头开始开发基于虹软SDK的人脸识别考勤系统(python+RTSP开源)（二）

【HarmonyOS Next】鸿蒙应用加载SVG文件显示图标

ArcGIS Pro字段编号相关代码

Kafka常用指令（详细）

2025华为OD机试真题最新题库 (B+C+D+E卷) + 在线OJ在线刷题使用说明（C++、Java、Python合集）（正在更新E卷，目前已收录581道）

【时序图】1.StarUML绿化

Scala编程_实现Rational的基本操作

远程监控项目描述以及总体框架

C# 泛型中的协变、抗变和裂变：概念与应用

SSM框架

NLP常见任务专题介绍（1）-关系抽取（Relation Extraction, RE）任务训练模板

SSH可以连接成功，但VSCode连接不成功的问题

【GPT入门】第6课 openai接口介绍与参数说明

【09】单片机编程核心技巧：变量赋值，从定义到存储的底层逻辑

blender学习25.3.11

visual studio 2022最常用的快捷键

小程序实现存储用户注册信息功能前后端+数据库联调

《 C++ 点滴漫谈：三十》高手写 C++，参数这样传才高效！你真的用对了吗？

分而治之：用于 RGB-T 显著目标检测的 Confluent Triple-Flow 网络

Elasticsearch Java API Client [8.17] 使用

bug小记

git合并分支回滚的方法

Docker篇

ACE学习2——write transaction

【Linux docker】关于docker启动出错的解决方法。