当前位置：首页 > news >正文

论文精读：A review on multi-view learning（多视图学习综述）

news 2025/11/2 7:47:35

1. 一段话总结

《多视图学习综述》（发表于Front. Comput. Sci., 2025, 19(7): 197334）指出，多视图学习作为新兴领域，通过融合多源数据视图提升学习性能，核心遵循一致性原则（多视图存在相关性以捕捉共同模式）与互补性原则（多视图提供独特信息以丰富数据表征），并依据学习范式将现有研究分为多视图分类、多视图半监督分类、多视图聚类、多视图半监督聚类四类；该领域通过早期融合（先拼接视图特征再训练单模型）与晚期融合（先单视图训练再融合预测结果）实现视图整合，已在多媒体分析、医疗诊断等多领域应用，但仍面临视图不一致、最优视图融合、维度灾难、可扩展性、标签有限、跨域泛化等挑战，是当前活跃且具潜力的研究方向。

2. 思维导图（mindmap）

3. 详细总结

3.1 综述基础信息

项目	内容
标题	A review on multi-view learning
发表期刊	Front. Comput. Sci.
发表年份 / 卷期	2025, 19(7)
DOI	10.1007/s11704-024-40004-w
核心作者	Zhiwen YU（通讯作者）、Ziyang DONG 等，单位为华南理工大学计算机科学与工程学院及鹏城实验室
综述特色	以学习范式为分类视角，将多视图学习研究分为 4 类，区别于多数综述按 “特定任务（分类 / 聚类）” 或 “特定方法（表示学习 / 深度学习）” 分类的方式

3.2 多视图学习核心基础

3.2.1 定义与核心价值

多视图学习旨在通过融合多视角 / 多源数据，解决传统单视图学习无法充分利用数据互补信息的问题，最终提升模型的准确性、鲁棒性与泛化能力。例如，Wei 等（2024）研究表明，多视图学习在表面肌电数据流任务上性能优于单视图；Tian 等（2024）的多视图深度特征学习在 EEG 癫痫检测中表现更优。

3.2.2 两大核心原则

一致性原则：多视图需在一定程度上保持一致，以捕捉数据的共同特征与模式。例如，含图像与文本的多视图数据中，图像物体与文本描述存在相关性，可利用该相关性提升学习效果。

互补性原则：多视图需提供独特且关联的信息，以构建更全面的数据表征。例如，图像识别中，除图像像素信息外，文本描述或语义标签可补充细节，提升识别精度。

3.2.3 两种视图融合方式

融合类型	核心逻辑	实现方式	优缺点
早期融合	先整合多视图特征，再训练单模型	特征拼接、加权平均、学习型融合（如子空间学习）	优点：充分利用视图间底层关联；缺点：假设所有视图对标签贡献均等，易受噪声视图影响
晚期融合	先单视图训练模型，再融合各模型预测结果	概率平均、投票、堆叠（stacking）、提升（boosting）	优点：降低单视图噪声干扰，灵活性高；缺点：可能丢失视图间底层互补信息

3.3 多视图学习研究分类（按学习范式）

3.3.1 多视图分类

核心目标：基于多视图数据预测样本标签，流程含 7 步（数据获取与表征→特征提取→视图融合→分类器训练→模型评估→模型优化→预测）。

关键研究方向：

多视图表示学习：提取各视图互补信息，构建统一表征空间。传统方法（如核方法、子空间学习）计算高效但处理复杂数据能力弱；深度学习方法（如自编码器、深度高斯过程）可处理高维数据，但需大量计算资源，如 Sun 等（2024）提出的深度高斯过程多视图表示学习，在真实数据集上表现优异。
不完整多视图学习：解决部分视图缺失问题，通过填充缺失值（如利用其他视图推断）或仅用观测样本训练，如 Qin 等（2024）的噪声感知不完整多视图学习网络，可降低缺失视图与噪声的影响。
与其他技术结合：包括多任务多视图学习（如 Deng 等 2024 年的多变量时间序列预测框架）、多视图多标签学习（如 Zhao 等 2024 年的非对齐视图标签信息提取方法）等。

3.3.2 多视图半监督分类

核心背景：标注数据获取成本高，需结合有限标签与大量无标签数据。

关键思路：通过对齐多视图至统一表征空间，实现标签传播或伪标签分配，同时利用无标签数据提升模型泛化能力。

代表性方法：Nie 等（2024）的自加权多视图半监督分类算法，基于视图判别能力分配权重；Zhang 等（2024）的锚点策略快速多视图半监督学习，提升学习效率。

主要挑战：高维数据下维度灾难加剧；特征融合、数据对齐与模型正则化设计复杂。

3.3.3 多视图聚类

核心目标：无监督挖掘多视图数据的潜在结构，使同簇样本相似度高、异簇样本差异大。

关键流程：数据表征→视图整合→相似度计算→聚类算法→聚类验证→迭代优化，共 6 步。

关键研究方向：

多视图表示学习：无监督提取视图信息以优化聚类，如 Chen 等（2024）的数据流多视图表示学习，捕捉动态数据模式。
不完整多视图聚类：处理视图缺失，通过学习样本间潜在关系恢复缺失信息，如 Chao 等（2024）的多视图协同聚类，引入指示矩阵忽略缺失值。
与其他技术结合：包括多视图图聚类（如 Wang 等 2024 年的多阶结构化图学习）、多视图谱聚类（如 Jiang 等 2024 年的自加权共识谱聚类）等。

3.3.4 多视图半监督聚类

核心特色：结合多视图与先验知识（如样本标签、must-link/cannot-link 约束），强制约束样本的表征一致性（如 must-link 样本表征需相似）。

代表性方法：Qin 等（2024）的结构化子空间学习多视图半监督聚类，利用标签指示矩阵引导公共子空间学习；Zhu 等（2024）的半监督多视图谱聚类，结合预设标签与张量最小化挖掘视图互信息。

3.4 应用领域

多视图学习已在多领域落地，具体场景如下表所示：

应用领域	典型场景	代表性研究 / 方法
多媒体分析	面部表情识别、3D 形状分析、图像篡改检测	Zhang 等（2024）的深度神经网络多视图面部表情识别；Wei 等（2024）的多视图图卷积网络 3D 形状分析
人体活动识别	跨视图动作识别、3D 动作识别、行人重识别	Tran 等（2024）的成对协方差多视图判别分析；Chen 等（2024）的多视图度量学习行人重识别
医疗诊断	EEG 癫痫检测、ECG 分类、心肌病检测、药物效应预测	Yuan 等（2024）的多视图深度学习 EEG 检测；Puyol-Antón 等（2024）的多视图心脏运动分析
交通监控	车辆重识别、交通信号控制、行李重识别	Jin 等（2024）的多中心度量学习车辆重识别；Ge 等（2024）的多智能体迁移强化学习交通信号控制
潜在领域	工业制造（异常检测）、金融（风险管控）、网络安全（入侵检测）	-

3.5 关键挑战

视图不一致：视图因预处理、嵌入方法、特征尺度差异或数据缺失 / 噪声导致不一致，现有解决方法仍有限。

视图互补性利用不足：多数方法假设视图独立互补，忽略复杂依赖关系，未充分挖掘互补信息。

最优视图融合难：早期与晚期融合的效果缺乏理论对比，视图权重学习的合理性与可解释性不足。

维度灾难：多视图导致数据维度剧增，需平衡特征选择、降维与信息保留。

可扩展性差：现有方法多适用于小规模数据，大规模数据下计算复杂度高，如 Huang 等（2024）提出的近线性复杂度聚类方法仍需进一步拓展。

标签有限：多视图场景下全视图标注困难，弱监督学习尚处于早期阶段。

跨域泛化弱：多源异构数据存在域偏移，模型难以适应不同领域，且忽略域间关联。

3.6 结论与展望

多视图学习通过融合多视图信息提升模型性能，按学习范式可分为四类核心研究方向，已在多领域应用，但仍面临上述七大挑战。未来需通过创新算法（如更优视图对齐与融合方法）、模型优化（如提升可扩展性）与跨域适配，进一步拓展其应用范围与性能。

4. 关键问题

问题 1：多视图学习的核心原则是什么？这两大原则在实际方法中如何体现？

答案：多视图学习的核心原则是一致性原则与互补性原则。

一致性原则：指多视图需在一定程度上保持关联，以捕捉数据的共同特征与模式。例如，Chao 等（2024）提出的基于最大熵判别的多视图分类方法，通过学习多视图的公共子空间表征，利用视图间的相关性提升分类性能；Wang 等（2024）的排他性 - 一致性正则化多视图子空间聚类，通过公共指示矩阵确保多视图的一致性。

互补性原则：指多视图需提供独特且关联的信息，以构建更全面的数据表征。例如，Luo 等（2024）将各视图表征分解为 “全视图共享共识表征” 与 “单视图独特表征”，分别对应一致性与互补性；在图像识别任务中，Zhang 等（2024）的多视图视觉分类方法，融合图像的视觉特征与文本描述，利用文本补充视觉信息的不足，体现互补性。

问题 2：多视图分类与多视图半监督分类的核心差异是什么？两者在解决实际问题时各有哪些适用场景？

答案：两者的核心差异在于数据依赖与核心目标侧重：

数据依赖：多视图分类依赖全标注数据（所有样本均有标签），需通过融合多视图特征优化标签预测；多视图半监督分类依赖有限标注数据 + 大量无标签数据，核心是利用无标签数据补充标签信息，降低标注成本。

适用场景：

多视图分类适用于 “标注数据易获取” 的场景，如受控环境下的图像分类（如实验室中的标准图像数据集标注）、结构化数据的分类（如金融领域中标签明确的交易数据分类），代表性应用包括 Zhang 等（2024）的多视图图像分类（视觉 + 语义特征融合）、Guan 等（2024）的多视图概念学习（提取多视图概念因子用于分类）。
多视图半监督分类适用于 “标注成本高” 的场景，如医疗数据分类（如 EEG 数据标注需专业医生，成本高）、大规模社交媒体数据分类（如用户行为标签标注量大），代表性应用包括 Jia 等（2024）的半监督多视图深度判别表示学习（用于网页、图像、文档分类）、Thammasorn 等（2024）的多视图三元组网络（用于小样本医疗影像分类）。

问题 3：针对多视图学习中的 “不完整视图” 问题，现有研究从分类和聚类两个任务角度分别提出了哪些核心解决思路？各有哪些典型方法？

答案：“不完整视图” 指部分样本的部分视图缺失，分类与聚类任务的解决思路及典型方法如下：

多视图不完整分类任务：

核心思路：① 降低缺失视图的影响，通过噪声抑制或权重调整聚焦有效视图；② 利用完整视图信息推断缺失值，或仅基于观测样本训练模型；③ 结合标签信息确保推断的缺失视图与分类目标适配（多数方法假设样本标签仍可用）。

典型方法：

Qin 等（2024）的 NIM-Nets（噪声感知不完整多视图学习网络）：通过设计噪声鲁棒机制，在学习一致表征的同时降低缺失视图与数据噪声的影响，在含噪声的不完整视图数据上表现出鲁棒性。
Lin 等（2024）的双对比预测方法：通过最小化条件熵恢复缺失视图，同时最大化多视图间互信息学习一致表征，但目前仅适用于两视图场景，需拓展至多视图。

多视图不完整聚类任务：

核心思路：① 利用样本间的潜在相似关系恢复缺失视图（而非直接填充值），如通过聚类结构推断缺失视图的特征分布；② 引入指示矩阵、锚点等工具忽略或规避缺失信息，仅基于观测数据构建聚类模型。

典型方法：

Chao 等（2024）的多视图协同聚类与集成聚类：先通过指示矩阵忽略缺失值进行协同聚类，再通过 “多重插补 + 集成聚类” 处理任意视图缺失模式，在阿片类药物依赖治疗研究的缺失数据集上表现优异。
Liu 等（2024）的视图无关锚点快速聚类：从各不完整视图的分布多样性中学习视图无关锚点，构建统一锚点图，在大规模不完整视图数据上实现高效聚类，复杂度低于传统方法。

查看全文

http://www.dtcms.com/a/557217.html