论文精读:A review on multi-view learning(多视图学习综述)
1. 一段话总结
《多视图学习综述》(发表于Front. Comput. Sci., 2025, 19(7): 197334)指出,多视图学习作为新兴领域,通过融合多源数据视图提升学习性能,核心遵循一致性原则(多视图存在相关性以捕捉共同模式)与互补性原则(多视图提供独特信息以丰富数据表征),并依据学习范式将现有研究分为多视图分类、多视图半监督分类、多视图聚类、多视图半监督聚类四类;该领域通过早期融合(先拼接视图特征再训练单模型)与晚期融合(先单视图训练再融合预测结果)实现视图整合,已在多媒体分析、医疗诊断等多领域应用,但仍面临视图不一致、最优视图融合、维度灾难、可扩展性、标签有限、跨域泛化等挑战,是当前活跃且具潜力的研究方向。
2. 思维导图(mindmap)

3. 详细总结
3.1 综述基础信息
项目 | 内容 |
标题 | A review on multi-view learning |
发表期刊 | Front. Comput. Sci. |
发表年份 / 卷期 | 2025, 19(7) |
DOI | 10.1007/s11704-024-40004-w |
核心作者 | Zhiwen YU(通讯作者)、Ziyang DONG 等,单位为华南理工大学计算机科学与工程学院及鹏城实验室 |
综述特色 | 以学习范式为分类视角,将多视图学习研究分为 4 类,区别于多数综述按 “特定任务(分类 / 聚类)” 或 “特定方法(表示学习 / 深度学习)” 分类的方式 |
3.2 多视图学习核心基础
3.2.1 定义与核心价值
多视图学习旨在通过融合多视角 / 多源数据,解决传统单视图学习无法充分利用数据互补信息的问题,最终提升模型的准确性、鲁棒性与泛化能力。例如,Wei 等(2024)研究表明,多视图学习在表面肌电数据流任务上性能优于单视图;Tian 等(2024)的多视图深度特征学习在 EEG 癫痫检测中表现更优。
3.2.2 两大核心原则
- 一致性原则:多视图需在一定程度上保持一致,以捕捉数据的共同特征与模式。例如,含图像与文本的多视图数据中,图像物体与文本描述存在相关性,可利用该相关性提升学习效果。
- 互补性原则:多视图需提供独特且关联的信息,以构建更全面的数据表征。例如,图像识别中,除图像像素信息外,文本描述或语义标签可补充细节,提升识别精度。
3.2.3 两种视图融合方式
融合类型 | 核心逻辑 | 实现方式 | 优缺点 |
早期融合 | 先整合多视图特征,再训练单模型 | 特征拼接、加权平均、学习型融合(如子空间学习) | 优点:充分利用视图间底层关联;缺点:假设所有视图对标签贡献均等,易受噪声视图影响 |
晚期融合 | 先单视图训练模型,再融合各模型预测结果 | 概率平均、投票、堆叠(stacking)、提升(boosting) | 优点:降低单视图噪声干扰,灵活性高;缺点:可能丢失视图间底层互补信息 |
3.3 多视图学习研究分类(按学习范式)
3.3.1 多视图分类
- 核心目标:基于多视图数据预测样本标签,流程含 7 步(数据获取与表征→特征提取→视图融合→分类器训练→模型评估→模型优化→预测)。
- 关键研究方向:
- 多视图表示学习:提取各视图互补信息,构建统一表征空间。传统方法(如核方法、子空间学习)计算高效但处理复杂数据能力弱;深度学习方法(如自编码器、深度高斯过程)可处理高维数据,但需大量计算资源,如 Sun 等(2024)提出的深度高斯过程多视图表示学习,在真实数据集上表现优异。
- 不完整多视图学习:解决部分视图缺失问题,通过填充缺失值(如利用其他视图推断)或仅用观测样本训练,如 Qin 等(2024)的噪声感知不完整多视图学习网络,可降低缺失视图与噪声的影响。
- 与其他技术结合:包括多任务多视图学习(如 Deng 等 2024 年的多变量时间序列预测框架)、多视图多标签学习(如 Zhao 等 2024 年的非对齐视图标签信息提取方法)等。
3.3.2 多视图半监督分类
- 核心背景:标注数据获取成本高,需结合有限标签与大量无标签数据。
- 关键思路:通过对齐多视图至统一表征空间,实现标签传播或伪标签分配,同时利用无标签数据提升模型泛化能力。
- 代表性方法:Nie 等(2024)的自加权多视图半监督分类算法,基于视图判别能力分配权重;Zhang 等(2024)的锚点策略快速多视图半监督学习,提升学习效率。
- 主要挑战:高维数据下维度灾难加剧;特征融合、数据对齐与模型正则化设计复杂。
3.3.3 多视图聚类
- 核心目标:无监督挖掘多视图数据的潜在结构,使同簇样本相似度高、异簇样本差异大。
- 关键流程:数据表征→视图整合→相似度计算→聚类算法→聚类验证→迭代优化,共 6 步。
- 关键研究方向:
- 多视图表示学习:无监督提取视图信息以优化聚类,如 Chen 等(2024)的数据流多视图表示学习,捕捉动态数据模式。
- 不完整多视图聚类:处理视图缺失,通过学习样本间潜在关系恢复缺失信息,如 Chao 等(2024)的多视图协同聚类,引入指示矩阵忽略缺失值。
- 与其他技术结合:包括多视图图聚类(如 Wang 等 2024 年的多阶结构化图学习)、多视图谱聚类(如 Jiang 等 2024 年的自加权共识谱聚类)等。
3.3.4 多视图半监督聚类
- 核心特色:结合多视图与先验知识(如样本标签、must-link/cannot-link 约束),强制约束样本的表征一致性(如 must-link 样本表征需相似)。
- 代表性方法:Qin 等(2024)的结构化子空间学习多视图半监督聚类,利用标签指示矩阵引导公共子空间学习;Zhu 等(2024)的半监督多视图谱聚类,结合预设标签与张量最小化挖掘视图互信息。
3.4 应用领域
多视图学习已在多领域落地,具体场景如下表所示:
应用领域 | 典型场景 | 代表性研究 / 方法 |
多媒体分析 | 面部表情识别、3D 形状分析、图像篡改检测 | Zhang 等(2024)的深度神经网络多视图面部表情识别;Wei 等(2024)的多视图图卷积网络 3D 形状分析 |
人体活动识别 | 跨视图动作识别、3D 动作识别、行人重识别 | Tran 等(2024)的成对协方差多视图判别分析;Chen 等(2024)的多视图度量学习行人重识别 |
医疗诊断 | EEG 癫痫检测、ECG 分类、心肌病检测、药物效应预测 | Yuan 等(2024)的多视图深度学习 EEG 检测;Puyol-Antón 等(2024)的多视图心脏运动分析 |
交通监控 | 车辆重识别、交通信号控制、行李重识别 | Jin 等(2024)的多中心度量学习车辆重识别;Ge 等(2024)的多智能体迁移强化学习交通信号控制 |
潜在领域 | 工业制造(异常检测)、金融(风险管控)、网络安全(入侵检测) | - |
3.5 关键挑战
视图不一致:视图因预处理、嵌入方法、特征尺度差异或数据缺失 / 噪声导致不一致,现有解决方法仍有限。
视图互补性利用不足:多数方法假设视图独立互补,忽略复杂依赖关系,未充分挖掘互补信息。
最优视图融合难:早期与晚期融合的效果缺乏理论对比,视图权重学习的合理性与可解释性不足。
维度灾难:多视图导致数据维度剧增,需平衡特征选择、降维与信息保留。
可扩展性差:现有方法多适用于小规模数据,大规模数据下计算复杂度高,如 Huang 等(2024)提出的近线性复杂度聚类方法仍需进一步拓展。
标签有限:多视图场景下全视图标注困难,弱监督学习尚处于早期阶段。
跨域泛化弱:多源异构数据存在域偏移,模型难以适应不同领域,且忽略域间关联。
3.6 结论与展望
多视图学习通过融合多视图信息提升模型性能,按学习范式可分为四类核心研究方向,已在多领域应用,但仍面临上述七大挑战。未来需通过创新算法(如更优视图对齐与融合方法)、模型优化(如提升可扩展性)与跨域适配,进一步拓展其应用范围与性能。
4. 关键问题
问题 1:多视图学习的核心原则是什么?这两大原则在实际方法中如何体现?
答案:多视图学习的核心原则是一致性原则与互补性原则。
- 一致性原则:指多视图需在一定程度上保持关联,以捕捉数据的共同特征与模式。例如,Chao 等(2024)提出的基于最大熵判别的多视图分类方法,通过学习多视图的公共子空间表征,利用视图间的相关性提升分类性能;Wang 等(2024)的排他性 - 一致性正则化多视图子空间聚类,通过公共指示矩阵确保多视图的一致性。
- 互补性原则:指多视图需提供独特且关联的信息,以构建更全面的数据表征。例如,Luo 等(2024)将各视图表征分解为 “全视图共享共识表征” 与 “单视图独特表征”,分别对应一致性与互补性;在图像识别任务中,Zhang 等(2024)的多视图视觉分类方法,融合图像的视觉特征与文本描述,利用文本补充视觉信息的不足,体现互补性。
问题 2:多视图分类与多视图半监督分类的核心差异是什么?两者在解决实际问题时各有哪些适用场景?
答案:两者的核心差异在于数据依赖与核心目标侧重:
- 数据依赖:多视图分类依赖全标注数据(所有样本均有标签),需通过融合多视图特征优化标签预测;多视图半监督分类依赖有限标注数据 + 大量无标签数据,核心是利用无标签数据补充标签信息,降低标注成本。
- 适用场景:
- 多视图分类适用于 “标注数据易获取” 的场景,如受控环境下的图像分类(如实验室中的标准图像数据集标注)、结构化数据的分类(如金融领域中标签明确的交易数据分类),代表性应用包括 Zhang 等(2024)的多视图图像分类(视觉 + 语义特征融合)、Guan 等(2024)的多视图概念学习(提取多视图概念因子用于分类)。
- 多视图半监督分类适用于 “标注成本高” 的场景,如医疗数据分类(如 EEG 数据标注需专业医生,成本高)、大规模社交媒体数据分类(如用户行为标签标注量大),代表性应用包括 Jia 等(2024)的半监督多视图深度判别表示学习(用于网页、图像、文档分类)、Thammasorn 等(2024)的多视图三元组网络(用于小样本医疗影像分类)。
问题 3:针对多视图学习中的 “不完整视图” 问题,现有研究从分类和聚类两个任务角度分别提出了哪些核心解决思路?各有哪些典型方法?
答案:“不完整视图” 指部分样本的部分视图缺失,分类与聚类任务的解决思路及典型方法如下:
- 多视图不完整分类任务:
核心思路:① 降低缺失视图的影响,通过噪声抑制或权重调整聚焦有效视图;② 利用完整视图信息推断缺失值,或仅基于观测样本训练模型;③ 结合标签信息确保推断的缺失视图与分类目标适配(多数方法假设样本标签仍可用)。
典型方法:
- Qin 等(2024)的 NIM-Nets(噪声感知不完整多视图学习网络):通过设计噪声鲁棒机制,在学习一致表征的同时降低缺失视图与数据噪声的影响,在含噪声的不完整视图数据上表现出鲁棒性。
- Lin 等(2024)的双对比预测方法:通过最小化条件熵恢复缺失视图,同时最大化多视图间互信息学习一致表征,但目前仅适用于两视图场景,需拓展至多视图。
- 多视图不完整聚类任务:
核心思路:① 利用样本间的潜在相似关系恢复缺失视图(而非直接填充值),如通过聚类结构推断缺失视图的特征分布;② 引入指示矩阵、锚点等工具忽略或规避缺失信息,仅基于观测数据构建聚类模型。
典型方法:
- Chao 等(2024)的多视图协同聚类与集成聚类:先通过指示矩阵忽略缺失值进行协同聚类,再通过 “多重插补 + 集成聚类” 处理任意视图缺失模式,在阿片类药物依赖治疗研究的缺失数据集上表现优异。
- Liu 等(2024)的视图无关锚点快速聚类:从各不完整视图的分布多样性中学习视图无关锚点,构建统一锚点图,在大规模不完整视图数据上实现高效聚类,复杂度低于传统方法。
