当前位置: 首页 > news >正文

TNNLS-2022《Fast Incomplete Multi-view Clustering with View-independent Anchors》


一、核心思想

该论文旨在解决大规模不完整多视图聚类(Incomplete Multi-view Clustering, IMC)问题。传统IMC方法在处理大规模数据时面临时间和空间复杂度高(通常为 O(n2)O(n^2)O(n2) 或更高)的问题,而现有的一些快速IMC方法(如 IMVC-CBG)采用所有视图共享同一组锚点(anchors)的策略,忽略了各视图特有的几何结构和互补信息

为此,FIMVC-VIA 提出:

  • 为每个视图独立学习锚点(view-independent anchors),以保留视图特异性;
  • 构建一个统一的锚图(consensus anchor graph),以保证跨视图的一致性;
  • 通过锚图替代全连接相似图,将复杂度降至线性于样本数 nnn

二、目标函数

设共有 vvv 个视图,第 ppp 个视图的原始数据为 Xp∈Rdp×n\mathbf{X}_p \in \mathbb{R}^{d_p \times n}XpRdp×n,其中部分样本缺失。引入指示矩阵 Hp∈{0,1}n×np\mathbf{H}_p \in \{0,1\}^{n \times n_p}Hp{0,1}n×np 标记第 ppp 视图中实际存在的 npn_pnp 个样本(np≤nn_p \leq nnpn),则有效数据为 XpHp\mathbf{X}_p \mathbf{H}_pXpHp

FIMVC-VIA 的目标函数如下:

min⁡γ,{Bp}p=1v,Z∑p=1vγp2∥XpHp−BpZHp∥F2+μ∥Z∥F2 \min_{\boldsymbol{\gamma}, \{\mathbf{B}_p\}_{p=1}^v, \mathbf{Z}} \sum_{p=1}^v \gamma_p^2 \left\| \mathbf{X}_p \mathbf{H}_p - \mathbf{B}_p \mathbf{Z} \mathbf{H}_p \right\|_F^2 + \mu \|\mathbf{Z}\|_F^2 γ,{Bp}p=1v,Zminp=1vγp2XpHpBpZHpF2+μZF2

约束条件

  • γ⊤1=1, γ≥0\boldsymbol{\gamma}^\top \mathbf{1} = 1, \ \boldsymbol{\gamma} \geq 0γ1=1, γ0(视图权重归一化且非负);
  • Bp⊤Bp=Im\mathbf{B}_p^\top \mathbf{B}_p = \mathbf{I}_mBpBp=Im(锚矩阵正交,增强判别性);
  • Z≥0, Z⊤1=1\mathbf{Z} \geq 0, \ \mathbf{Z}^\top \mathbf{1} = \mathbf{1}Z0, Z1=1(锚图为行随机非负矩阵)。

其中:

  • Bp∈Rdp×m\mathbf{B}_p \in \mathbb{R}^{d_p \times m}BpRdp×m:第 ppp 视图的独立锚点矩阵m≪nm \ll nmn);
  • Z∈Rm×n\mathbf{Z} \in \mathbb{R}^{m \times n}ZRm×n统一锚图,表示每个样本对 mmm 个锚点的归属;
  • γp\gamma_pγp:第 ppp 视图的自适应权重;
  • μ>0\mu > 0μ>0:正则化参数,控制锚图稀疏性。

三、目标函数的详细优化过程

采用交替优化(Alternating Optimization)策略,分三步迭代更新:

1. 固定 γ,Z\boldsymbol{\gamma}, \mathbf{Z}γ,Z,优化 {Bp}\{\mathbf{B}_p\}{Bp}

对每个视图 ppp,子问题为:

min⁡Bp∥XpHp−BpZHp∥F2s.t.Bp⊤Bp=Im \min_{\mathbf{B}_p} \left\| \mathbf{X}_p \mathbf{H}_p - \mathbf{B}_p \mathbf{Z} \mathbf{H}_p \right\|_F^2 \quad \text{s.t.} \quad \mathbf{B}_p^\top \mathbf{B}_p = \mathbf{I}_m BpminXpHpBpZHpF2s.t.BpBp=Im

利用恒等式 XpHpHp⊤=Xp⊗Ap\mathbf{X}_p \mathbf{H}_p \mathbf{H}_p^\top = \mathbf{X}_p \otimes \mathbf{A}_pXpHpHp=XpAp(其中 Ap=diag(hp)\mathbf{A}_p = \text{diag}(\mathbf{h}_p)Ap=diag(hp)hp\mathbf{h}_php 为存在性向量),可转化为:

max⁡BpTr(Bp⊤(Xp⊗Ap)Z⊤) \max_{\mathbf{B}_p} \text{Tr}\left( \mathbf{B}_p^\top (\mathbf{X}_p \otimes \mathbf{A}_p) \mathbf{Z}^\top \right) BpmaxTr(Bp(XpAp)Z)

Λp=(Xp⊗Ap)Z⊤\boldsymbol{\Lambda}_p = (\mathbf{X}_p \otimes \mathbf{A}_p) \mathbf{Z}^\topΛp=(XpAp)Z,对其做 SVD:Λp=UΣV⊤\boldsymbol{\Lambda}_p = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^\topΛp=UΣV,则最优解为:

Bp∗=UmVm⊤ \mathbf{B}_p^* = \mathbf{U}_m \mathbf{V}_m^\top Bp=UmVm

其中 Um,Vm\mathbf{U}_m, \mathbf{V}_mUm,Vm 为前 mmm 个奇异向量。


2. 固定 {Bp},γ\{\mathbf{B}_p\}, \boldsymbol{\gamma}{Bp},γ,优化 Z\mathbf{Z}Z

目标函数关于 Z\mathbf{Z}Z 为:

min⁡Z∑p=1vγp2∥XpHp−BpZHp∥F2+μ∥Z∥F2 \min_{\mathbf{Z}} \sum_{p=1}^v \gamma_p^2 \left\| \mathbf{X}_p \mathbf{H}_p - \mathbf{B}_p \mathbf{Z} \mathbf{H}_p \right\|_F^2 + \mu \|\mathbf{Z}\|_F^2 Zminp=1vγp2XpHpBpZHpF2+μZF2

利用 XpHpHp⊤=Xp⊗Ap\mathbf{X}_p \mathbf{H}_p \mathbf{H}_p^\top = \mathbf{X}_p \otimes \mathbf{A}_pXpHpHp=XpAp,可将问题按列解耦。对第 iii 个样本,定义 zi∈Rm\mathbf{z}_i \in \mathbb{R}^mziRmZ\mathbf{Z}Z 的第 iii 列,则优化问题为:

min⁡zi∥zi−yi∥22s.t.zi≥0, zi⊤1=1 \min_{\mathbf{z}_i} \|\mathbf{z}_i - \mathbf{y}_i\|_2^2 \quad \text{s.t.} \quad \mathbf{z}_i \geq 0, \ \mathbf{z}_i^\top \mathbf{1} = 1 ziminziyi22s.t.zi0, zi1=1

其中:

yi=∑p=1vγp2ap,iBp⊤xp,iμ+∑p=1vγp2ap,i \mathbf{y}_i = \frac{ \sum_{p=1}^v \gamma_p^2 a_{p,i} \mathbf{B}_p^\top \mathbf{x}_{p,i} }{ \mu + \sum_{p=1}^v \gamma_p^2 a_{p,i} } yi=μ+p=1vγp2ap,ip=1vγp2ap,iBpxp,i

这里 ap,i=1a_{p,i} = 1ap,i=1 若第 iii 个样本在视图 ppp 存在,否则为 0。

该问题为投影到概率单纯形(probability simplex)上的欧氏投影,有闭式解:

zi=max⁡(yi+σi1,0),其中σi=1−yi⊤1m \mathbf{z}_i = \max(\mathbf{y}_i + \sigma_i \mathbf{1}, 0), \quad \text{其中} \quad \sigma_i = \frac{1 - \mathbf{y}_i^\top \mathbf{1}}{m} zi=max(yi+σi1,0),其中σi=m1yi1

(实际实现中常用更高效的排序投影算法,如 [Duchi et al., 2008])


3. 固定 {Bp},Z\{\mathbf{B}_p\}, \mathbf{Z}{Bp},Z,优化 γ\boldsymbol{\gamma}γ

ϵp=∥XpHp−BpZHp∥F2\epsilon_p = \left\| \mathbf{X}_p \mathbf{H}_p - \mathbf{B}_p \mathbf{Z} \mathbf{H}_p \right\|_F^2ϵp=XpHpBpZHpF2,则问题为:

min⁡γ∑p=1vγp2ϵps.t.γ⊤1=1, γ≥0 \min_{\boldsymbol{\gamma}} \sum_{p=1}^v \gamma_p^2 \epsilon_p \quad \text{s.t.} \quad \boldsymbol{\gamma}^\top \mathbf{1} = 1, \ \boldsymbol{\gamma} \geq 0 γminp=1vγp2ϵps.t.γ1=1, γ0

由 Cauchy–Schwarz 不等式,最优解为:

γp=1/ϵp∑q=1v1/ϵq \gamma_p = \frac{1/\epsilon_p}{\sum_{q=1}^v 1/\epsilon_q} γp=q=1v1/ϵq1/ϵp

即误差越小的视图,权重越大。


四、主要贡献点

  1. 提出 FIMVC-VIA 方法:首个在大规模不完整多视图聚类中同时兼顾视图特异性与一致性的锚图方法。
  2. 视图独立锚点学习:避免了共享锚点对视图结构的破坏,更好地挖掘互补信息。
  3. 线性复杂度:时间与空间复杂度均为 O(n)O(n)O(n)m,d≪nm, d \ll nm,dn),可扩展至 Cifar10/100、MNIST 等大尺度数据集。
  4. 理论保证:目标函数单调下降,算法收敛到局部最优。
  5. 实验验证:在 7 个数据集上显著优于现有 SOTA 方法(包括 IMVC-CBG、DAIMC、UEAF 等),尤其在高缺失率下仍保持鲁棒性。

五、算法实现过程(Algorithm 1)

输入:不完整多视图数据 {Xp}p=1v\{\mathbf{X}_p\}_{p=1}^v{Xp}p=1v,缺失指示矩阵 {Hp}p=1v\{\mathbf{H}_p\}_{p=1}^v{Hp}p=1v,聚类数 kkk,锚点数 mmm,正则参数 μ\muμ

步骤

  1. 初始化

    • γp=1/v\gamma_p = 1/vγp=1/v
    • 对每个视图 ppp,用 k-means 在 XpHp\mathbf{X}_p \mathbf{H}_pXpHp 上初始化 Bp\mathbf{B}_pBp
    • 初始化 Z\mathbf{Z}Z(如均匀分布或基于初始 Bp\mathbf{B}_pBp 构造)。
  2. 迭代直至收敛

    • Step 1:对每个 ppp,计算 Λp=(Xp⊗Ap)Z⊤\boldsymbol{\Lambda}_p = (\mathbf{X}_p \otimes \mathbf{A}_p) \mathbf{Z}^\topΛp=(XpAp)Z,SVD 得 Bp=UmVm⊤\mathbf{B}_p = \mathbf{U}_m \mathbf{V}_m^\topBp=UmVm
    • Step 2:对每个样本 iii,计算 yi\mathbf{y}_iyi,投影到单纯形得 zi\mathbf{z}_izi,组成 Z\mathbf{Z}Z
    • Step 3:计算 ϵp=∥XpHp−BpZHp∥F2\epsilon_p = \|\mathbf{X}_p \mathbf{H}_p - \mathbf{B}_p \mathbf{Z} \mathbf{H}_p\|_F^2ϵp=XpHpBpZHpF2,更新 γp=(1/ϵp)/∑q(1/ϵq)\gamma_p = (1/\epsilon_p) / \sum_q (1/\epsilon_q)γp=(1/ϵp)/q(1/ϵq)
  3. 输出聚类结果

    • 对最终 Z∈Rm×n\mathbf{Z} \in \mathbb{R}^{m \times n}ZRm×n 进行 SVD,取前 kkk 个左奇异向量构成 kkk 维嵌入;
    • 在该嵌入上运行 k-means 得到聚类标签。

注:实际代码中,Xp⊗Ap\mathbf{X}_p \otimes \mathbf{A}_pXpAp 的实现通过仅对存在的样本计算,避免构造大稀疏矩阵,进一步节省内存。


综上,FIMVC-VIA 是一个高效、可扩展、兼顾视图特性与一致性的不完整多视图聚类框架,在理论和实验上均展现出显著优势。

http://www.dtcms.com/a/457078.html

相关文章:

  • 聊城网站开发培训公司网站可以免费建吗
  • 河南网站设计公司价格青岛企业网站seo技巧
  • 动态DP细谈
  • PHP Exception:深入理解与最佳实践
  • Nginx 反向代理与负载均衡
  • 学校网站建设是什么低价网站建设公司
  • 【HarmonyOS】窗口管理实战指南
  • Java基础加强13-集合框架、Stream流
  • 鸿蒙 hiperf 制作火焰图
  • 随机变量基础教程
  • 鞋子网站建设策划书北京网站设计多少钱
  • 超越传统:精密蚀刻如何实现±1μm的极致公差
  • 鸿蒙NEXT系列之鸿蒙NDK UI 初探
  • gRPC从0到1系列【25】
  • 冠县网站建设电话wordpress优化打开速度插件
  • Redis中string底层实现原理
  • 百度经验官方网站登录入口常州网站建设方案优化
  • 网站改域名如何做百度优化企业网站营销典型案例
  • Java采用easyexcel组件进行excel表格单元格的自动合并
  • 整体设计 逻辑系统程序 之18 Source 容器(Docker)承载 C/P/D 三式的完整设计与双闭环验证 之2
  • 汽车保险网站简历模板大学生
  • 基于pytest的接口测试
  • 阿里巴巴做网站需要多少钱镇江vi设计
  • 嵌入式Linux(以泰山派无 eMMC 版为例,嘉立创给的Linux镜像有问题!)系统报错磁盘不够但我用的是32G不可能不够怎么解决
  • 开源一个本地AI知识库
  • js哈哈哈哈哈哈哈哈哈哈
  • 做外汇都要看什么网站多元网站建设
  • 一些主要应用和NAT
  • AI编程开发系统028-基于Vue+SpringBoot的宠物领养系统系统(源码+部署说明+演示视频+PPT+lw)
  • MySQL连接池原理与网站数据流动(了解)