当前位置: 首页 > news >正文

NIPS-2001《Partially labeled classification with Markov random walks》


核心思想分析

论文的核心思想是利用马尔可夫随机游走Markov Random Walk来解决部分标记分类Partially Labeled Classification问题,即在少量标记样本和大量未标记样本的情况下进行分类。作者提出了一种基于随机游走的数据表示方法,该方法能够捕获数据的低维流形结构和密度分布,并结合少量标记样本进行分类任务。关键假设是:数据点的高密度区域或簇通常对应于单一类别,因此只需为每个簇提供少量标记即可推断整个数据集的标签。

具体而言:

  • 马尔可夫随机游走表示:通过在数据点上构建邻域图并定义随机转移概率,生成一种新的表示方式,基于随机游走路径的“体积”而非最短路径,增强了对噪声的鲁棒性。
  • 时间尺度参数:随机游走的时间步长 t t t 控制表示的分辨率,允许在不同粒度上探索数据结构。
  • 分类方法:提出两种参数估计方法(最大似然估计与EM算法、最大平均margin估计),并通过优化时间尺度 t t t 来正则化模型,适应不同的分类任务。
  • 自适应时间尺度:进一步提出为每个未标记点设置个体化的时间尺度,优化分类性能。

该方法特别适用于数据具有低维流形结构(如文本数据)的场景,相比传统分类器(如SVM)在少量标记样本下表现出显著优势。


目标函数分析

论文提出了两种主要的参数估计方法,每种方法对应一个目标函数:

  1. 最大似然估计(EM算法)

    目标函数是标记点的条件对数似然:
    ∑ k = 1 L log ⁡ P ( y ^ k ∣ k ) = ∑ k = 1 L log ⁡ ∑ i = 1 N P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) , \sum_{k=1}^L \log P(\hat{y}_k \mid k) = \sum_{k=1}^L \log \sum_{i=1}^N P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k), k=1LlogP(y^kk)=k=1Llogi=1NP(y^ki)P0t(ik),
    其中:

    • L L L 为标记点数量, N N N 为总点数;
    • y ^ k \hat{y}_k y^k 为第 k k k 个点的真实标签;
    • P ( y ^ k ∣ i ) P(\hat{y}_k \mid i) P(y^ki) 为点 i i i 属于标签 y ^ k \hat{y}_k y^k 的概率(待估计参数);
    • P 0 ∣ t ( i ∣ k ) P_{0 \mid t}(i \mid k) P0t(ik) 为随机游走 t t t 步后从点 i i i 到点 k k k 的条件概率。

    此目标函数是关于 P ( y ∣ i ) P(y \mid i) P(yi) 的凹函数,具有唯一最大值,便于通过EM算法优化。

  2. 最大平均margin估计

    目标函数是最大化标记点上每类标签的平均margin:
    max ⁡ P ( y ∣ i ) , γ k d 1 C ( C − 1 ) ∑ k = 1 L ∑ d = 1 C 1 N C ( k ) γ k d , \max_{P(y \mid i), \gamma_{kd}} \frac{1}{C(C-1)} \sum_{k=1}^L \sum_{d=1}^C \frac{1}{N_{C(k)}} \gamma_{kd}, P(yi),γkdmaxC(C1)1k=1Ld=1CNC(k)1γkd,
    受以下约束:
    P post ( y = y ^ k ∣ k ) ≥ P post ( y = d ∣ k ) + γ k d , ∀ k ∈ 1 … L , ∀ d ∈ 1 … C , P_{\text{post}}(y=\hat{y}_k \mid k) \geq P_{\text{post}}(y=d \mid k) + \gamma_{kd}, \quad \forall k \in 1 \ldots L, \quad \forall d \in 1 \ldots C, Ppost(y=y^kk)Ppost(y=dk)+γkd,k1L,d1C,
    ∑ c = 1 C P ( y = c ∣ i ) = 1 , 0 ≤ P ( y ∣ i ) ≤ 1 , ∀ i , \sum_{c=1}^C P(y=c \mid i) = 1, \quad 0 \leq P(y \mid i) \leq 1, \quad \forall i, c=1CP(y=ci)=1,0P(yi)1,i,
    其中:

    • γ k d = P post ( y = y ^ k ∣ k ) − P post ( y = d ∣ k ) \gamma_{kd} = P_{\text{post}}(y=\hat{y}_k \mid k) - P_{\text{post}}(y=d \mid k) γkd=Ppost(y=y^kk)Ppost(y=dk) 为点 k k k 在类别 d d d 上的margin;
    • C C C 为类别数, N C ( k ) N_{C(k)} NC(k) 为与点 k k k 同类的标记点数;
    • P post ( y ∣ k ) = ∑ i P ( y ∣ i ) P 0 ∣ t ( i ∣ k ) P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k) Ppost(yk)=iP(yi)P0t(ik) 为点 k k k 的后验概率。

    该目标函数是一个线性规划问题,解在参数空间的极点处,得到硬性参数(0或1)。


目标函数优化过程

  1. EM算法优化(最大似然估计)

    EM算法通过迭代进行优化:

    • E步:根据当前参数 P ( y ∣ i ) P(y \mid i) P(yi),计算软分配概率:
      P ( i ∣ k , y ^ k ) ∝ P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) . P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k). P(ik,y^k)P(y^ki)P0t(ik).
    • M步:更新参数:
      P ( y ∣ i ) ← ∑ k : y ^ k = y P ( i ∣ k , y ^ k ) ∑ k P ( i ∣ k , y ^ k ) . P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}. P(yi)kP(ik,y^k)k:y^k=yP(ik,y^k).
      由于目标函数的凹性,EM算法保证收敛到全局最优。
  2. 最大平均margin优化

    该优化问题是一个线性规划问题,具有闭式解:
    P ( y = c i ∣ i ) = { 1 if  c i = arg ⁡ max ⁡ c 1 N c ∑ k : y ^ k = c P 0 ∣ t ( i ∣ k ) , 0 otherwise . P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=cii)={10if ci=argmaxcNc1k:y^k=cP0t(ik),otherwise.
    后验概率可表示为:
    P post ( y = c ∣ k ) = ∑ i : P ( y = c ∣ i ) = 1 P 0 ∣ t ( i ∣ k ) . P_{\text{post}}(y=c \mid k) = \sum_{i: P(y=c \mid i)=1} P_{0 \mid t}(i \mid k). Ppost(y=ck)=i:P(y=ci)=1P0t(ik).
    该闭式解避免了迭代优化,计算效率高,且便于通过交叉验证调整参数(如 t t t)。

  3. 自适应时间尺度优化

    为未标记点设置个体化时间尺度 t k t_k tk,目标是最大化标签与节点标识之间的互信息:
    { t 1 , … , t m } = arg ⁡ max ⁡ t 1 , … , t m I ( y ; k ) = arg ⁡ max ⁡ t 1 , … , t m [ H ( y ) − ∑ j P ( k = j ) H ( y ∣ k = j ) ] , \{t_1, \ldots, t_m\} = \arg\max_{t_1, \ldots, t_m} I(y; k) = \arg\max_{t_1, \ldots, t_m} \left[ H(y) - \sum_j P(k=j) H(y \mid k=j) \right], {t1,,tm}=argt1,,tmmaxI(y;k)=argt1,,tmmax[H(y)jP(k=j)H(yk=j)],
    其中:

    • P ( y ∣ k ) = 1 Z k ∑ i : y ^ i = y P 0 ∣ t k ( i ∣ k ) P(y \mid k) = \frac{1}{Z_k} \sum_{i: \hat{y}_i=y} P_{0 \mid t_k}(i \mid k) P(yk)=Zk1i:y^i=yP0tk(ik) Z k Z_k Zk 为归一化常数;
    • P ( y ) = ∑ k P ( k ) P ( y ∣ k ) P(y) = \sum_k P(k) P(y \mid k) P(y)=kP(k)P(yk) P ( k ) P(k) P(k) 为均匀分布;
    • H ( y ) H(y) H(y) H ( y ∣ k ) H(y \mid k) H(yk) 分别为标签的边际熵和条件熵。

    优化通过轴平行搜索进行,初始化 t k t_k tk 为达到标记点的最小步数,迭代约5次收敛。


主要贡献点

  1. 新颖的表示方法:提出基于马尔可夫随机游走的数据表示,捕获低维流形结构和密度分布,优于传统的全局度量表示。
  2. 多类分类框架:开发了适用于多类分类的平均margin准则,并提供闭式解,提高计算效率。
  3. 时间尺度正则化:引入时间尺度参数 t t t 作为正则化手段,并提出基于margin的自适应选择方法。
  4. 自适应时间尺度:提出为每个未标记点设置个体化时间尺度,优化分类性能。
  5. 实验验证:在合成数据和文本分类任务(20 Newsgroups数据集)上验证了方法的有效性,特别是在少量标记样本下优于SVM。

实验结果

实验在合成数据(双月图案)和真实文本数据(20 Newsgroups的mac和windows子集)上进行:

  1. 合成数据实验

    • 数据:150个点(2标记,148未标记),呈双月图案,具有非欧几里得流形结构。
    • 设置:局部欧几里得度量, K = 5 K=5 K=5 σ = 0.6 \sigma=0.6 σ=0.6,测试 t = 3 , 10 , 30 t=3, 10, 30 t=3,10,30
    • 结果: t = 30 t=30 t=30 时分类效果最佳,随机游走充分混合,沿流形结构正确分类; t = 3 t=3 t=3 时部分点未连接到标记点,分类不完全。
  2. 文本分类实验

    • 数据:1919个文档(958 mac,961 windows),7511维,估计流形维数>7。
    • 设置: K = 10 K=10 K=10 σ = 0.6 \sigma=0.6 σ=0.6 t = 8 t=8 t=8(基于平均margin选择),标记点数从2到128。
    • 结果:
      • 平均margin分类器表现最佳,特别是在少量标记点(2-16个)时,显著优于SVM。
      • 随着标记点增加,优势减小,但仍优于仅用标记数据的SVM。
      • 自适应时间尺度未显著提升性能,90%未标记点选择最小时间尺度(最多8步)。
      • 图2展示了不同 t t t 下的平均margin和分类准确率,验证了 t = 8 t=8 t=8 的合理性。

算法实现过程详细解释

以下是论文提出的马尔可夫随机游走分类算法的详细实现步骤:

  1. 数据预处理

    • 输入:部分标记数据集 { ( x 1 , y ^ 1 ) , … , ( x L , y ^ L ) , x L + 1 , … , x N } \{(\mathbf{x}_1, \hat{y}_1), \ldots, (\mathbf{x}_L, \hat{y}_L), \mathbf{x}_{L+1}, \ldots, \mathbf{x}_N\} {(x1,y^1),,(xL,y^L),xL+1,,xN},其中 L ≪ N L \ll N LN
    • 选择局部度量 d ( x i , x j ) d(\mathbf{x}_i, \mathbf{x}_j) d(xi,xj)(如欧几里得距离),邻域大小 K K K,尺度参数 σ \sigma σ
  2. 构建邻域图

    • 构造对称的 K K K 最近邻图 G G G,边权重为:
      W i j = exp ⁡ ( − d ( x i , x j ) / σ ) , W_{ij} = \exp\left(-d(\mathbf{x}_i, \mathbf{x}_j) / \sigma\right), Wij=exp(d(xi,xj)/σ),
      i , j i, j i,j 非邻居则 W i j = 0 W_{ij} = 0 Wij=0,自环 W i i = 1 W_{ii} = 1 Wii=1
  3. 计算转移概率

    • 单步转移概率:
      p i k = W i k ∑ j W i j , p_{ik} = \frac{W_{ik}}{\sum_j W_{ij}}, pik=jWijWik,
      组成行随机矩阵 A \mathbf{A} A,其中 A i k = p i k \mathbf{A}_{ik} = p_{ik} Aik=pik
    • t t t 步转移概率:
      P t ∣ 0 ( k ∣ i ) = [ A t ] i k . P_{t \mid 0}(k \mid i) = [\mathbf{A}^t]_{ik}. Pt0(ki)=[At]ik.
  4. 计算表示向量

    • 假设随机游走起点均匀分布 P ( i ) = 1 / N P(i) = 1/N P(i)=1/N,计算条件概率:
      P 0 ∣ t ( i ∣ k ) , P_{0 \mid t}(i \mid k), P0t(ik),
      每个点 k k k 的表示为向量 { P 0 ∣ t ( i ∣ k ) } i = 1 N \{P_{0 \mid t}(i \mid k)\}_{i=1}^N {P0t(ik)}i=1N
  5. 参数估计

    • 最大似然估计(EM算法)
      • 初始化 P ( y ∣ i ) P(y \mid i) P(yi)
      • 迭代:
        • E步:计算 P ( i ∣ k , y ^ k ) ∝ P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k) P(ik,y^k)P(y^ki)P0t(ik)
        • M步:更新 P ( y ∣ i ) ← ∑ k : y ^ k = y P ( i ∣ k , y ^ k ) ∑ k P ( i ∣ k , y ^ k ) P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)} P(yi)kP(ik,y^k)k:y^k=yP(ik,y^k)
      • 直到收敛。
    • 最大平均margin估计
      • 直接计算闭式解:
        P ( y = c i ∣ i ) = { 1 if  c i = arg ⁡ max ⁡ c 1 N c ∑ k : y ^ k = c P 0 ∣ t ( i ∣ k ) , 0 otherwise . P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=cii)={10if ci=argmaxcNc1k:y^k=cP0t(ik),otherwise.
  6. 时间尺度选择

    • 全局时间尺度
      • 计算每个类的平均margin:
        1 N c ∑ k : class ( k ) = c ∑ d γ k d , \frac{1}{N_c} \sum_{k: \text{class}(k)=c} \sum_d \gamma_{kd}, Nc1k:class(k)=cdγkd,
        选择使两类margin同时较大的 t t t(如 t = 8 t=8 t=8)。
    • 自适应时间尺度
      • 初始化 t k t_k tk 为达到标记点的最小步数。
      • 优化互信息:
        I ( y ; k ) = H ( y ) − ∑ j P ( k = j ) H ( y ∣ k = j ) , I(y; k) = H(y) - \sum_j P(k=j) H(y \mid k=j), I(y;k)=H(y)jP(k=j)H(yk=j),
        通过轴平行搜索调整 t k t_k tk,迭代约5次。
  7. 分类

    • 计算后验概率:
      P post ( y ∣ k ) = ∑ i P ( y ∣ i ) P 0 ∣ t ( i ∣ k ) . P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k). Ppost(yk)=iP(yi)P0t(ik).
    • 分类结果:
      c k = arg ⁡ max ⁡ c P post ( y = c ∣ k ) . c_k = \arg\max_c P_{\text{post}}(y=c \mid k). ck=argcmaxPpost(y=ck).
  8. 评估

    • 在测试集上计算分类准确率,比较不同 t t t 和方法(如EM、margin、SVM)。

总结

该论文提出了一种创新的基于马尔可夫随机游走的分类方法,结合少量标记样本和未标记数据的流形结构,通过时间尺度正则化和自适应调整实现了高效分类。最大平均margin方法的闭式解和实验结果表明其在少量标记样本下的优越性,尤其适用于文本分类等高维数据场景。算法实现清晰,参数选择具有理论依据,提供了机器学习领域半监督学习的宝贵思路。

相关文章:

  • 网站开发工具和平台2023全民核酸又开始了
  • 个人建网站成本营销策略4p
  • 1717做网站手机百度网页版
  • 建设通查询设通网站app拉新推广平台代理
  • 一个工厂做网站有什么好处找客源免费用哪个软件好
  • 营销和运营的区别是什么seo诊断站长
  • 收银机安装飞牛NAS自动息屏方案
  • 程序猿成长之路之数据挖掘篇——聚类算法介绍
  • 01-StarRocks安装部署FAQ
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 10(题目+回答)
  • linux grep的一些坑
  • (3)ROS2:6-dof前馈+PD / 阻抗控制器
  • 交易期权先从买方开始
  • 【AI大模型】Spring AI 基于Redis实现对话持久存储详解
  • 华为云对象存储OBS 支持安卓/iOS/鸿蒙UTS组件
  • SQL Server 查询数据库及数据文件大小
  • 工作流会使用到Webhook是什么
  • 爬取小红书相关数据导入到excel
  • C++ 第二阶段:运算符重载 - 第二节:重载与 const 成员函数
  • Linux 文件 I/O 与标准 I/O 缓冲机制详解
  • 【JavaEE】(4) 文件操作和IO
  • Ribbon负载均衡的具体实现原理
  • MyBatis Plus与P6Spy日志配置
  • OpenSIPS 邂逅 Kafka:构建高效 VoIP 消息处理架构
  • UAVAI-YOLO:无人机航拍图像的小目标检测模型
  • 深度优化OSS上传性能:多线程分片上传 vs 断点续传实战对比