NIPS-2001《Partially labeled classification with Markov random walks》
核心思想分析
论文的核心思想是利用马尔可夫随机游走Markov Random Walk来解决部分标记分类Partially Labeled Classification问题,即在少量标记样本和大量未标记样本的情况下进行分类。作者提出了一种基于随机游走的数据表示方法,该方法能够捕获数据的低维流形结构和密度分布,并结合少量标记样本进行分类任务。关键假设是:数据点的高密度区域或簇通常对应于单一类别,因此只需为每个簇提供少量标记即可推断整个数据集的标签。
具体而言:
- 马尔可夫随机游走表示:通过在数据点上构建邻域图并定义随机转移概率,生成一种新的表示方式,基于随机游走路径的“体积”而非最短路径,增强了对噪声的鲁棒性。
- 时间尺度参数:随机游走的时间步长 t t t 控制表示的分辨率,允许在不同粒度上探索数据结构。
- 分类方法:提出两种参数估计方法(最大似然估计与EM算法、最大平均margin估计),并通过优化时间尺度 t t t 来正则化模型,适应不同的分类任务。
- 自适应时间尺度:进一步提出为每个未标记点设置个体化的时间尺度,优化分类性能。
该方法特别适用于数据具有低维流形结构(如文本数据)的场景,相比传统分类器(如SVM)在少量标记样本下表现出显著优势。
目标函数分析
论文提出了两种主要的参数估计方法,每种方法对应一个目标函数:
-
最大似然估计(EM算法)
目标函数是标记点的条件对数似然:
∑ k = 1 L log P ( y ^ k ∣ k ) = ∑ k = 1 L log ∑ i = 1 N P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) , \sum_{k=1}^L \log P(\hat{y}_k \mid k) = \sum_{k=1}^L \log \sum_{i=1}^N P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k), k=1∑LlogP(y^k∣k)=k=1∑Llogi=1∑NP(y^k∣i)P0∣t(i∣k),
其中:- L L L 为标记点数量, N N N 为总点数;
- y ^ k \hat{y}_k y^k 为第 k k k 个点的真实标签;
- P ( y ^ k ∣ i ) P(\hat{y}_k \mid i) P(y^k∣i) 为点 i i i 属于标签 y ^ k \hat{y}_k y^k 的概率(待估计参数);
- P 0 ∣ t ( i ∣ k ) P_{0 \mid t}(i \mid k) P0∣t(i∣k) 为随机游走 t t t 步后从点 i i i 到点 k k k 的条件概率。
此目标函数是关于 P ( y ∣ i ) P(y \mid i) P(y∣i) 的凹函数,具有唯一最大值,便于通过EM算法优化。
-
最大平均margin估计
目标函数是最大化标记点上每类标签的平均margin:
max P ( y ∣ i ) , γ k d 1 C ( C − 1 ) ∑ k = 1 L ∑ d = 1 C 1 N C ( k ) γ k d , \max_{P(y \mid i), \gamma_{kd}} \frac{1}{C(C-1)} \sum_{k=1}^L \sum_{d=1}^C \frac{1}{N_{C(k)}} \gamma_{kd}, P(y∣i),γkdmaxC(C−1)1k=1∑Ld=1∑CNC(k)1γkd,
受以下约束:
P post ( y = y ^ k ∣ k ) ≥ P post ( y = d ∣ k ) + γ k d , ∀ k ∈ 1 … L , ∀ d ∈ 1 … C , P_{\text{post}}(y=\hat{y}_k \mid k) \geq P_{\text{post}}(y=d \mid k) + \gamma_{kd}, \quad \forall k \in 1 \ldots L, \quad \forall d \in 1 \ldots C, Ppost(y=y^k∣k)≥Ppost(y=d∣k)+γkd,∀k∈1…L,∀d∈1…C,
∑ c = 1 C P ( y = c ∣ i ) = 1 , 0 ≤ P ( y ∣ i ) ≤ 1 , ∀ i , \sum_{c=1}^C P(y=c \mid i) = 1, \quad 0 \leq P(y \mid i) \leq 1, \quad \forall i, c=1∑CP(y=c∣i)=1,0≤P(y∣i)≤1,∀i,
其中:- γ k d = P post ( y = y ^ k ∣ k ) − P post ( y = d ∣ k ) \gamma_{kd} = P_{\text{post}}(y=\hat{y}_k \mid k) - P_{\text{post}}(y=d \mid k) γkd=Ppost(y=y^k∣k)−Ppost(y=d∣k) 为点 k k k 在类别 d d d 上的margin;
- C C C 为类别数, N C ( k ) N_{C(k)} NC(k) 为与点 k k k 同类的标记点数;
- P post ( y ∣ k ) = ∑ i P ( y ∣ i ) P 0 ∣ t ( i ∣ k ) P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k) Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k) 为点 k k k 的后验概率。
该目标函数是一个线性规划问题,解在参数空间的极点处,得到硬性参数(0或1)。
目标函数优化过程
-
EM算法优化(最大似然估计)
EM算法通过迭代进行优化:
- E步:根据当前参数 P ( y ∣ i ) P(y \mid i) P(y∣i),计算软分配概率:
P ( i ∣ k , y ^ k ) ∝ P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) . P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k). P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k). - M步:更新参数:
P ( y ∣ i ) ← ∑ k : y ^ k = y P ( i ∣ k , y ^ k ) ∑ k P ( i ∣ k , y ^ k ) . P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}. P(y∣i)←∑kP(i∣k,y^k)∑k:y^k=yP(i∣k,y^k).
由于目标函数的凹性,EM算法保证收敛到全局最优。
- E步:根据当前参数 P ( y ∣ i ) P(y \mid i) P(y∣i),计算软分配概率:
-
最大平均margin优化
该优化问题是一个线性规划问题,具有闭式解:
P ( y = c i ∣ i ) = { 1 if c i = arg max c 1 N c ∑ k : y ^ k = c P 0 ∣ t ( i ∣ k ) , 0 otherwise . P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=ci∣i)={10if ci=argmaxcNc1∑k:y^k=cP0∣t(i∣k),otherwise.
后验概率可表示为:
P post ( y = c ∣ k ) = ∑ i : P ( y = c ∣ i ) = 1 P 0 ∣ t ( i ∣ k ) . P_{\text{post}}(y=c \mid k) = \sum_{i: P(y=c \mid i)=1} P_{0 \mid t}(i \mid k). Ppost(y=c∣k)=i:P(y=c∣i)=1∑P0∣t(i∣k).
该闭式解避免了迭代优化,计算效率高,且便于通过交叉验证调整参数(如 t t t)。 -
自适应时间尺度优化
为未标记点设置个体化时间尺度 t k t_k tk,目标是最大化标签与节点标识之间的互信息:
{ t 1 , … , t m } = arg max t 1 , … , t m I ( y ; k ) = arg max t 1 , … , t m [ H ( y ) − ∑ j P ( k = j ) H ( y ∣ k = j ) ] , \{t_1, \ldots, t_m\} = \arg\max_{t_1, \ldots, t_m} I(y; k) = \arg\max_{t_1, \ldots, t_m} \left[ H(y) - \sum_j P(k=j) H(y \mid k=j) \right], {t1,…,tm}=argt1,…,tmmaxI(y;k)=argt1,…,tmmax[H(y)−j∑P(k=j)H(y∣k=j)],
其中:- P ( y ∣ k ) = 1 Z k ∑ i : y ^ i = y P 0 ∣ t k ( i ∣ k ) P(y \mid k) = \frac{1}{Z_k} \sum_{i: \hat{y}_i=y} P_{0 \mid t_k}(i \mid k) P(y∣k)=Zk1∑i:y^i=yP0∣tk(i∣k), Z k Z_k Zk 为归一化常数;
- P ( y ) = ∑ k P ( k ) P ( y ∣ k ) P(y) = \sum_k P(k) P(y \mid k) P(y)=∑kP(k)P(y∣k), P ( k ) P(k) P(k) 为均匀分布;
- H ( y ) H(y) H(y) 和 H ( y ∣ k ) H(y \mid k) H(y∣k) 分别为标签的边际熵和条件熵。
优化通过轴平行搜索进行,初始化 t k t_k tk 为达到标记点的最小步数,迭代约5次收敛。
主要贡献点
- 新颖的表示方法:提出基于马尔可夫随机游走的数据表示,捕获低维流形结构和密度分布,优于传统的全局度量表示。
- 多类分类框架:开发了适用于多类分类的平均margin准则,并提供闭式解,提高计算效率。
- 时间尺度正则化:引入时间尺度参数 t t t 作为正则化手段,并提出基于margin的自适应选择方法。
- 自适应时间尺度:提出为每个未标记点设置个体化时间尺度,优化分类性能。
- 实验验证:在合成数据和文本分类任务(20 Newsgroups数据集)上验证了方法的有效性,特别是在少量标记样本下优于SVM。
实验结果
实验在合成数据(双月图案)和真实文本数据(20 Newsgroups的mac和windows子集)上进行:
-
合成数据实验
- 数据:150个点(2标记,148未标记),呈双月图案,具有非欧几里得流形结构。
- 设置:局部欧几里得度量, K = 5 K=5 K=5, σ = 0.6 \sigma=0.6 σ=0.6,测试 t = 3 , 10 , 30 t=3, 10, 30 t=3,10,30。
- 结果: t = 30 t=30 t=30 时分类效果最佳,随机游走充分混合,沿流形结构正确分类; t = 3 t=3 t=3 时部分点未连接到标记点,分类不完全。
-
文本分类实验
- 数据:1919个文档(958 mac,961 windows),7511维,估计流形维数>7。
- 设置: K = 10 K=10 K=10, σ = 0.6 \sigma=0.6 σ=0.6, t = 8 t=8 t=8(基于平均margin选择),标记点数从2到128。
- 结果:
- 平均margin分类器表现最佳,特别是在少量标记点(2-16个)时,显著优于SVM。
- 随着标记点增加,优势减小,但仍优于仅用标记数据的SVM。
- 自适应时间尺度未显著提升性能,90%未标记点选择最小时间尺度(最多8步)。
- 图2展示了不同 t t t 下的平均margin和分类准确率,验证了 t = 8 t=8 t=8 的合理性。
算法实现过程详细解释
以下是论文提出的马尔可夫随机游走分类算法的详细实现步骤:
-
数据预处理
- 输入:部分标记数据集 { ( x 1 , y ^ 1 ) , … , ( x L , y ^ L ) , x L + 1 , … , x N } \{(\mathbf{x}_1, \hat{y}_1), \ldots, (\mathbf{x}_L, \hat{y}_L), \mathbf{x}_{L+1}, \ldots, \mathbf{x}_N\} {(x1,y^1),…,(xL,y^L),xL+1,…,xN},其中 L ≪ N L \ll N L≪N。
- 选择局部度量 d ( x i , x j ) d(\mathbf{x}_i, \mathbf{x}_j) d(xi,xj)(如欧几里得距离),邻域大小 K K K,尺度参数 σ \sigma σ。
-
构建邻域图
- 构造对称的 K K K 最近邻图 G G G,边权重为:
W i j = exp ( − d ( x i , x j ) / σ ) , W_{ij} = \exp\left(-d(\mathbf{x}_i, \mathbf{x}_j) / \sigma\right), Wij=exp(−d(xi,xj)/σ),
若 i , j i, j i,j 非邻居则 W i j = 0 W_{ij} = 0 Wij=0,自环 W i i = 1 W_{ii} = 1 Wii=1。
- 构造对称的 K K K 最近邻图 G G G,边权重为:
-
计算转移概率
- 单步转移概率:
p i k = W i k ∑ j W i j , p_{ik} = \frac{W_{ik}}{\sum_j W_{ij}}, pik=∑jWijWik,
组成行随机矩阵 A \mathbf{A} A,其中 A i k = p i k \mathbf{A}_{ik} = p_{ik} Aik=pik。 - t t t 步转移概率:
P t ∣ 0 ( k ∣ i ) = [ A t ] i k . P_{t \mid 0}(k \mid i) = [\mathbf{A}^t]_{ik}. Pt∣0(k∣i)=[At]ik.
- 单步转移概率:
-
计算表示向量
- 假设随机游走起点均匀分布 P ( i ) = 1 / N P(i) = 1/N P(i)=1/N,计算条件概率:
P 0 ∣ t ( i ∣ k ) , P_{0 \mid t}(i \mid k), P0∣t(i∣k),
每个点 k k k 的表示为向量 { P 0 ∣ t ( i ∣ k ) } i = 1 N \{P_{0 \mid t}(i \mid k)\}_{i=1}^N {P0∣t(i∣k)}i=1N。
- 假设随机游走起点均匀分布 P ( i ) = 1 / N P(i) = 1/N P(i)=1/N,计算条件概率:
-
参数估计
- 最大似然估计(EM算法):
- 初始化 P ( y ∣ i ) P(y \mid i) P(y∣i)。
- 迭代:
- E步:计算 P ( i ∣ k , y ^ k ) ∝ P ( y ^ k ∣ i ) P 0 ∣ t ( i ∣ k ) P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k) P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k)。
- M步:更新 P ( y ∣ i ) ← ∑ k : y ^ k = y P ( i ∣ k , y ^ k ) ∑ k P ( i ∣ k , y ^ k ) P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)} P(y∣i)←∑kP(i∣k,y^k)∑k:y^k=yP(i∣k,y^k)。
- 直到收敛。
- 最大平均margin估计:
- 直接计算闭式解:
P ( y = c i ∣ i ) = { 1 if c i = arg max c 1 N c ∑ k : y ^ k = c P 0 ∣ t ( i ∣ k ) , 0 otherwise . P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=ci∣i)={10if ci=argmaxcNc1∑k:y^k=cP0∣t(i∣k),otherwise.
- 直接计算闭式解:
- 最大似然估计(EM算法):
-
时间尺度选择
- 全局时间尺度:
- 计算每个类的平均margin:
1 N c ∑ k : class ( k ) = c ∑ d γ k d , \frac{1}{N_c} \sum_{k: \text{class}(k)=c} \sum_d \gamma_{kd}, Nc1k:class(k)=c∑d∑γkd,
选择使两类margin同时较大的 t t t(如 t = 8 t=8 t=8)。
- 计算每个类的平均margin:
- 自适应时间尺度:
- 初始化 t k t_k tk 为达到标记点的最小步数。
- 优化互信息:
I ( y ; k ) = H ( y ) − ∑ j P ( k = j ) H ( y ∣ k = j ) , I(y; k) = H(y) - \sum_j P(k=j) H(y \mid k=j), I(y;k)=H(y)−j∑P(k=j)H(y∣k=j),
通过轴平行搜索调整 t k t_k tk,迭代约5次。
- 全局时间尺度:
-
分类
- 计算后验概率:
P post ( y ∣ k ) = ∑ i P ( y ∣ i ) P 0 ∣ t ( i ∣ k ) . P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k). Ppost(y∣k)=i∑P(y∣i)P0∣t(i∣k). - 分类结果:
c k = arg max c P post ( y = c ∣ k ) . c_k = \arg\max_c P_{\text{post}}(y=c \mid k). ck=argcmaxPpost(y=c∣k).
- 计算后验概率:
-
评估
- 在测试集上计算分类准确率,比较不同 t t t 和方法(如EM、margin、SVM)。
总结
该论文提出了一种创新的基于马尔可夫随机游走的分类方法,结合少量标记样本和未标记数据的流形结构,通过时间尺度正则化和自适应调整实现了高效分类。最大平均margin方法的闭式解和实验结果表明其在少量标记样本下的优越性,尤其适用于文本分类等高维数据场景。算法实现清晰,参数选择具有理论依据,提供了机器学习领域半监督学习的宝贵思路。