当前位置：首页 > news >正文

【论文分享02】A brief introduction to weakly supervised learning

news 2025/10/20 0:50:50

提示：该文是周志华老师2018年发表的文章，对弱监督学习相关理论的一个阐述，经典论文回顾一下～

系列文章

A brief introduction to weakly supervised learning

文章目录

系列文章
一、论文概述
二、论文要点
- 2.1 不完全监督
- 2.2 不确切监督
- 2.3 不精确监督
三、研究总结

一、论文概述

本论文主要介绍了弱监督学习，探讨其在数据标注成本高场景下的应用，概述了相关研究的进展，为后续研究提供了参考。下面是论文的脑图。
论文要点

二、论文要点

嘿嘿嘿

2.1 不完全监督

训练数据中仅有少量标注数据，同时存在大量未标注数据。主要技术包括主动学习和半监督学习。

主动学习： 通过向 “神谕”（如人类专家）查询未标注实例的真实标签来训练模型，目标是最小化查询次数以降低标注成本。常用选择标准有信息性和代表性，代表性方法如不确定性采样、查询委员会等，但这些方法存在依赖标注数据或聚类结果等问题，近年来有方法尝试结合二者优势。理论研究表明，在可实现情况下，主动学习可指数级提升样本复杂度；在不可实现情况下，主动学习的效果取决于噪声模型和数据特征。
半监督学习： 自动利用未标注数据提升学习性能，基于聚类假设和流形假设，认为相似数据点应有相似输出，未标注数据可揭示数据相似性。主要方法有生成式方法、基于图的方法、低密度分离方法和基于分歧的方法。生成式方法假设数据由同一固有模型生成，用 EM 算法估计未标注实例标签；基于图的方法通过构建图传播标签信息，但存在可扩展性差等问题；低密度分离方法使分类边界穿过输入空间的低密度区域；基于分歧的方法让多个学习者协作利用未标注数据，可自然地与主动学习结合。

2.2 不确切监督

监督信息不够精确，以多实例学习为典型场景，训练数据中每个样本是一个包，包内实例数量不定，仅知道包的标签，需预测未见包的标签。多数多实例学习算法通过调整单实例监督学习算法，从关注实例层面的区分转变为关注包层面的区分，或进行表示变换。多实例学习已成功应用于图像、文本分类等诸多任务，但实例的生成方式会影响学习性能。此外，部分研究尝试识别使正包为正的关键实例，多实例学习的理论研究因分析困难相对较少。

2.3 不精确监督

监督信息存在错误，典型场景是标签噪声和众包。处理标签噪声的基本思路是识别可能错误标注的样本并修正，如基于相对邻域图的方法，但在高维特征空间可靠性较低。在众包场景中，标注者的可靠性不同，存在“垃圾邮件发送者”和“对手”等问题。多数研究采用多数投票策略，也有研究尝试通过概率模型和 EM 算法等更好地利用众包标签，同时还有研究关注任务分配、预算分配和设计有效众包协议。