【论文分享02】A brief introduction to weakly supervised learning
提示:该文是周志华老师2018年发表的文章,对弱监督学习相关理论的一个阐述,经典论文回顾一下~
系列文章
- A brief introduction to weakly supervised learning
文章目录
- 系列文章
- 一、论文概述
- 二、论文要点
- 2.1 不完全监督
- 2.2 不确切监督
- 2.3 不精确监督
- 三、研究总结
一、论文概述
本论文主要介绍了弱监督学习,探讨其在数据标注成本高场景下的应用,概述了相关研究的进展,为后续研究提供了参考。下面是论文的脑图。
二、论文要点
嘿嘿嘿
2.1 不完全监督
训练数据中仅有少量标注数据,同时存在大量未标注数据。主要技术包括主动学习和半监督学习 。
- 主动学习: 通过向 “神谕”(如人类专家)查询未标注实例的真实标签来训练模型,目标是最小化查询次数以降低标注成本。常用选择标准有信息性和代表性,代表性方法如不确定性采样、查询委员会等,但这些方法存在依赖标注数据或聚类结果等问题,近年来有方法尝试结合二者优势。理论研究表明,在可实现情况下,主动学习可指数级提升样本复杂度;在不可实现情况下,主动学习的效果取决于噪声模型和数据特征。
- 半监督学习: 自动利用未标注数据提升学习性能,基于聚类假设和流形假设,认为相似数据点应有相似输出,未标注数据可揭示数据相似性。主要方法有生成式方法、基于图的方法、低密度分离方法和基于分歧的方法。生成式方法假设数据由同一固有模型生成,用 EM 算法估计未标注实例标签;基于图的方法通过构建图传播标签信息,但存在可扩展性差等问题;低密度分离方法使分类边界穿过输入空间的低密度区域;基于分歧的方法让多个学习者协作利用未标注数据,可自然地与主动学习结合。
2.2 不确切监督
监督信息不够精确,以多实例学习为典型场景,训练数据中每个样本是一个包,包内实例数量不定,仅知道包的标签,需预测未见包的标签 。多数多实例学习算法通过调整单实例监督学习算法,从关注实例层面的区分转变为关注包层面的区分,或进行表示变换。多实例学习已成功应用于图像、文本分类等诸多任务,但实例的生成方式会影响学习性能。此外,部分研究尝试识别使正包为正的关键实例,多实例学习的理论研究因分析困难相对较少。
2.3 不精确监督
监督信息存在错误,典型场景是标签噪声和众包。处理标签噪声的基本思路是识别可能错误标注的样本并修正,如基于相对邻域图的方法,但在高维特征空间可靠性较低。在众包场景中,标注者的可靠性不同,存在“垃圾邮件发送者”和“对手”等问题。多数研究采用多数投票策略,也有研究尝试通过概率模型和 EM 算法等更好地利用众包标签,同时还有研究关注任务分配、预算分配和设计有效众包协议。
三、研究总结
监督学习在有强监督信息时成果显著,但实际任务中获取监督信息成本高,弱监督学习愈发重要。文章主要聚焦不完全、不确切和不精确监督,而实际中多种类型常同时出现且还有其他类型的弱监督,感兴趣的同学们可以搜索相关的资料进行阅读。