当前位置: 首页 > news >正文

【论文分享02】A brief introduction to weakly supervised learning

提示:该文是周志华老师2018年发表的文章,对弱监督学习相关理论的一个阐述,经典论文回顾一下~

系列文章

  1. A brief introduction to weakly supervised learning

文章目录

  • 系列文章
  • 一、论文概述
  • 二、论文要点
    • 2.1 不完全监督
    • 2.2 不确切监督
    • 2.3 不精确监督
  • 三、研究总结


一、论文概述

  本论文主要介绍了弱监督学习,探讨其在数据标注成本高场景下的应用,概述了相关研究的进展,为后续研究提供了参考。下面是论文的脑图。
论文要点


二、论文要点

  嘿嘿嘿

2.1 不完全监督

  训练数据中仅有少量标注数据,同时存在大量未标注数据。主要技术包括主动学习和半监督学习 。

  • 主动学习: 通过向 “神谕”(如人类专家)查询未标注实例的真实标签来训练模型,目标是最小化查询次数以降低标注成本。常用选择标准有信息性和代表性,代表性方法如不确定性采样、查询委员会等,但这些方法存在依赖标注数据或聚类结果等问题,近年来有方法尝试结合二者优势。理论研究表明,在可实现情况下,主动学习可指数级提升样本复杂度;在不可实现情况下,主动学习的效果取决于噪声模型和数据特征。
  • 半监督学习: 自动利用未标注数据提升学习性能,基于聚类假设和流形假设,认为相似数据点应有相似输出,未标注数据可揭示数据相似性。主要方法有生成式方法、基于图的方法、低密度分离方法和基于分歧的方法。生成式方法假设数据由同一固有模型生成,用 EM 算法估计未标注实例标签;基于图的方法通过构建图传播标签信息,但存在可扩展性差等问题;低密度分离方法使分类边界穿过输入空间的低密度区域;基于分歧的方法让多个学习者协作利用未标注数据,可自然地与主动学习结合。

2.2 不确切监督

  监督信息不够精确,以多实例学习为典型场景,训练数据中每个样本是一个包,包内实例数量不定,仅知道包的标签,需预测未见包的标签 。多数多实例学习算法通过调整单实例监督学习算法,从关注实例层面的区分转变为关注包层面的区分,或进行表示变换。多实例学习已成功应用于图像、文本分类等诸多任务,但实例的生成方式会影响学习性能。此外,部分研究尝试识别使正包为正的关键实例,多实例学习的理论研究因分析困难相对较少。

2.3 不精确监督

  监督信息存在错误,典型场景是标签噪声和众包。处理标签噪声的基本思路是识别可能错误标注的样本并修正,如基于相对邻域图的方法,但在高维特征空间可靠性较低。在众包场景中,标注者的可靠性不同,存在“垃圾邮件发送者”和“对手”等问题。多数研究采用多数投票策略,也有研究尝试通过概率模型和 EM 算法等更好地利用众包标签,同时还有研究关注任务分配、预算分配和设计有效众包协议。


三、研究总结

  监督学习在有强监督信息时成果显著,但实际任务中获取监督信息成本高,弱监督学习愈发重要。文章主要聚焦不完全、不确切和不精确监督,而实际中多种类型常同时出现且还有其他类型的弱监督,感兴趣的同学们可以搜索相关的资料进行阅读。

相关文章:

  • 如何选择更安全的无人自助管理私人影院物联网框架?
  • 谈谈 ES 6.8 到 7.10 的功能变迁(4)- 聚合功能篇
  • Java中将异步调用转为同步的五种方法
  • 【漫话机器学习系列】105.学习速率(Learning Rate)
  • 第八章:虚拟机模块的整合
  • vue-signature-pad插件实现移动端签字功能(css,js)+将签名照片旋转90度之后的base64码传给后端
  • ThinkJSON:通过强化学习让大型语言模型(LLM)严格遵守JSON模式
  • vscode多文件编译构建(CMake)和调试C++
  • 【C# 变量字符串还原转义字符】
  • 记录一下用docker克隆某授权制定ip的环境恢复
  • Vite + React + TypeScript 全流程开发最新指南
  • 神经网络发展简史:从感知机到通用智能的进化之路
  • 电脑软件:推荐一款非常强大的视频音频转换剪辑工具FFmpeg Batch AV Converter V3.12
  • 业务随行原理
  • 取消票证会把指定的票证从数据库中删除,同时也会把票证和航班 等相关表中的关联关系一起删除。但在删除之前,它会先检查当前用户是否拥有这张票
  • 【CI/CD】CI/CD环境搭建流程和持续集成环境配置
  • Jasper AI技术浅析(四):自然语言处理(NLP)与生成技术
  • 钉钉合同审批对接腾讯电子签,实现合同全流程自动化管理
  • 吐血整理:在 Docker 中运行 Milvus
  • H13-821 V3.0 HCIP 云服务架构题题库
  • 涟水做网站/seo日常优化内容是什么
  • 网站优化哪里好/全国疫情突然又严重了
  • 手机网站做桌面快捷方式/seo整站优化哪家好
  • 网站记录登录账号怎么做/网页链接制作生成
  • 深圳有做网站最近价格/免费的网站申请
  • 外贸网站建设流程/企业网站seo案例