当前位置: 首页 > news >正文

集成学习的相关理论阐述

一、个体与集成

  • 集成学习就是用某种策略把一组个体学习器(某种学习方法产生的,也可叫做组件学习器)结合起来。
  • 同样的学习方法得到的个体学习器是同质的;且同质集成的个体学习器叫基学习器,相应的算法又叫做基学习算法;不同学习方法集成的叫做异质集成,其中就没有基学习器。
  • 要获得好的集成,个体学习器需要“好而不同”,即个体学习器要有一定的准确性,且各自之间要具有差异。
  • 集成方法分类:
    • 个体学习器间存在强依赖关系、必须串行生成的序列化方法(例 Boosting);
    • 个体学习器间不存在强依赖关系、可同时生成的并行化方法(例如 Bagging 和随机森林);

二、Boosting 介绍

  • 这是一个将弱学习器提升为强学习器的算法:先训练一个基学习器,然后根据其表现来调整训练样本,使得错误的样本在之后受到更多关注,然后一直重复,直到学习器数目达到要求(每轮样本重新赋权,一定要比前一轮好才会保留)。
  • 该算法主要是关注降低偏差。

三、Bagging 和随机森林

  • Bagging 本质就相当于概率论的球袋模型(不可用于多分类、回归任务);
    • 通过自助采样法从原始训练集中有放回地抽取多个子样本集;
    • 基于每个子样本集独立训练一个基学习器;
    • 将所有基学习器的预测结果进行组合(分类问题通常使用投票法,回归问题通常使用平均法)得到最终预测;
  • 随机森林的核心思想是 "集体决策",即通过多个决策树的投票(分类)或平均(回归)来提升模型的泛化能力。
    • 随机森林是 Bagging 的扩展,专门基于决策树,并在 Bagging 的基础上进一步引入随机特征选择(每个节点分裂时仅考虑部分随机特征),从而增强模型的多样性,减少过拟合,提升泛化能力。简言之,随机森林 = Bagging + 随机特征选择 + 决策树,而 Bagging 可适用于任意基学习器;
  • 二者的收敛性是相似的。

四、学习器结合

  • 平均法(适合数值型输出)
    • 简单平均;
    • 加权平均;
  • 投票法(适合多分类任务等)
    • 绝对多数投票法(超过半数);
    • 相对多数投票法(得票最多,同时多个则随机选一个);
    • 加权投票法;
  • 学习法:使用不同的算法训练初级学习器(异质个体学习器),然后使用“生成”新的数据集训练次级学习器(就是初级结合起来的学习器)。

五、误差-分歧分解

  • 其实就是为了理想化集成,在保持个体学习器准确性的前提下( E(个体学习器平均误差)越小越好),尽可能增大学习器间的多样性( D(平均分歧度)越大多样性越好)。

E=\overline{E}-\overline{A}\space.

六、不合度量

  • 两个分类器在预测相同样本时的不一致的比例,反应决策边界差异。

\mathrm{Dis}_{i,j}=\frac{N^{01}+N^{10}}{N}\space,

        N^{01}N^{10} 分别是 i 分类器预测正确,但是 j 分类器预测错误的样本数;以及 i 分类器预测错误,j 分类器预测正确的样本数;N 是总样本数;其结果的值越大表示两个分类器的分歧越大。

七、相关系数

  • 皮尔逊相关系数

\rho_{X,Y}=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}}

        其中 \mathrm{Cov(X,Y)} 是协方差,\sigma_X,\sigma_Y 是标准差,\overline{X},\overline{Y} 是均值。

  • \rho_{i,j}=\frac{N^{11}N^{00}-N^{01}N^{10}}{\sqrt{(N^{11}+N^{01})(N^{11}+N^{10})(N^{00}+N^{01})(N^{00}+N^{10})}}

        其中的 01 的含义和上一个不合度量中的含义基本相同。其取值范围为 [-1,1] ,若二者无关则为 0 ,正相关值为正,不然就是负值。

八、其他度量

  • Q-统计量、\kappa-统计量。

九、多样性增强

  • 数据样本扰动:通过对训练数据施加有策略的扰动(如重采样、加权、噪声注入等),使不同基学习器从不同视角学习数据,从而提升集成的泛化能力。
  • 输入属性扰动:通过对特征空间(输入变量)进行有策略的干扰或变换,使不同基学习器关注不同的特征子集或特征表示,从而提升集成的泛化能力。
  • 输出属性扰动:通过改变基学习器的预测输出来增强模型多样性的技术。
  • 算法参数扰动(直接干预模型自身构建):通过有策略地改变基学习器的超参数或训练过程来增强模型多样性的技术。
http://www.dtcms.com/a/299305.html

相关文章:

  • RocketMQ学习系列之——特殊消息类型
  • 塞舌尔公司良好信誉证明Certificate of Good Standing证书的用途
  • 大众化餐饮:把日常过成诗
  • 基于POD和DMD方法的压气机叶片瞬态流场分析与神经网络预测
  • 幸福网咖订座点餐小程序的设计与实现
  • 启动式service
  • Java同步锁性能优化:15个高效实践与深度解析
  • ARM SMMUv3控制器初始化及设备树分析(七)
  • Cgroup 控制组学习(一)
  • org.apache.lucene.search.Query#rewrite(IndexSearcher)过时讲解
  • C程序内存布局详解
  • Linux内核设计与实现 - 第14章 块I/O层
  • Aerospike Java客户端核心API实战指南:从基础操作到高级功能全解析
  • JAVA算法题练习day1
  • 迅为RK3568开发板OpeHarmony学习开发手册1.1-内核移植优化
  • Caffeine 缓存库的常用功能使用介绍
  • 端到端测试:确保Web应用程序的完整性和可靠性
  • Spark-TTS 使用
  • CPU 为什么需要缓存?揭开速度与效率的底层逻辑
  • 网安-中间件-Redis未授权访问漏洞
  • Flutter控件归纳总结
  • 解决VSCode中Github Copilot无法登陆的问题
  • 从零开始的云计算生活——第三十六天,山雨欲来,Ansible入门
  • Windows 平台源码部署 Dify教程(不依赖 Docker)
  • 电脑开机后网络连接慢?
  • Rust嵌入式开发实战
  • 垃圾回收算法与垃圾收集器
  • 数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
  • 深入解析三大Web安全威胁:文件上传漏洞、SQL注入漏洞与WebShell
  • MySQL 8.0 OCP 1Z0-908 题目解析(37)