集成学习的相关理论阐述
一、个体与集成
- 集成学习就是用某种策略把一组个体学习器(某种学习方法产生的,也可叫做组件学习器)结合起来。
- 同样的学习方法得到的个体学习器是同质的;且同质集成的个体学习器叫基学习器,相应的算法又叫做基学习算法;不同学习方法集成的叫做异质集成,其中就没有基学习器。
- 要获得好的集成,个体学习器需要“好而不同”,即个体学习器要有一定的准确性,且各自之间要具有差异。
- 集成方法分类:
- 个体学习器间存在强依赖关系、必须串行生成的序列化方法(例
);
- 个体学习器间不存在强依赖关系、可同时生成的并行化方法(例如
和随机森林);
- 个体学习器间存在强依赖关系、必须串行生成的序列化方法(例
二、Boosting 介绍
- 这是一个将弱学习器提升为强学习器的算法:先训练一个基学习器,然后根据其表现来调整训练样本,使得错误的样本在之后受到更多关注,然后一直重复,直到学习器数目达到要求(每轮样本重新赋权,一定要比前一轮好才会保留)。
- 该算法主要是关注降低偏差。
三、Bagging 和随机森林
本质就相当于概率论的球袋模型(不可用于多分类、回归任务);
- 通过自助采样法从原始训练集中有放回地抽取多个子样本集;
- 基于每个子样本集独立训练一个基学习器;
- 将所有基学习器的预测结果进行组合(分类问题通常使用投票法,回归问题通常使用平均法)得到最终预测;
- 随机森林的核心思想是 "集体决策",即通过多个决策树的投票(分类)或平均(回归)来提升模型的泛化能力。
- 随机森林是
的扩展,专门基于决策树,并在
的基础上进一步引入随机特征选择(每个节点分裂时仅考虑部分随机特征),从而增强模型的多样性,减少过拟合,提升泛化能力。简言之,随机森林 =
+ 随机特征选择 + 决策树,而
可适用于任意基学习器;
- 随机森林是
- 二者的收敛性是相似的。
四、学习器结合
- 平均法(适合数值型输出)
- 简单平均;
- 加权平均;
- 投票法(适合多分类任务等)
- 绝对多数投票法(超过半数);
- 相对多数投票法(得票最多,同时多个则随机选一个);
- 加权投票法;
- 学习法:使用不同的算法训练初级学习器(异质个体学习器),然后使用“生成”新的数据集训练次级学习器(就是初级结合起来的学习器)。
五、误差-分歧分解
- 其实就是为了理想化集成,在保持个体学习器准确性的前提下(
(个体学习器平均误差)越小越好),尽可能增大学习器间的多样性(
(平均分歧度)越大多样性越好)。
六、不合度量
- 两个分类器在预测相同样本时的不一致的比例,反应决策边界差异。
和
分别是
分类器预测正确,但是
分类器预测错误的样本数;以及
分类器预测错误,
分类器预测正确的样本数;
是总样本数;其结果的值越大表示两个分类器的分歧越大。
七、相关系数
- 皮尔逊相关系数:
其中 是协方差,
是标准差,
是均值。
其中的 和
的含义和上一个不合度量中的含义基本相同。其取值范围为
,若二者无关则为
,正相关值为正,不然就是负值。
八、其他度量
-统计量、
-统计量。
九、多样性增强
- 数据样本扰动:通过对训练数据施加有策略的扰动(如重采样、加权、噪声注入等),使不同基学习器从不同视角学习数据,从而提升集成的泛化能力。
- 输入属性扰动:通过对特征空间(输入变量)进行有策略的干扰或变换,使不同基学习器关注不同的特征子集或特征表示,从而提升集成的泛化能力。
- 输出属性扰动:通过改变基学习器的预测输出来增强模型多样性的技术。
- 算法参数扰动(直接干预模型自身构建):通过有策略地改变基学习器的超参数或训练过程来增强模型多样性的技术。