机器学习简单概述
Chatgpt回答:
- 机器学习:机器学习是人工智能的一个分支,侧重于通过数据训练模型,使计算机能够根据数据进行预测、分类、回归等任务。它通过算法从历史数据中学习规律,然后在新数据上进行推断。机器学习包括多种算法,如**线性回归、决策树、支持向量机(SVM)、K最近邻(KNN)**等。
- 深度学习:深度学习是机器学习的一个子集,它基于人工神经网络(特别是深层神经网络)来模拟人类大脑的学习方式。深度学习能够处理复杂的数据结构(如图像、语音、文本等),并能够自动从原始数据中提取特征,而不需要人工特征工程。
1.统计学习方法概论
监督学习:告诉它哪些东西是好的,哪些东西是坏的,依据这些来学习。
实现步骤:1.得到一个有限的训练数据集合;2.确定模型的假设空间,也就是所有的备选模型;3.确定模型选择的准则,即学习策略;4.实现求解最优模型的算法;5.通过学习方法选择最优模型;6.利用学习的最优模型对新数据进行预测或分析
数据集的划分
- 训练集:模型的训练
- 测试集:模型的选择
- 验证集:模型的评估
- 统计学习路线:设计模型->训练->预测
- 监督学习与非监督学习的联系与区别
- 统计学习三要素:模型、策略、算法
- 模型的评估:训练误差、验证误差、测试误差
- 正则化与交叉严重
- 泛化能力:泛化误差上界
- 生成模型与判别模型的联想与区别
- 分类问题:准确率、精确率、召回率、F1值
- 标准问题
- 回归问题:输出为连续的值
2.感知机——入门的垫脚石
超平面
- 感知机通过构造超平面的形式划分不同类的点。
- 感知机属于线性判别模型,因为它的判别边界是线性的。
- 函数间隔和几何间隔的区别
3.K近邻——物以类聚
- K近邻的思想:物以类聚
- K近邻没有显式的训练过场
- 距离度量:欧式距离、曼哈顿距离、切比雪夫距离
- 欧式距离:两点之间直线
- 曼哈顿距离:城市街区距离
- 切比雪夫距离:棋盘距离
- 分类方式:多数表决规则
欧式距离、曼哈顿距离、切比雪夫距离
4.朴素贝叶斯
条件概率公式:
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{P(B \mid A) P(A)}{P(B)} P(A∣B)=P(B)P(AB)=P(B)P(B∣A)P(A)
表示已发生事件B的情况下,事件A发生的概率。
5.决策树——每次选一边
信息熵:在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。
熵越大,则随机变量的不确定性越大。
信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
信息增益算法:
输入:训练数据集D和特征A
输出:特征A对训练数据集D的信息
信息增益比:
如果以信息增益为划分依据,存在偏向选择取值较多的特征,信息增益是对这一问题进行矫正。
- 决策树的核心思想:以树结构为基础,每个节点对某特征进行判断,进入分支,直到到达叶节点。
- 决策树构造的核心思想:让信息熵快速下降,从而达到最少的判断次数获得标签。
- 判断信息熵下降速度的方法:信息增益。
- 构建决策树算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。
- 信息增益会导致节点偏向选取取值角度的特征的问题。
6.逻辑斯蒂回归于最大熵
- 逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别,同时概率也可作为模型输出的置信程度。
- 逻辑斯蒂使得了最终的模型函数连续可微,训练目标与预测目标达成一致。
- 逻辑斯蒂采用了较大似然估计来估计参数。
最大熵:趋向于均匀分布,即可最大
7.支持向量机——升维打击
Support vector machines (SVM)
这里提到了最优超平面,在感知机里面,我们说的是超平面,现在通过SVM升维,存在最优超平面,就不是线性的了。
升维一定会线性可分?会不会升到无穷维了仍然线性不可分?
答案是不会的,首先要明白,我们的数据集一定是基于真实的某种分布,分为A类的样本和B类的一定在本质上有区别。只要有区别,就一定可以区分开来,一定在某个高维度上线性可分。