第3周 机器学习课堂记录
1.学习问题的分类
- 有监督的学习
- 分类
- 回归
- 无监督学习
- 聚类
- 密度估计:确定输入空间中的数据的分布
- 可视化:把高位空间中的数据投影到二维或三维空间
- 强化学习
- 不给定最优输出的示例,而是通过试错发现最优输出
2.泛化versus过度拟合
背景引入:多项式曲线拟合
目标函数:
损失函数:最小平方和
- 泛化:正确预测不同于用于训练的数据的新观察的能力
- 过拟合:目标函数的模型y过度拟合训练数据,如果存在一个可选的模型y‘满足
,
但是
其中,是训练数据上的误差,而
是整个数据分布上的误差
- 欠拟合
3.用于模型比较的测试集
- 测试集:一个独立的数据集,可以获得泛化性能对M的依赖的一些定量的领悟。
- root-mean-square(RMS) error 均方根误差
- 除以N使得我们能够在平等的基础上比较不同大小的数据集
- 开放确保
与目标变量t具有同样的尺度和量纲
4.Regularization正则化
- 一种常用于控制过拟合现象的技术
- 给误差函数添加一个惩罚项,以阻止系数达到大的值
- 其中
- 并且系数λ控制正则化项与平方和误差项相比的相对重要性。
5.验证集
达成模型复杂度的适合的值的一种简单方法,通过把可用的数据划分成:
- 一个训练集,用于确定系数w
- 一个验证集,也叫做hold-out set,用于优化模型复杂度(要么M,要么λ)
训练集:确定模型参数w
测试集:评价模型泛化性质
验证集:调节模型超参M
6.Gaussian Distribution 高斯分布
单个实值变量x的情形,高斯分布定义为
式中 是均值(mean),
是方差(variance),方差的平方根
叫做标准误(standard deviation),方差的倒数
叫做精度(precision)。
7.Gaussian Parameter Estimation
- 数据集
,表示标量x的N个观察。
- 数据独立地从同一个高斯分布采样得到,均值和方差未知。
- 利用数据集确定高斯分布的参数。
- 由于数据集
独立同分布,因此,给定μ和方差σ2,数据集的概率(似然)
8.Maximum(Log) Likelihood 最大似然估计
- 对数似然函数
- 最大似然解
- 样本均值
- 样本方差
- 样本均值
9.Limitations of the Maximum Likelihood Approach
- 系统地低估分布的方差
(有估计偏差)
- 和过拟合有密切关系