Lecture1 绪论
Lecture1 绪论
写在前面:
科学、技术、工程、应用
-
-
科学:研究是什么、为什么的问题;
-
技术:研究怎么做的问题;
-
工程:怎么可以做的多快好省;
-
应用:实际的使用;
-
-
举例来说,科学可以发现“陶瓷可以做刀”,技术就是研究“怎样在实验室做刀”,工程是研究“工业化如何做刀”,应用就是”用到砍树“
-
本课程学习的内容主要是在学习1,2层级的内容,值得注意的是,下层次的产物比上层次更容易过时
强人工智能与弱人工智能
强人工智能的目的是”造人“,弱人工智能的目的是”造工具“;
人工智能的发展阶段
- 推理期 -> 知识期 -> 学习期;
机器学习
- 经典定义:利用经验改善系统自身的性能
- 机器学习有什么用?
- 我们今天进入了大数据时代,但是 大数据
≠
\ne
= 大价值,
机器学习就像是挖掘金矿的铲子,目的是发掘出有价值的部分
- 我们今天进入了大数据时代,但是 大数据
≠
\ne
= 大价值,
- 机器学习已经无处不在
- 机器学习并非一切皆可学:
- 特征信息不充分:比如重要的特征信息没有获得
- 样本信息不充分:比如只有很少的样本数据
机器学习的理论基础 PAC
- 计算学习理论,Leslie Valiant(莱斯利 维利昂特)
P A C ( P r o b a b l y A p p r o x i m a t e l y C o r r e c t , 概率近似正确 ) P ( ∣ f ( x ) − y ∣ ≤ ϵ ) ≥ 1 − δ (1) PAC(Probably Approximately Correct,概率近似正确) \newline P(|f(x)-y| \le \epsilon) \ge 1 - \delta \tag{1} PAC(ProbablyApproximatelyCorrect,概率近似正确)P(∣f(x)−y∣≤ϵ)≥1−δ(1)
机器学习解决的问题常常是 NP、 NPC 这样的问题;而理论基础就在于 PAC
基本术语
监督学习、无监督学习、半监督学习
一些术语
独立同分布假设(i.i.d)
假设空间与版本空间
我们可以这样来理解”学习过程“:
- 学习过程就是在所有的假设组成的空间中进行搜索的过程
在很多语境中,学习 - 搜索 - 优化,这三个词语具有相似的内涵
这句话很值得深思,建议读者常常试着从这样的思路中考虑问题
h ^ ← min h ∈ H O b j ( h ) \hat h \leftarrow \min_{h \in \mathcal{H} } Obj(h) h^←h∈HminObj(h)
结合上面的公式来理解,学习 - 搜索 - 优化 就统一在了一起
从版本空间到归纳偏好
我们把与训练集一致的假设集合称为”版本空间“,这里隐含的是:有多个假设是符合训练集的
在这种情况下,我们就要考虑: 究竟要学习什么哪一个模型?
因此,我们就因除了 归纳偏好 这个概念
归纳偏好:
归纳偏好的其中一种原则是 ”奥卡姆剃刀原则“,也就是 ”若非必要,勿增实体“;
但是下面的 NFL定理,”没有免费的午餐“ 指出了任何一种算法都有自己不适用的场景;
也就是说,不存在一种普适的原则,机器学习还是要讲究 具体问题具体分析
NFL定理(No Free Lunch)
NFL定理:
NFL定理:一个算法
L
a
\mathfrak{L}_a
La 若在某些问题上比另一个算法
L
b
\mathfrak{L}_b
Lb好,必定存在另一些问题,$\mathfrak{L}_b $比
L
a
\mathfrak{L}_a
La更好
证明:
简单起见,假设样本空间
X
\mathcal{X}
X 和假设空间
H
\mathcal{H}
H 离散
- 记
∑ E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ⋅ I { h ( x ) ≠ f ( x ) } ⋅ P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( X ) ∑ h P ( h ∣ X , L a ) ⋅ ∑ f I { h ( x ) ≠ f ( x ) } 这里关注的是,无论 h 如何,在均匀分布视角下,都是可以直接求和的 = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) ⋅ 1 2 2 ∣ X ∣ = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ⋅ 1 \sum E_{ote}(\mathfrak{L}_a |X,f) \newline = \sum_f \sum_h \sum_{x \in \mathcal{X} - X} P(x) \cdot I\{h(x) \ne f(x) \} \cdot P(h|X, \mathfrak{L}_a) \newline = \sum_{x \in \mathcal{X}-X} P(X) \sum_h P(h | X, \mathfrak{L}_a) \cdot \sum_f I \{{h(x)} \ne f(x) \} \newline 这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的 \newline =\sum_{x \in \mathfrak{X} - X} P(x) \sum_h P(h |X, \mathfrak{L}_a) \cdot \frac 1 2 2^{|\mathcal{X}|} \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \sum_h P(h| X, \mathfrak{L}_a) \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \cdot 1 ∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)⋅I{h(x)=f(x)}⋅P(h∣X,La)=x∈X−X∑P(X)h∑P(h∣X,La)⋅f∑I{h(x)=f(x)}这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的=x∈X−X∑P(x)h∑P(h∣X,La)⋅212∣X∣=2∣X∣−1x∈X−X∑P(x)h∑P(h∣X,La)=2∣X∣−1x∈X−X∑P(x)⋅1
- 我们可以看到,最终的总误差保证与学习算法是无关的!!