Lecture1 绪论
Lecture1 绪论
写在前面:
科学、技术、工程、应用
-  
  -  科学:研究是什么、为什么的问题; 
-  技术:研究怎么做的问题; 
-  工程:怎么可以做的多快好省; 
-  应用:实际的使用; 
 
-  
-  举例来说,科学可以发现“陶瓷可以做刀”,技术就是研究“怎样在实验室做刀”,工程是研究“工业化如何做刀”,应用就是”用到砍树“ 
-  本课程学习的内容主要是在学习1,2层级的内容,值得注意的是,下层次的产物比上层次更容易过时 
强人工智能与弱人工智能
强人工智能的目的是”造人“,弱人工智能的目的是”造工具“;
人工智能的发展阶段
- 推理期 -> 知识期 -> 学习期;
机器学习
- 经典定义:利用经验改善系统自身的性能
- 机器学习有什么用? 
  - 我们今天进入了大数据时代,但是 大数据  
        
         
          
          
            ≠ 
           
          
         
           \ne 
          
         
       = 大价值,
 机器学习就像是挖掘金矿的铲子,目的是发掘出有价值的部分
 
- 我们今天进入了大数据时代,但是 大数据  
        
         
          
          
            ≠ 
           
          
         
           \ne 
          
         
       = 大价值,
- 机器学习已经无处不在
- 机器学习并非一切皆可学: 
  - 特征信息不充分:比如重要的特征信息没有获得
- 样本信息不充分:比如只有很少的样本数据
 
机器学习的理论基础 PAC
- 计算学习理论,Leslie Valiant(莱斯利 维利昂特)
P A C ( P r o b a b l y A p p r o x i m a t e l y C o r r e c t , 概率近似正确 ) P ( ∣ f ( x ) − y ∣ ≤ ϵ ) ≥ 1 − δ (1) PAC(Probably Approximately Correct,概率近似正确) \newline P(|f(x)-y| \le \epsilon) \ge 1 - \delta \tag{1} PAC(ProbablyApproximatelyCorrect,概率近似正确)P(∣f(x)−y∣≤ϵ)≥1−δ(1)
机器学习解决的问题常常是 NP、 NPC 这样的问题;而理论基础就在于 PAC
基本术语
监督学习、无监督学习、半监督学习
一些术语
独立同分布假设(i.i.d)
假设空间与版本空间
我们可以这样来理解”学习过程“:
- 学习过程就是在所有的假设组成的空间中进行搜索的过程
在很多语境中,学习 - 搜索 - 优化,这三个词语具有相似的内涵
这句话很值得深思,建议读者常常试着从这样的思路中考虑问题
h ^ ← min  h ∈ H O b j ( h ) \hat h \leftarrow \min_{h \in \mathcal{H} } Obj(h) h^←h∈HminObj(h)
结合上面的公式来理解,学习 - 搜索 - 优化 就统一在了一起
从版本空间到归纳偏好
我们把与训练集一致的假设集合称为”版本空间“,这里隐含的是:有多个假设是符合训练集的
 在这种情况下,我们就要考虑: 究竟要学习什么哪一个模型?
 因此,我们就因除了 归纳偏好 这个概念
归纳偏好:
归纳偏好的其中一种原则是 ”奥卡姆剃刀原则“,也就是 ”若非必要,勿增实体“;
 但是下面的 NFL定理,”没有免费的午餐“ 指出了任何一种算法都有自己不适用的场景;
 也就是说,不存在一种普适的原则,机器学习还是要讲究 具体问题具体分析
NFL定理(No Free Lunch)
NFL定理:
 NFL定理:一个算法 
     
      
       
        
        
          L 
         
        
          a 
         
        
       
      
        \mathfrak{L}_a 
       
      
    La 若在某些问题上比另一个算法 
     
      
       
        
        
          L 
         
        
          b 
         
        
       
      
        \mathfrak{L}_b 
       
      
    Lb好,必定存在另一些问题,$\mathfrak{L}_b $比  
     
      
       
        
        
          L 
         
        
          a 
         
        
       
      
        \mathfrak{L}_a 
       
      
    La更好
证明:
 简单起见,假设样本空间  
     
      
       
       
         X 
        
       
      
        \mathcal{X} 
       
      
    X 和假设空间  
     
      
       
       
         H 
        
       
      
        \mathcal{H} 
       
      
    H 离散
- 记
∑ E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ⋅ I { h ( x ) ≠ f ( x ) } ⋅ P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( X ) ∑ h P ( h ∣ X , L a ) ⋅ ∑ f I { h ( x ) ≠ f ( x ) } 这里关注的是,无论 h 如何,在均匀分布视角下,都是可以直接求和的 = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) ⋅ 1 2 2 ∣ X ∣ = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ⋅ 1 \sum E_{ote}(\mathfrak{L}_a |X,f) \newline = \sum_f \sum_h \sum_{x \in \mathcal{X} - X} P(x) \cdot I\{h(x) \ne f(x) \} \cdot P(h|X, \mathfrak{L}_a) \newline = \sum_{x \in \mathcal{X}-X} P(X) \sum_h P(h | X, \mathfrak{L}_a) \cdot \sum_f I \{{h(x)} \ne f(x) \} \newline 这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的 \newline =\sum_{x \in \mathfrak{X} - X} P(x) \sum_h P(h |X, \mathfrak{L}_a) \cdot \frac 1 2 2^{|\mathcal{X}|} \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \sum_h P(h| X, \mathfrak{L}_a) \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \cdot 1 ∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)⋅I{h(x)=f(x)}⋅P(h∣X,La)=x∈X−X∑P(X)h∑P(h∣X,La)⋅f∑I{h(x)=f(x)}这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的=x∈X−X∑P(x)h∑P(h∣X,La)⋅212∣X∣=2∣X∣−1x∈X−X∑P(x)h∑P(h∣X,La)=2∣X∣−1x∈X−X∑P(x)⋅1
- 我们可以看到,最终的总误差保证与学习算法是无关的!!
