当前位置: 首页 > news >正文

Lecture1 绪论

Lecture1 绪论

写在前面:

科学、技术、工程、应用
    1. 科学:研究是什么、为什么的问题;

    2. 技术:研究怎么做的问题;

    3. 工程:怎么可以做的多快好省

    4. 应用:实际的使用;

  • 举例来说,科学可以发现“陶瓷可以做刀”,技术就是研究“怎样在实验室做刀”,工程是研究“工业化如何做刀”,应用就是”用到砍树“

  • 本课程学习的内容主要是在学习1,2层级的内容,值得注意的是,下层次的产物比上层次更容易过时

强人工智能与弱人工智能

强人工智能的目的是”造人“,弱人工智能的目的是”造工具“;

人工智能的发展阶段
  • 推理期 -> 知识期 -> 学习期;

机器学习

  • 经典定义:利用经验改善系统自身的性能
  • 机器学习有什么用?
    • 我们今天进入了大数据时代,但是 大数据 ≠ \ne = 大价值,
      机器学习就像是挖掘金矿的铲子,目的是发掘出有价值的部分
  • 机器学习已经无处不在
  • 机器学习并非一切皆可学:
    • 特征信息不充分:比如重要的特征信息没有获得
    • 样本信息不充分:比如只有很少的样本数据
机器学习的理论基础 PAC
  • 计算学习理论,Leslie Valiant(莱斯利 维利昂特)

P A C ( P r o b a b l y A p p r o x i m a t e l y C o r r e c t , 概率近似正确 ) P ( ∣ f ( x ) − y ∣ ≤ ϵ ) ≥ 1 − δ (1) PAC(Probably Approximately Correct,概率近似正确) \newline P(|f(x)-y| \le \epsilon) \ge 1 - \delta \tag{1} PAC(ProbablyApproximatelyCorrect,概率近似正确)P(f(x)yϵ)1δ(1)

机器学习解决的问题常常是 NP、 NPC 这样的问题;而理论基础就在于 PAC

基本术语

监督学习、无监督学习、半监督学习
一些术语
独立同分布假设(i.i.d)
假设空间与版本空间

我们可以这样来理解”学习过程“:

  • 学习过程就是在所有的假设组成的空间中进行搜索的过程

在很多语境中,学习 - 搜索 - 优化,这三个词语具有相似的内涵

这句话很值得深思,建议读者常常试着从这样的思路中考虑问题

h ^ ← min ⁡ h ∈ H O b j ( h ) \hat h \leftarrow \min_{h \in \mathcal{H} } Obj(h) h^hHminObj(h)

结合上面的公式来理解,学习 - 搜索 - 优化 就统一在了一起

从版本空间到归纳偏好

我们把与训练集一致的假设集合称为”版本空间“,这里隐含的是:有多个假设是符合训练集的
在这种情况下,我们就要考虑: 究竟要学习什么哪一个模型?
因此,我们就因除了 归纳偏好 这个概念

归纳偏好:

归纳偏好的其中一种原则是 ”奥卡姆剃刀原则“,也就是 ”若非必要,勿增实体“;
但是下面的 NFL定理,”没有免费的午餐“ 指出了任何一种算法都有自己不适用的场景;
也就是说,不存在一种普适的原则,机器学习还是要讲究 具体问题具体分析

NFL定理(No Free Lunch)

NFL定理
NFL定理:一个算法 L a \mathfrak{L}_a La 若在某些问题上比另一个算法 L b \mathfrak{L}_b Lb好,必定存在另一些问题,$\mathfrak{L}_b $比 L a \mathfrak{L}_a La更好

证明:
简单起见,假设样本空间 X \mathcal{X} X 和假设空间 H \mathcal{H} H 离散

∑ E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ⋅ I { h ( x ) ≠ f ( x ) } ⋅ P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( X ) ∑ h P ( h ∣ X , L a ) ⋅ ∑ f I { h ( x ) ≠ f ( x ) } 这里关注的是,无论 h 如何,在均匀分布视角下,都是可以直接求和的 = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) ⋅ 1 2 2 ∣ X ∣ = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ⋅ 1 \sum E_{ote}(\mathfrak{L}_a |X,f) \newline = \sum_f \sum_h \sum_{x \in \mathcal{X} - X} P(x) \cdot I\{h(x) \ne f(x) \} \cdot P(h|X, \mathfrak{L}_a) \newline = \sum_{x \in \mathcal{X}-X} P(X) \sum_h P(h | X, \mathfrak{L}_a) \cdot \sum_f I \{{h(x)} \ne f(x) \} \newline 这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的 \newline =\sum_{x \in \mathfrak{X} - X} P(x) \sum_h P(h |X, \mathfrak{L}_a) \cdot \frac 1 2 2^{|\mathcal{X}|} \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \sum_h P(h| X, \mathfrak{L}_a) \newline = 2^{|\mathcal{X}| - 1} \sum_{x \in \mathcal {X} - X} P(x) \cdot 1 Eote(LaX,f)=fhxXXP(x)I{h(x)=f(x)}P(hX,La)=xXXP(X)hP(hX,La)fI{h(x)=f(x)}这里关注的是,无论h如何,在均匀分布视角下,都是可以直接求和的=xXXP(x)hP(hX,La)212X=2X1xXXP(x)hP(hX,La)=2X1xXXP(x)1

  • 我们可以看到,最终的总误差保证与学习算法是无关的!!

相关文章:

  • java项目之基于ssm的在线学习系统(源码+文档)
  • ✨SQL-递归CTE
  • 【PyCharm】Python和PyCharm的相互关系和使用联动介绍
  • 【2025】Electron Git Desktop 实战一(上)(架构及首页设计开发)
  • 安全测试数据的分析、报告及业务应用
  • LLM预训练过程-简明版本
  • 400. 第 N 位数字
  • ajax组件是什么
  • zerotier搭建免费moon服务器
  • 2.5 Spring Boot异常处理全局化:@ControllerAdvice实战
  • 刷leetcode hot100--动态规划3.12
  • RHCE大纲
  • std::ranges::views::reverse, std::ranges::reverse_view
  • 什么是 Java 的 SPI(Service Provider Interface)机制?
  • doris:外表统计信息
  • mock的定义和使用场景
  • LORA中 软提示是什么
  • LoRA,DoRA,RSLoRA,LoRA+ 是什么
  • STM32外部中断
  • 复现 MoGe
  • 王毅谈中拉命运共同体建设“五大工程”及落实举措
  • 俄官员说将适时宣布与乌克兰谈判代表
  • 京东一季度净利增长五成,营收增速创近三年新高,称外卖业务取得显著进展
  • 《淮水竹亭》:一手好牌,为何打成这样
  • 泽连斯基表示将在土耳其“等候”普京
  • 印度一战机在巴基斯坦旁遮普省被击落,飞行员被俘