当前位置：首页 > news >正文

1. 引言

news 2025/9/10 15:11:31

1. 引言

机器学习关键组件：data、model、objective function、algorithm
- 图像、音频非结构化数据
- 大量的正确的数据对于深度学习来说才有效，数据需要有代表性
- 目标函数(loss/cost function)的数值越低越好
  
  预测数据：平方误差
  
  分类问题：最小化错误率
- 优化算法：能搜索出最佳参数，以最小化损失函数。通常基于基本方法：梯度下降(gradient desecent)——在每一个步骤中都会检查每一个参数，看看如果只对这个参数进行微小改动，训练集损失会朝哪个方向移动，然后他在可以减少损失的方向上优化参数

监督学习：

回归regression：标签取任意数值时

分类classification：哪一个。 binomial classification、multiclass classification、hierarchical classification

标记问题：一个物体多个标签

搜索：对查询条件的结果进行排序

推荐系统：用户只会给其感受强烈的事物打分

序列学习：需要有记忆功能。输入输出都是可变长度的序列（输出可能比输入短得多或相反）
无监督学习：

聚类clustering

主成分分析 principal component analysis：找少数参数来准确的捕捉数据的线性相关属性

因果关系 causality和概率图模型 probabilistic graphical models：找到数据的根本原因，根据数据找到他们之间的关系

生成对抗性网络 generative adversarial networks：合成数据的方法
强化学习Reinforcement Learning, RL：机器学习与环境交互并采取行动，是一种在环境中与之交互，通过奖励信号学习最优策略的学习方法。
- 智能体agent在一系列的时间步骤上与环境交互，在每个特定时间点agent从环境接受一些观察observation，并选择一个动作action，然后通过某种机制（执行器）将其传回环境中，最后agent从环境中得到奖励reward。强化学习的目标是生成一个好的策略policy，agent选择action时会受到策略控制
- 强化学习甚至可以包装为监督学习
- 强化学习能解决很多监督学习无法解决的问题：监督学习是希望输出和正确的label关联。但在强化学习中我们不假设环境告诉agent每个观测的最优动作，agent只能得到reward，而环境甚至可能不会告诉是哪些行为导致了reward。比如游戏：只有赢了才知道好不好，中间每一步没有标签
- 学分分配 credit assignment，如何追踪长期奖励的来源
- 强化学习环境可能是部分可见的，即当前观测不能代表完整状态。举例：一个清洁机器人看到自己在一个房间里，但不知道怎么进来的需要从历史中推理出当前的完整状态（像人一样有记忆）。 RL 不仅是策略问题，还可能需要记忆和推理。
- 强化学习中智能体必须平衡两个目标，与监督学习不同：
  
  利用（exploitation）：用目前已知的最优策略
  
  探索（exploration）：尝试未知的策略，以获得更多信息
- 强化学习分类：
  
  当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。
  当状态不依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。
  当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi-armed bandit problem）。