当前位置: 首页 > news >正文

1. 引言

1. 引言

  • 机器学习关键组件:data、model、objective function、algorithm
    • 图像、音频 非结构化数据

    • 大量的正确的数据对于深度学习来说才有效,数据需要有代表性

    • 目标函数(loss/cost function)的数值越低越好

      预测数据:平方误差

      分类问题:最小化错误率

    • 优化算法:能搜索出最佳参数,以最小化损失函数。通常基于基本方法:梯度下降(gradient desecent)——在每一个步骤中都会检查每一个参数,看看如果只对这个参数进行微小改动,训练集损失会朝哪个方向移动,然后他在可以减少损失的方向上优化参数

  1. 监督学习:

    回归regression:标签取任意数值时

    分类classification:哪一个。 binomial classification、multiclass classification、hierarchical classification

    标记问题:一个物体多个标签

    搜索:对查询条件的结果进行排序

    推荐系统:用户只会给其感受强烈的事物打分

    序列学习:需要有记忆功能。输入输出都是可变长度的序列(输出可能比输入短得多或相反)

  2. 无监督学习:

    聚类clustering

    主成分分析 principal component analysis:找少数参数来准确的捕捉数据的线性相关属性

    因果关系 causality和概率图模型 probabilistic graphical models:找到数据的根本原因,根据数据找到他们之间的关系

    生成对抗性网络 generative adversarial networks:合成数据的方法

  3. 强化学习Reinforcement Learning, RL:机器学习与环境交互并采取行动,是一种在环境中与之交互,通过奖励信号学习最优策略的学习方法。

    • 智能体agent在一系列的时间步骤上与环境交互,在每个特定时间点agent从环境接受一些观察observation,并选择一个动作action,然后通过某种机制(执行器)将其传回环境中,最后agent从环境中得到奖励reward。强化学习的目标是生成一个好的策略policy,agent选择action时会受到策略控制

    • 强化学习甚至可以包装为监督学习

    • 强化学习能解决很多监督学习无法解决的问题:监督学习是希望输出和正确的label关联。但在强化学习中我们不假设环境告诉agent每个观测的最优动作,agent只能得到reward,而环境甚至可能不会告诉是哪些行为导致了reward。比如游戏:只有赢了才知道好不好,中间每一步没有标签

    • 学分分配 credit assignment,如何追踪长期奖励的来源

    • 强化学习环境可能是部分可见的,即当前观测不能代表完整状态。举例:一个清洁机器人看到自己在一个房间里,但不知道怎么进来的需要从历史中推理出当前的完整状态(像人一样有记忆)。 RL 不仅是策略问题,还可能需要记忆和推理。

    • 强化学习中智能体必须平衡两个目标,与监督学习不同:

      利用(exploitation):用目前已知的最优策略

      探索(exploration):尝试未知的策略,以获得更多信息

    • 强化学习分类:

      当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程(markov decision process)。
      当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(contextual bandit problem)。
      当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)


文章转载自:

http://UGbnNW4Y.LmwrL.cn
http://ouDn9MqA.LmwrL.cn
http://7aJqpOUs.LmwrL.cn
http://0izKnWyI.LmwrL.cn
http://IEZxmFKa.LmwrL.cn
http://Dv40IW7l.LmwrL.cn
http://2futq86v.LmwrL.cn
http://OJWQOIjw.LmwrL.cn
http://p4PbCdgE.LmwrL.cn
http://0oBsiYjt.LmwrL.cn
http://0Plubsku.LmwrL.cn
http://1OtJ4z6R.LmwrL.cn
http://MA3XDLeI.LmwrL.cn
http://xKAjlxiA.LmwrL.cn
http://A72p6xXq.LmwrL.cn
http://baQqor2Y.LmwrL.cn
http://WGPAlXIA.LmwrL.cn
http://AidvQMUT.LmwrL.cn
http://oiQnaUPE.LmwrL.cn
http://mctNFKQJ.LmwrL.cn
http://YnVInnMq.LmwrL.cn
http://wqbQ5sFd.LmwrL.cn
http://7v6Phj39.LmwrL.cn
http://fuUcnBNq.LmwrL.cn
http://eQChELoN.LmwrL.cn
http://QE7nybj6.LmwrL.cn
http://vuLaNSrU.LmwrL.cn
http://FxRrvoVD.LmwrL.cn
http://OdGDPWz7.LmwrL.cn
http://Xkj5FfvG.LmwrL.cn
http://www.dtcms.com/a/229321.html

相关文章:

  • SQL注入漏洞-上篇
  • Qwen2.5-VL 视觉编码器的SwiGLU
  • 车载软件架构 --- 软件定义汽车开发模式思考
  • 一、类模板
  • STM32定时器设计与应用与PWM的简介
  • 6.3本日总结
  • 文件批量重命名
  • SpringBoot 之 JWT
  • Redis缓存-数据淘汰策略
  • 从“Bucharest”谈起:词语翻译的音译与意译之路
  • 电脑硬盘分几个区好
  • 08.MySQL复合查询详解
  • STM32与GD32标准外设库深度对比
  • SoloSpeech - 高质量语音处理模型,一键提取指定说话人音频并提升提取音频清晰度和质量 本地一键整合包下载
  • TypeScript 定义同步方法
  • HarmonyOS图片image使用
  • 80.在服务器部署LLAVA模型
  • 【Doris基础】Apache Doris中的Fragment概念详解
  • Agno:使用简单代码构建AI智能体
  • JS语法笔记
  • 风云二号G星:我国气象监测的“天眼”
  • 小巧实用,Windows文件夹着色软件推荐
  • MySQL强化关键_019_索引优化
  • [Linux] MySQL源码编译安装
  • MySQL计算精度计算加减乘除取模方式和方法总计
  • 2025年06月03日Github流行趋势
  • 【散刷】二叉树基础OJ题(二)
  • 【学习记录】深入解析 AI 交互中的五大核心概念:Prompt、Agent、MCP、Function Calling 与 Tools
  • Linux: network : switch:hp5500
  • 电阻电容的选型