当前位置: 首页 > news >正文

强化学习-CH6 随机近似

强化学习-CH6 随机近似

6.1 Robbins-Monro(RM)

解根问题

g(w) = 0 不知道g函数的具体表达形式,只知道当给定一个输入时会给输出

image-20250830103122853

算法求解:(迭代算法)

image-20250830103148592

6.1.1 在期望值估计问题中的应用

求解E[X]

image-20250830104058800

其中image-20250830104119851

算法求解

image-20250830104216014

6.2 随机梯度下降(SGD)

SGD是一种特殊的RM算法,考虑下面的最优化问题:

image-20250830132327379

X是一个随机变量,w是参数,用梯度下降算法求解如下;

image-20250830132403144

而E往往是不知道的,所以根据大数定律可知

image-20250830153907221

梯度下降算法为:

image-20250830154005044

然后他需要一次迭代中的所有样本,可以每采集一个样本就更新一次(下面就是SGD算法)

image-20250830154500600

6.2.1 在期望值估计问题中的应用

求解下面最优化问题:

image-20250830155230524

随机梯度下降算法求解:

image-20250830155331100

6.3 BGD ,SGD 和 mini-batch GD

最小化下式

image-20250830160820737

image-20250830161311553

http://www.dtcms.com/a/358074.html

相关文章:

  • Ansible 核心运维场景落地:YUM 仓库、SSH 公钥、固定 IP 配置技巧
  • 2025年9月计算机二级C++语言程序设计——选择题打卡Day11
  • 如何取得专案/设计/设定/物件的属性
  • mysql权限user表赋权操作修改
  • 《潮汐调和分析原理和应用》之四S_Tide使用2
  • 整体设计 的语言设计:通用模型语言的标准模板语言的规格模式语言(搜狗汪仔答问)
  • 【计算机网络】生产问题排查:如何使用Wireshark抓包/读取抓包文件进行网络分析
  • 使用AI大模型Seed1.5-VL精准识别开车接打电话等交通违法行为
  • TensorFlow深度学习实战(35)——概率神经网络
  • k8s(自写)
  • Kafka 4.0 生产者配置全解析与实战调优
  • STM32手动移植FreeRTOS
  • 算法(②排序算法)
  • 吴恩达机器学习作业八:SVM支持向量机
  • react代码分割
  • 对于牛客网—语言学习篇—编程初学者入门训练—复合类型:二维数组较简单题目的解析
  • Redis(自写)
  • LeetCode第438题 - 找到字符串中所有字母异位词
  • C++ 面试高频考点 力扣 34. 在排序数组中查找元素的第一个和最后一个位置 二分查找左右端点 题解 每日一题
  • 为什么vue3会移除过滤器filter
  • JUC并发编程10 - 内存(02) - volatile
  • 生成对抗网络(GAN):深度学习领域的革命性突破
  • DriveDreamer4D
  • YOLOv11 训练参数全解析:一文掌握 epochs、batch、optimizer 调优技巧
  • MySQL-事务(下)-MySQL事务隔离级别与MVCC
  • 检索优化-混合检索
  • 捡捡java——2、基础07
  • 使用git bash ,出现Can‘t get terminal settings: The handle is invalid. 的解决方法与思路
  • 数字人分身系统源码搭建与定制开发:核心技术解析与实践路径
  • 基于 Spring Boot3 的ZKmall开源商城分层架构实践:打造高效可扩展的 Java 电商系统