当前位置: 首页 > news >正文

免费商标查询官网网站优化建设兰州

免费商标查询官网,网站优化建设兰州,安装 wordpress多人,企业网站后台内容如何修改1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。 2. 下一时刻估计值计算:下一时刻估计值为 r_{t 1}\g…

1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。

2. 下一时刻估计值计算:下一时刻估计值为 r_{t + 1}+\gamma V(s_{t + 1}) 。其中 r_{t + 1} 是从状态 s_t 转移到 s_{t + 1} 获得的即时奖励,由环境给出;\gamma V(s_{t + 1}) 中 V(s_{t + 1}) 是之前学习得到的对下一个状态价值的估计,\gamma 是折扣因子,取值在0到1之间,衡量未来奖励重要性,二者相加得到下一时刻估计值。

3. 下一个状态价值来源:初始时所有状态价值函数随机或设为0,学习中每经历一次状态转移,根据TD更新公式更新状态价值,下一个状态价值是上一次更新后的结果,随着学习推进逐渐逼近真实价值。

4. 网格世界示例:在 3\times3 网格世界中,智能体从起始位置 S 到终止位置 G ,非终止状态即时奖励 -1,终止状态 0 ,\gamma = 0.9 ,\alpha = 0.1 。初始化价值函数为0,智能体移动时根据TD更新公式更新状态价值,如从 s_t 移动到 s_{t + 1} ,V(s_t) 按公式 V(s_t)\leftarrow V(s_t)+\alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)] 更新,不断重复使价值函数收敛。

5. 考虑移动方向情况:若每个方向移动概率相同(如都是 \frac{1}{4} ),当前状态价值函数更新会综合考虑四个方向的即时奖励和后续状态价值信息,按概率加权叠加到当前位置价值函数中。

6. 确定最优策略:为全面考虑并找最优策略,可使用状态价值函数 V(s) 综合所有方向信息更新,或使用动作价值函数 Q(s,a) ,直接为每个状态下每个动作维护价值,通过更新 Q(s,a) 确定每个状态下最优动作,进而找到最优策略 。

http://www.dtcms.com/a/580059.html

相关文章:

  • 赣州网站seo传奇网页游戏制作
  • 深圳前50强网站建设公司常德网站定制
  • 全网整合营销推广seo搜索优化公司报价
  • 电子商务网站设计原理书籍杭州网站开发公司
  • 做二手车有哪些网站有哪些手续费长沙企业建站程序
  • 自己切片做网站企业如何进行seo
  • 模板建站网络服务器无响应
  • nginx 网站开发莱芜在线论坛话题莱芜都市网
  • 网站建设运营维护啥意思怎么查询网站的点击量
  • wordpress 移植海城整站优化
  • 网上自己建网站成品网站1688入门网
  • 合肥网站建设市场分析国内十大少儿编程品牌
  • 上海网站建设 公司案例北京seo排名服务
  • 长沙 网站运营oa系统网页版
  • 哈尔滨优化建站哪家专业北京南站停车场收费标准
  • 怎么做视频解析的网站网站方案组成要素
  • 制作企业网站软件做创意ppt网站有哪些
  • 麦积区建设局网站外包公司名单
  • 国内优秀企业网站东莞快速排名
  • 辽阳免费网站建设微信公众平台官网手机版
  • 上海发布微信公众号网站快速排名优化哪家好
  • 自己动手获取网站访客qq号码网站建设永远在路上
  • 如何下载别人的网站模板如何做网络营销网站
  • 中国工商网官方网站wordpress api接口 APP
  • 建设培训网站办安全员c证网站搜索引擎优化的步骤
  • 中心网站建设方法网站建设中出现的错误代码
  • 南宁网站平台wordpress文章页的宽度
  • 怎么套用网站模板轻量云做网站怎么样
  • 青海网站建设公司哪家好网站建设与维护模板
  • 网站建设先进个人西安企业网站建设模板