当前位置: 首页 > wzjs >正文

号号网站开发建设官网的网站首页

号号网站开发,建设官网的网站首页,wordpress上传到服务器,做翻糖的网站1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。 2. 下一时刻估计值计算:下一时刻估计值为 r_{t 1}\g…

1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。

2. 下一时刻估计值计算:下一时刻估计值为 r_{t + 1}+\gamma V(s_{t + 1}) 。其中 r_{t + 1} 是从状态 s_t 转移到 s_{t + 1} 获得的即时奖励,由环境给出;\gamma V(s_{t + 1}) 中 V(s_{t + 1}) 是之前学习得到的对下一个状态价值的估计,\gamma 是折扣因子,取值在0到1之间,衡量未来奖励重要性,二者相加得到下一时刻估计值。

3. 下一个状态价值来源:初始时所有状态价值函数随机或设为0,学习中每经历一次状态转移,根据TD更新公式更新状态价值,下一个状态价值是上一次更新后的结果,随着学习推进逐渐逼近真实价值。

4. 网格世界示例:在 3\times3 网格世界中,智能体从起始位置 S 到终止位置 G ,非终止状态即时奖励 -1,终止状态 0 ,\gamma = 0.9 ,\alpha = 0.1 。初始化价值函数为0,智能体移动时根据TD更新公式更新状态价值,如从 s_t 移动到 s_{t + 1} ,V(s_t) 按公式 V(s_t)\leftarrow V(s_t)+\alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)] 更新,不断重复使价值函数收敛。

5. 考虑移动方向情况:若每个方向移动概率相同(如都是 \frac{1}{4} ),当前状态价值函数更新会综合考虑四个方向的即时奖励和后续状态价值信息,按概率加权叠加到当前位置价值函数中。

6. 确定最优策略:为全面考虑并找最优策略,可使用状态价值函数 V(s) 综合所有方向信息更新,或使用动作价值函数 Q(s,a) ,直接为每个状态下每个动作维护价值,通过更新 Q(s,a) 确定每个状态下最优动作,进而找到最优策略 。

http://www.dtcms.com/wzjs/206618.html

相关文章:

  • 公司网站现状百度推广是什么工作
  • 做网站义乌吉林seo基础知识
  • 网站内容页面怎么做网站服务器失去响应
  • 自己做网站服务器可以吗网站seo运营培训机构
  • 哪个网站可以帮助做数学题个人网页制作
  • 成都可以做网站的公司网站百度收录批量查询
  • php网站开发套模板步骤网站推广公司推荐
  • 中国纪检监察报怎么订阅如何网站关键词优化
  • thinkphp做网站后台百度网址安全中心怎么关闭
  • 长春网站排名优化公司免费的网页网站
  • 黔彩终端效果图seo综合查询工具
  • 首次建设网站流程目前网络推广平台
  • 网站域名选择今日重大新闻
  • 网站开发公司广告word一诺网络推广公司
  • 妇产科网站建设西安seo排名收费
  • 这么做网站找个免费的网站
  • 綦江网站建设广告投放方案
  • 中国黑色网站模板市场调研表模板
  • editplus建设网站教学产品网络推广的方法
  • 专业做美食视频的网站最新seo网站优化教程
  • 城固城乡建设规划网站百度关键词价格排行榜
  • 义乌网站建设公司排名链接购买
  • 科技公司网站响应式站长工具seo综合查询怎么使用的
  • 汕头定制网站建设seo分析及优化建议
  • 新闻网站建设工作总结火星时代教育培训机构怎么样
  • 什么网站可以找人做软件阿里云服务器
  • 网站色调红黑合肥头条今日头条新闻最新消息
  • 网站加载页面怎么做如何做网络推广推广
  • wordpress 放弃企业网站排名优化公司
  • 做宣传语的网站seo关键词排名优化的方法