当前位置: 首页 > wzjs >正文

网站开发李沛杰推广策略有哪些方法

网站开发李沛杰,推广策略有哪些方法,网站建设小程序,自己怎么网上注销公司1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。 2. 下一时刻估计值计算:下一时刻估计值为 r_{t 1}\g…

1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。

2. 下一时刻估计值计算:下一时刻估计值为 r_{t + 1}+\gamma V(s_{t + 1}) 。其中 r_{t + 1} 是从状态 s_t 转移到 s_{t + 1} 获得的即时奖励,由环境给出;\gamma V(s_{t + 1}) 中 V(s_{t + 1}) 是之前学习得到的对下一个状态价值的估计,\gamma 是折扣因子,取值在0到1之间,衡量未来奖励重要性,二者相加得到下一时刻估计值。

3. 下一个状态价值来源:初始时所有状态价值函数随机或设为0,学习中每经历一次状态转移,根据TD更新公式更新状态价值,下一个状态价值是上一次更新后的结果,随着学习推进逐渐逼近真实价值。

4. 网格世界示例:在 3\times3 网格世界中,智能体从起始位置 S 到终止位置 G ,非终止状态即时奖励 -1,终止状态 0 ,\gamma = 0.9 ,\alpha = 0.1 。初始化价值函数为0,智能体移动时根据TD更新公式更新状态价值,如从 s_t 移动到 s_{t + 1} ,V(s_t) 按公式 V(s_t)\leftarrow V(s_t)+\alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)] 更新,不断重复使价值函数收敛。

5. 考虑移动方向情况:若每个方向移动概率相同(如都是 \frac{1}{4} ),当前状态价值函数更新会综合考虑四个方向的即时奖励和后续状态价值信息,按概率加权叠加到当前位置价值函数中。

6. 确定最优策略:为全面考虑并找最优策略,可使用状态价值函数 V(s) 综合所有方向信息更新,或使用动作价值函数 Q(s,a) ,直接为每个状态下每个动作维护价值,通过更新 Q(s,a) 确定每个状态下最优动作,进而找到最优策略 。

http://www.dtcms.com/wzjs/532228.html

相关文章:

  • 国内包装设计网站海外网站推广的公司
  • 阿里备案成功后怎么做网站谷歌seo搜索优化
  • 3d建模视频教学台州seo排名优化
  • 网站推广方式组合网上做推广怎么收费
  • 家具网站建设比较好的百度app首页
  • 只做同城交易的网站石家庄最新新闻事件
  • 东凤镇做网站公司百度官方推广平台
  • 南京网站建设案例新榜数据平台
  • 奉贤长沙网站建设朝阳seo建站
  • 专业网站建设设计seo排名优化软件价格
  • 做全景哪个网站不模糊东莞网站推广策划
  • 潍坊网站制作 熊掌号东莞seo排名外包
  • wordpress 网站图标免费域名注册平台
  • 专门做ppt的网站名称沈阳专业网站seo推广
  • 门户网站开发报价单自媒体seo是什么意思
  • 做fpga的网站seo产品是什么意思
  • 做网站搞个物理服务器百度搜索热度排名
  • 网站怎么做自适应百度秒收录技术
  • 网站建设寻求简述seo和sem的区别
  • 怎么在南京人社网站做失业登记网络推广的工作内容
  • 音乐分享网站源码全国互联网营销大赛官网
  • 建站优化是什么关键词优化seo多少钱一年
  • 北京网站平台建设重庆seo全面优化
  • wordpress的分享插件下载地址企业站seo
  • 无锡网站制作哪里有怎么建立网站的步骤
  • 网站开发技术题目国内推广平台有哪些
  • 大亚湾展示网站建设平台竞价恶意点击犯法吗
  • 用css做网站的代码品牌推广策划方案
  • 中国最好的域名注册网站色盲测试图片60张
  • 芯港小镇建设管理中心网站seo分析工具有哪些