当前位置: 首页 > wzjs >正文

wordpress编辑网站的链接是中文百度网站ip地址

wordpress编辑网站的链接是中文,百度网站ip地址,网站换域名影响吗,wordpress响应式相册主题前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 本篇继续介绍:openai的RL开源框架Gym。在介绍之前,先来玩一个经典游戏。

1、CartPole游戏介绍

在这里插入图片描述
 如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。
 由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。

2、代码

import gymif __name__ == "__main__":env = gym.make("CartPole-v0")total_reward = 0.0total_steps = 0obs = env.reset()while True:action = env.action_space.sample()obs, reward, done, _ = env.step(action)total_reward += rewardtotal_steps += 1if done:breakprint("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

 这个代码是一个随机的智能体,即没有任何的学习策略,每次都是随机选择向左或者向右移动。同时每次调用env.step会返回当前的观察、奖励以及游戏是否结束(木棍倒了)。之后在累加奖励和步长。如果游戏结束,则跳出循环。
 可以看出,这个智能体是没有任务策略,而且也没有用到观察、以及奖励作为反馈。如果你运行代码:大概得到以下结果:
在这里插入图片描述
 从上述结果可以看出:当执行到13步时候游戏结束,且最终返回的总奖励为13。当然这个结果很差,但这只是个随机智能体版本,后续会借助RL算法来不断优化性能,使其坚持的步骤更多。

总结

 本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。

http://www.dtcms.com/wzjs/151488.html

相关文章:

  • 网站做全景图预览seo培训讲师招聘
  • 网站备案和实名认证风云榜小说排行榜
  • 做购物网站需要什么免费创建个人网页
  • 网站备案收费幕布百度热榜实时热点
  • 淄博网站建设-至信网络汕头seo优化公司
  • 电子商务网站的建设广州新闻头条最新消息
  • 福建省交通建设质量安全监督局网站电脑优化工具
  • 贵阳网站建设制作公司郑州seo关键词
  • 投资网站策划外贸是做什么的
  • 去柬埔寨做网站是传销吗广州网络推广公司
  • 要写网站建设方案如何在网络上推广产品
  • 网站开发实用技术第2版搜索引擎优化的概念
  • 播放量网站推广免费如何优化推广网站
  • 同城信息平台推广长春seo优化
  • wordpress 外链顶部条关键词排名优化公司外包
  • 软件网站技术开发公司商丘关键词优化推广
  • 献县做网站价格高端网站定制设计
  • 网站做链接的意义是什么新乡网站推广
  • 网站中如何嵌入支付宝百度网盘提取码入口
  • 河北seo网站优化公司怎么在百度上做广告
  • 诸暨网站建设公司优化百度搜索
  • 做百度推广这什么网站找客服的活动营销方案
  • 专业的集团网站建设营业推广的方式
  • 做二手房的端口网站哪有网页设计公司
  • 优秀网站设计平台台州网站seo
  • 建设企业网站包含什么seo推广优化排名软件
  • 厦门网站推广¥做下拉去118cr今日新闻简讯30条
  • 杭州 平台 公司 网站建设高端大气网站建设
  • 安徽关键词seoseo实战指导
  • composer 发布wordpressseo中国是什么