当前位置: 首页 > wzjs >正文

wordpress文章倒计时淘宝怎样优化关键词

wordpress文章倒计时,淘宝怎样优化关键词,WordPress网站仿制,做网站需要写配置文件吗前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 本篇继续介绍:openai的RL开源框架Gym。在介绍之前,先来玩一个经典游戏。

1、CartPole游戏介绍

在这里插入图片描述
 如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。
 由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。

2、代码

import gymif __name__ == "__main__":env = gym.make("CartPole-v0")total_reward = 0.0total_steps = 0obs = env.reset()while True:action = env.action_space.sample()obs, reward, done, _ = env.step(action)total_reward += rewardtotal_steps += 1if done:breakprint("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

 这个代码是一个随机的智能体,即没有任何的学习策略,每次都是随机选择向左或者向右移动。同时每次调用env.step会返回当前的观察、奖励以及游戏是否结束(木棍倒了)。之后在累加奖励和步长。如果游戏结束,则跳出循环。
 可以看出,这个智能体是没有任务策略,而且也没有用到观察、以及奖励作为反馈。如果你运行代码:大概得到以下结果:
在这里插入图片描述
 从上述结果可以看出:当执行到13步时候游戏结束,且最终返回的总奖励为13。当然这个结果很差,但这只是个随机智能体版本,后续会借助RL算法来不断优化性能,使其坚持的步骤更多。

总结

 本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。

http://www.dtcms.com/wzjs/254560.html

相关文章:

  • 织梦模板大气网站建设类网站模板网络广告营销的特点
  • 网站建设开票点数太原搜索排名提升
  • 企业如何建设自己的网站东莞企业网站排名
  • 提升网站安全百度如何做广告
  • 东莞创意网站设计效果图seo工具软件
  • 网站上做烟花效果网络营销师证书含金量
  • seo建站是什么建网站用什么工具
  • 整人网站怎么做seo网站优化收藏
  • 发布页全部页面设计重庆seo培训
  • 中国建设网官网首页兰州网站seo
  • 个人视频网站注册平台挖掘爱站网
  • 做网站公司需要什么职位高端网站建设哪个好
  • 做网站优化推广的好处网站托管
  • 温州做公众号和做网站的地方微信营销的功能
  • 做的网站如何更换网站模板深圳网络推广网站
  • 全国网站建设公司深圳seo网站推广方案
  • 有关电子商务网站建设与维护的书籍seo网站推广公司
  • 响应式网站开发有哪些框架百度认证服务平台
  • 怎样建造网站百度推广官网登录
  • 做网站运营这工作怎么样互联网广告推广是什么
  • 网站权重为零自己建网站的详细步骤
  • 通州富阳网站建设重庆seo哪个强
  • joomla做的网站产品宣传推广方式有哪些
  • 网域高科学校网站管理系统漏洞哪里能搜索引擎优化
  • 济南富新网站建设百度指数网页版
  • 广州企业网站seo百度霸屏全网推广
  • 最便宜做网站搜易网托管模式的特点
  • 做货代用的网站网站关键词优化方法
  • 高端个性化网站建设广州seo网站营销
  • 个人主页网站模板哪个网站百度收录快