当前位置: 首页 > wzjs >正文

平谷微网站建设百度知道小程序

平谷微网站建设,百度知道小程序,wordpress实时交流插件,html网站开发目标前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 本篇继续介绍:openai的RL开源框架Gym。在介绍之前,先来玩一个经典游戏。

1、CartPole游戏介绍

在这里插入图片描述
 如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。
 由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。

2、代码

import gymif __name__ == "__main__":env = gym.make("CartPole-v0")total_reward = 0.0total_steps = 0obs = env.reset()while True:action = env.action_space.sample()obs, reward, done, _ = env.step(action)total_reward += rewardtotal_steps += 1if done:breakprint("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

 这个代码是一个随机的智能体,即没有任何的学习策略,每次都是随机选择向左或者向右移动。同时每次调用env.step会返回当前的观察、奖励以及游戏是否结束(木棍倒了)。之后在累加奖励和步长。如果游戏结束,则跳出循环。
 可以看出,这个智能体是没有任务策略,而且也没有用到观察、以及奖励作为反馈。如果你运行代码:大概得到以下结果:
在这里插入图片描述
 从上述结果可以看出:当执行到13步时候游戏结束,且最终返回的总奖励为13。当然这个结果很差,但这只是个随机智能体版本,后续会借助RL算法来不断优化性能,使其坚持的步骤更多。

总结

 本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。

http://www.dtcms.com/wzjs/484994.html

相关文章:

  • 广州哪里能建铝制自建房宁波seo推广外包公司
  • led外贸网站国家职业技能培训学校
  • 滨州网站开发网站上不去首页seo要怎么办
  • 白山做网站沈阳关键词seo排名
  • wordpress仪表盘添加内容市场seo是什么
  • 营销型网站的功能如何免费做网站网页
  • 微网站 底部导航菜单无锡网站建设
  • dedecms旅游网站模板微软优化大师
  • 优秀网页设计代码东莞网站建设优化
  • 微信小程序怎么做网站最好的免费推广平台
  • 国内免费视频素材无水印素材网站google下载手机版
  • 如何用vs2010做网站seo每日
  • 公司转让费用seo专业培训费用
  • 手机网站一般做多大尺寸百度seo官方网站
  • 网站开发实用技术pdf怎么做链接推广产品
  • 增城高端定制网站建设正规推广赚佣金的平台
  • 定制网站建设公司有哪些搜索排名广告营销怎么做
  • 上海做网站多少钱查域名
  • jsp动态网站开发视频教程深圳高端网站建设公司
  • 3 建设营销型网站流程图自动的网站设计制作
  • app下载我的订单seo中国是什么
  • 用jsp加点mvc做网站怎么样郑州做网站推广资讯
  • 淘宝客网站搜索怎么做百度收录链接
  • 荥阳市建设局 网站百度文库首页
  • 佛山行业网站设计公司下载百度app免费下载安装
  • 做百度网站那家好seo网站排名助手
  • 甘肃找人做网站多少钱厦门人才网唯一官网
  • 新沂网站建设公司网站提交收录软件
  • wordpress php5.6知乎推广优化
  • 公司注销网站备案申请表宁波seo公司排名榜