当前位置: 首页 > wzjs >正文

大良网站智能推广价格在线生成网站

大良网站智能推广价格,在线生成网站,php网站投票源码,做英语翻译赚钱的网站前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 本篇继续介绍:openai的RL开源框架Gym。在介绍之前,先来玩一个经典游戏。

1、CartPole游戏介绍

在这里插入图片描述
 如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。
 由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。

2、代码

import gymif __name__ == "__main__":env = gym.make("CartPole-v0")total_reward = 0.0total_steps = 0obs = env.reset()while True:action = env.action_space.sample()obs, reward, done, _ = env.step(action)total_reward += rewardtotal_steps += 1if done:breakprint("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

 这个代码是一个随机的智能体,即没有任何的学习策略,每次都是随机选择向左或者向右移动。同时每次调用env.step会返回当前的观察、奖励以及游戏是否结束(木棍倒了)。之后在累加奖励和步长。如果游戏结束,则跳出循环。
 可以看出,这个智能体是没有任务策略,而且也没有用到观察、以及奖励作为反馈。如果你运行代码:大概得到以下结果:
在这里插入图片描述
 从上述结果可以看出:当执行到13步时候游戏结束,且最终返回的总奖励为13。当然这个结果很差,但这只是个随机智能体版本,后续会借助RL算法来不断优化性能,使其坚持的步骤更多。

总结

 本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。

http://www.dtcms.com/wzjs/125425.html

相关文章:

  • 山东网站建设工作室网站设计的毕业论文
  • 如何查看网站开发的语言抓取关键词的软件
  • 静态网站维护谷歌seo外包公司哪家好
  • dooplay主题wordpressseo公司多少钱
  • 新余建设网站媒体135网站
  • 凤翔网站制作竞价托管服务多少钱
  • 网站建设公司哪家强新闻头条今日要闻军事
  • 建设嘉陵摩托车官方网站西安排名seo公司
  • 阿里巴巴建站多少钱2020年可用好用的搜索引擎
  • 青浦网站招营业员做一休一搜索引擎营销方案例子
  • 网站开发语言格式化标记语言在线外链工具
  • 企业做网站的意义seo建设
  • python基础教程电子版网站seo策划方案案例分析
  • 廊坊中小企业网站制作哪个平台可以免费推广
  • 成都网站建设推广在磁力搜索引擎下载
  • 网站没有流量怎么回事市场营销推广方案模板
  • wordpress制作网站网络平台推广方式
  • 城市文明建设网站域名注册1元
  • 58同城建网站怎么做考研培训机构排名前十
  • 百度企业查公司名录安卓优化大师老版本下载
  • 广州公司网站提供百度指数怎么算
  • wordpress asp.net优化落实疫情防控
  • 做旅游网站图片哪里找阿里指数
  • 兰州网站建设hiteethseo对网络推广的作用是什么?
  • 家具设计软件有哪些软件网站的排名优化怎么做
  • 深圳罗湖做网站公司哪家好企业新网站seo推广
  • 网站作品怎么做链接谷歌google play下载
  • 负责公司网站的日常管理寻找外贸客户的网站
  • 天津建设网站哪家好百度网站推广怎么做
  • 焦作网站建设哪家正规微信怎么推广