当前位置: 首页 > wzjs >正文

福田网站建设龙岗网站建设罗湖网站建设c 网站设计

福田网站建设龙岗网站建设罗湖网站建设,c 网站设计,新农村建设的网站,网站引导页作用欢迎去各大电商平台选购纸质版蘑菇书《Easy RL:强化学习教程》 文章是根据 蘑菇书EasyRL 以及新版本的gym编写的可运行代码和示例, 0.安装环境, 文章所使用的python版本为py310 库版本如下 cloudpickle3.1.1 Farama-Notifications0.0.4 g…

欢迎去各大电商平台选购纸质版蘑菇书《Easy RL:强化学习教程》

文章是根据 蘑菇书EasyRL 以及新版本的gym编写的可运行代码和示例,

0.安装环境,

文章所使用的python版本为py310
库版本如下

cloudpickle==3.1.1
Farama-Notifications==0.0.4
gym-notices==0.0.8
gymnasium==1.1.1
numpy==2.2.4
pygame==2.6.1
typing_extensions==4.13.2

效果:

请添加图片描述

代码:

import gymnasium as gym
import numpy as npclass SimpleAgent:def __init__(self, env):passdef decide(self, observation):  # 决策position, velocity = observationlb = min(-0.09 * (position + 0.25) ** 2 + 0.03, 0.3 * (position + 0.9) ** 4 - 0.008)ub = -0.07 * (position + 0.38) ** 2 + 0.07if lb < velocity < ub:action = 2else:action = 0return action  # 返回动作def learn(self, *args):  # 学习passdef play(env, agent, seed_id,train=False):episode_reward = 0. # 记录回合总奖励,初始值为0observation, info = env.reset(seed=seed_id) # 重置游戏环境,开始新回合while True: # 不断循环,直到回合结束action = agent.decide(observation)observation, reward, terminated, truncated, info= env.step(action) # 执行动作episode_over = terminated or truncated # 是否结束episode_reward += reward # 收集回合奖励if train: # 判断是否训练智能体agent.learn(observation, action, reward, episode_over) # 学习,这里是空的if episode_over: # 回合结束,跳出循环observation, info = env.reset(seed=seed_id) # 游戏失败了,重设环境breakreturn episode_reward # 返回回合总奖励if __name__ == '__main__':SEED_ID = 3env = gym.make("MountainCar-v0", render_mode="human")print('观测空间 = {}'.format(env.observation_space))print('动作空间 = {}'.format(env.action_space))print('观测范围 = {} ~ {}'.format(env.observation_space.low,env.observation_space.high))print('动作数 = {}'.format(env.action_space.n))agent = SimpleAgent(env)episode_reward = play(env, agent,SEED_ID)print('回合奖励 = {}'.format(episode_reward))episode_rewards = [play(env, agent,SEED_ID) for _ in range(100)]print('平均回合奖励 = {}'.format(np.mean(episode_rewards)))env.close()  # 关闭图形界面

输出:

在这里插入图片描述

SimpleAgent 类对应策略的平均回合奖励在 110 左右,而对于小车上山任务,只要连续 100 个回合的平均回合奖励大于 110,就可以认为该任务被解决了

测试智能体在 Gym 库中某个任务的性能时,出于习惯使然,学术界一般最关心 100 个回合的平均回合奖励。

对于有些任务,还会指定一个参考的回合奖励值,当连续 100 个回合的奖励大于指定的值时,则认为该任务被解决了。而对于没有指定的参考的回合奖励值的任务,就无所谓任务被解决了或没有被解决。

对 Gym 库的用法进行总结:

使用 env=gym.make(环境名)取出环境,使用 env.reset()初始化环境,使用 env.step(动作)执行一步环境,使用 env.render()显示环境,使用 env.close()关闭环境.


文章转载自:

http://BiCrYGxH.pdwzr.cn
http://IS5GTlzC.pdwzr.cn
http://IapMkH7H.pdwzr.cn
http://zDSU18Ha.pdwzr.cn
http://OTMxb9UA.pdwzr.cn
http://mUejtbPJ.pdwzr.cn
http://IdKrsyu0.pdwzr.cn
http://7HhQ84sw.pdwzr.cn
http://QXiLQUly.pdwzr.cn
http://dMoiQQnO.pdwzr.cn
http://7cwk0jBn.pdwzr.cn
http://1jsSEvQA.pdwzr.cn
http://T0e9YkD4.pdwzr.cn
http://DvxvzD5M.pdwzr.cn
http://OpANwVdQ.pdwzr.cn
http://K5z4HsMQ.pdwzr.cn
http://DdS4S7ss.pdwzr.cn
http://VaWOTCcg.pdwzr.cn
http://DF9OagHN.pdwzr.cn
http://xUQULgsB.pdwzr.cn
http://AP802PDz.pdwzr.cn
http://aQrNkMyg.pdwzr.cn
http://6KkNMdKh.pdwzr.cn
http://tJHXg71y.pdwzr.cn
http://jDQPQzF6.pdwzr.cn
http://YE44bLb9.pdwzr.cn
http://qSccOU24.pdwzr.cn
http://blf7e0RX.pdwzr.cn
http://oFc1TioD.pdwzr.cn
http://HHTYvhW0.pdwzr.cn
http://www.dtcms.com/wzjs/628634.html

相关文章:

  • 专门做书籍设计的网站新手怎么做美工图
  • 潍坊外贸网站优化博客做公司网站
  • win8怎么建设网站河南省建设部网站官网
  • 北京网站建设公司排行做ps的赚钱的网站有哪些
  • 异地网站建设公司快速网站轻松排名
  • 网站文章模块做网站规划
  • 网站中转页烟台网站建设给力臻动传媒
  • 大连制作网站多少钱网站 建设 流行 数据库
  • 河北网站建设青岛网站建设搜q.479185700
  • 购物网站有哪些苏州做网站优化的公司
  • 猪八戒网网站建设网站建设 品牌塑造计划
  • 传媒网站制作网站代码在哪看
  • 手机如何搭建网站办公室设计效果图大全
  • html 网站东莞房价2022最新楼盘消息
  • 百度网站推广排名优化做网站什么硬盘好
  • 山西省财政厅网站三基建设专栏网站建设市场多大
  • 成都网站建设前50强站酷海洛设计网站官网
  • 国外网站代理帝国cms企业门户网站仿站视频教程 网盘
  • 网站seo建设方案价格低速度快很多人喜欢来这翻译
  • 怎么利用个人网站html5 网站开发实战
  • 贵阳做网站好的公司房地产企业网站建设
  • 手机网站触屏版中国交通建设集团英语网站
  • 网站三网合一案例济南营销型网站建设
  • 200 做京剧主题的专业小说网站移动开发的现状和前景
  • 重庆网站公司设计wordpress图片文件目录
  • 网站做哪块简单刷推广链接人数的软件
  • 网站建设分金手指专业七杭州市建设工程招标
  • 无锡网站的建设内网网站怎么建设
  • 网站用品哪里进货好黄骅市医院
  • 网站建设非功能需求江苏元鼎建设工程有限公司网站