当前位置: 首页 > wzjs >正文

没有网站可以做落地页wordpress阿里云储存

没有网站可以做落地页,wordpress阿里云储存,定制网站为什么贵,网页游戏网站2345以下是使用PyTorch训练马里奥强化学习代理的完整指南,涵盖依赖库配置、环境搭建、核心代码实现及输出结果分析,结合关键优化策略与实战经验。 一、依赖库配置 基础环境安装 # 使用Anaconda创建虚拟环境(推荐) conda create -n m…

以下是使用PyTorch训练马里奥强化学习代理的完整指南,涵盖依赖库配置、环境搭建、核心代码实现及输出结果分析,结合关键优化策略与实战经验。


一、依赖库配置

  1. 基础环境安装
# 使用Anaconda创建虚拟环境(推荐)
conda create -n mario_rl python=3.9
conda activate mario_rl# 安装PyTorch(GPU版,需CUDA 11.3+)
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113# 安装强化学习依赖库
pip install gym==0.25.2  # 兼容旧版环境
pip install gym-super-mario-bros nes-py tensorboard

• 注意:若使用Windows系统,需额外安装Visual C++编译工具链以支持部分库。

  1. 环境验证
import gym
import gym_super_mario_bros
from nes_py.wrappers import JoypadSpaceenv = gym_super_mario_bros.make('SuperMarioBros-1-1-v0')
env = JoypadSpace(env, [["right"], ["right", "A"]])  # 限制动作为右移和跳跃
print(f"动作空间:{env.action_space},观察空间:{env.observation_space.shape}")

若输出如动作空间:Discrete(2),观察空间:(240, 256, 3),则环境配置成功。


二、环境预处理与模型搭建

  1. 图像预处理
from gym.wrappers import GrayScaleObservation, ResizeObservation
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack# 转换为灰度图并调整分辨率
env = GrayScaleObservation(env, keep_dim=True)
env = ResizeObservation(env, (84, 84))# 帧堆叠(4帧动态感知)
env = DummyVecEnv([lambda: env])
env = VecFrameStack(env, n_stack=4, channels_order='last')

• 作用:将输入从RGB(240x256x3)降维到灰度(84x84x1),并堆叠4帧以捕捉动态。

  1. PPO模型定义
from stable_baselines3 import PPO
from stable_baselines3.common.callbacks import BaseCallbackclass TensorboardCallback(BaseCallback):def _on_step(self):self.logger.record('train/reward', self.training_env.get_attr('total_reward')[0])return Truemodel = PPO(policy="CnnPolicy",env=env,learning_rate=1e-4,n_steps=2048,batch_size=64,gamma=0.99,tensorboard_log="./logs/"
)

• 参数说明:

CnnPolicy:卷积网络处理图像输入

gamma=0.99:未来奖励衰减系数

n_steps=2048:每次更新前收集的步数。


三、训练流程与结果监控

  1. 启动训练
model.learn(total_timesteps=1_000_000,callback=TensorboardCallback(),tb_log_name="ppo_mario"
)

• 输出日志示例:

| rollout/            |          |
|    ep_len_mean      | 152      |
|    ep_rew_mean      | 320      |
| time/               |          |
|    total_timesteps  | 2048     |

表示平均每回合步长152,奖励320,总训练步数2048。

  1. TensorBoard监控
tensorboard --logdir ./logs/

查看指标:
• train/reward:实时奖励变化

• losses/value_loss:价值网络损失

• rollout/ep_rew_mean:回合平均奖励。

  1. 训练效果示例
    经过100万步训练后:
    • 初期(0-20万步):随机探索,平均奖励<100

• 中期(50万步):学会跳跃躲避障碍,奖励提升至500+

• 后期(100万步):稳定通过第一关,最高奖励达3000+。


四、模型测试与部署

  1. 加载模型推理
model = PPO.load("ppo_mario")
obs = env.reset()
while True:action, _ = model.predict(obs)obs, rewards, done, info = env.step(action)env.render()if done:obs = env.reset()

• 效果:马里奥自动右移、跳跃吃金币,躲避敌人并通关。

  1. 优化方向
    • 奖励工程:增加通关奖励(+1000)、死亡惩罚(-500)

• 混合精度训练:启用torch.cuda.amp加速计算

• 分布式训练:多环境并行采集数据(SubprocVecEnv)。


五、常见问题解决

  1. CUDA版本冲突
    • 检查nvidia-smitorch.cuda.is_available()

    • 重装匹配版本的PyTorch(如CUDA 11.3对应torch==1.12.1)。

  2. 内存不足
    • 减小batch_size(如64→32)

    • 启用梯度检查点(model.gradient_checkpointing_enable())。


通过上述步骤,您可完整实现一个能通关《超级马里奥》的强化学习代理。如需完整代码,可参考官方教程及GitHub开源项目。


文章转载自:

http://I7DNEHLW.gthgf.cn
http://uV6Fetp6.gthgf.cn
http://NzUqmJuC.gthgf.cn
http://XP8e8aGZ.gthgf.cn
http://lvQa0WLk.gthgf.cn
http://q3135H1x.gthgf.cn
http://Cfag428B.gthgf.cn
http://dKZfFTte.gthgf.cn
http://QjLDLHBy.gthgf.cn
http://FrC3PIMs.gthgf.cn
http://17x9qxeV.gthgf.cn
http://O1zQnnqI.gthgf.cn
http://wbqP9PJR.gthgf.cn
http://peNSOwuN.gthgf.cn
http://6sdDfBI9.gthgf.cn
http://OpjAVWn9.gthgf.cn
http://zKr0dKEo.gthgf.cn
http://FL90q0Nk.gthgf.cn
http://wGHsTt7D.gthgf.cn
http://IrOa64Q9.gthgf.cn
http://2x3nql7V.gthgf.cn
http://Me4Wj5z2.gthgf.cn
http://UIP8DnMh.gthgf.cn
http://RoxSHO76.gthgf.cn
http://qqbC00Dj.gthgf.cn
http://T44UJ6bF.gthgf.cn
http://g4U7Dw9b.gthgf.cn
http://wcO4zCIt.gthgf.cn
http://nmJzfQRg.gthgf.cn
http://F1PXZxKd.gthgf.cn
http://www.dtcms.com/wzjs/714283.html

相关文章:

  • 合肥关键词网站排名在pc端预览手机网站
  • php购物网站设计代码网站单页制作教程
  • 阿里云 多域名解析 到不同的网站如何加强精神文明网站建设内容
  • 湖北商城网站建设多少钱淘宝客优惠券网站建设教程视频
  • 西安网站制作服务商个人房产查询系统网站官网
  • 淘宝网站建设维护会计科目网站索引量下降
  • 福州哪里会网站制作的常州互联网公司
  • 广东官网网站建设哪家好在线代理服务器网站
  • 网站开发好学上海营销型网站设计
  • 手机网站改版了高德地图在海外能用吗
  • 怎样自己建个人网站乐平城市建设局网站
  • 重庆最新数据消息58网站怎么做优化
  • 怎么做网站服务器吗基于cms设计网站的背景意义
  • 做期货主要看哪个网站wordpress添加右侧悬浮窗
  • 网络广告设计案例东莞seo排名外包
  • 英文网站建设网站兰州专业做网站的公司哪家好
  • 绞铜机 东莞网站建设网站开发常用工具
  • 阳江市做网站国外网站服务器免费
  • 深圳企业网站建设企业惠州+企业网站建设
  • 专门做pp他的网站郑州网站建设幸巴
  • 长治一般做一个网站需要多少钱大家推荐永久免费的服务器
  • 深圳松岗 网站建设建筑人才网站哪个比较好
  • 网站注销流程html5行业网站
  • 网站建设岗位是干什么的重庆网站建设是什么
  • 如何自己建网站织梦cms手机网站源码
  • 我的世界服务器如何做充钱网站建网站制作
  • 镇江网站优化哪家好有什么可以接单做的网站
  • wordpress 商城模板seo顾问是啥
  • 网络设计是干什么工作的seo站长工具是什么
  • 建站公司专业地址海淘直邮购物网站