当前位置: 首页 > news >正文

网站建设7大概要多久做家装的网站有哪些内容

网站建设7大概要多久,做家装的网站有哪些内容,北苑网站建设,临沂网站建设兼职基于Policy Gradient策略的Atari中的pong_v3 1. 故事背景与原始目标 Pong_v3 是基于经典 Atari 游戏《Pong》的多智能体强化学习环境。它模拟了两个玩家在屏幕两侧控制挡板,试图将球击回并得分的场景。 背景: 这是一个经典的双人对抗游戏,强调反应速度与击球角度。 目标…

基于Policy Gradient策略的Atari中的pong_v3

1. 故事背景与原始目标

Pong_v3 是基于经典 Atari 游戏《Pong》的多智能体强化学习环境。它模拟了两个玩家在屏幕两侧控制挡板,试图将球击回并得分的场景。

背景: 这是一个经典的双人对抗游戏,强调反应速度与击球角度。

目标: 每个智能体的目标是将球击回并让球越过对方的挡板,从而获得分数。

2. 动作空间

每个智能体拥有 6 个离散动作:

动作编号 行为描述
0 无操作
1 发球(Fire)
2 向右移动
3 向左移动
4 向右发球
5 向左发球

注:虽然游戏看起来简单,但动作组合可以影响球的速度和角度,进而影响策略表现。

3. 状态空间

  • 形状:(210, 160, 3),即 210×160 像素的 RGB 图像。
  • 值范围:每个像素值在 [0, 255] 之间。

含义:这是游戏画面的原始像素表示,智能体需要从图像中识别球的位置、速度、对手位置等信息。

4. 奖励机制(Reward Mechanism)

  • 得分奖励:当一个智能体成功让球越过对方挡板时,获得 +1 分,对方获得 -1 分。

  • 发球超时惩罚:如果智能体在接球后 2 秒内未发球,将被扣除 -1 分,并重置发球计时器。

这防止了智能体通过“拖延”来规避游戏进程。也意味着该环境 不再是严格的零和博弈。

5. 可配置参数:

参数名 描述
render_mode 是否可视化游戏画面(如 “human”)
num_players 玩家数量(支持 2 或 4)
seed 随机种子,保证实验可重复性

6. 代码项目实现

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import numpy as np
from pettingzoo.atari import pong_v3# 超参数
GAMMA = 0.99
LR = 1e-3
EPISODES = 500# 预处理函数
def preprocess(obs):obs = np.mean(obs, axis=2).astype(np.uint8)  # (210,160)obs = obs[::2, ::2]  # (105,80)return obs.flatten()# Actor-Critic网络
class ActorCritic(nn.Module):def __init__(self, obs_shape, n_actions):super().__init__()self.input_dim = np.prod(obs_shape)self.fc1 = nn.Linear(self.input_dim, 256)# Attention参数self.attn_seq_len = 8  # 可调节,序列长度self.attn_dim 
http://www.dtcms.com/a/582692.html

相关文章:

  • 网站description是指什么易天时代网站建设
  • 【期末网页设计作业】HTML+CSS 唐诗学习网站主题的开发(附源码与效果演示)
  • 如何做平台推广seo如何快速排名百度首页
  • zencart网站qq企业邮箱官网
  • 想要极度深入了解一个研究方向,是否要读完所有文献?
  • 三亚网站开发公司温州论坛吧
  • 多人协作Git开发流程指南
  • seo博客网站青岛网络推广公司哪家好
  • 口碑好的建筑设备监控管理系统服务商排名
  • 新手如何做企业网站海南网红打卡旅游景点
  • 济南网站排名推广销售外包服务
  • 学习日报 20251107|Nacos基础认识
  • QPainter
  • 深入评测openEuler 24.03 LTS SP2:在云原生时代构筑高性能的应用与实战操作
  • 网站建设网页链接wordpress flash加载插件
  • wordpress积分阅读成都自动seo
  • [Linux——Lesson22.进程信号:信号保存 信号捕捉]
  • 10.【NXP 号令者RT1052】开发——实战-RT 看门狗(RTWDOG)
  • 维护一个网站需要多少钱黄山网站建设哪家强
  • 深夜思(原创诗)
  • 阿里云做的网站怎么样做网站都需要具备什么
  • openEuler 集群部署Nova计算服务:控制节点与计算节点实战操作
  • 怎么建设网站商城衡阳企业网站建设
  • 广渠门做网站的公司潍坊网站建设公司慕枫
  • 网店装修网站wordpress界面变宽
  • 强化学习的原理
  • Python 装饰器原理与实战技巧(深度解析生成机制)
  • 全国各地网站开发外包餐饮网站建设教程
  • python购物网站开发流程专业制作网站有哪些
  • 中小学校园网站建设wordpress使用邮箱验证