当前位置: 首页 > wzjs >正文

河南住房和城乡建设厅职称网站官方企业微信app下载

河南住房和城乡建设厅职称网站,官方企业微信app下载,织梦网站怎么搬家,建个网站需要多少钱一个一、迷宫游戏 1.环境已知 迷宫环境是定义好的,障碍物位置和空位置是已知的; # 定义迷宫 grid [[0, 0, 0, 1, 0],[0, 1, 0, 1, 0],[0, 1, 0, 0, 0],[0, 0, 0, 1, 0],[0, 1, 1, 1, 0] ] 2.奖励方式已知 如果碰到障碍物则得-1,如果到终点则…

一、迷宫游戏

1.环境已知

迷宫环境是定义好的,障碍物位置和空位置是已知的;

# 定义迷宫
grid = [[0, 0, 0, 1, 0],[0, 1, 0, 1, 0],[0, 1, 0, 0, 0],[0, 0, 0, 1, 0],[0, 1, 1, 1, 0]
]

2.奖励方式已知

如果碰到障碍物则得-1,如果到终点则得10分,正常走一步-0.1分。

 # 检查是否越界或碰到障碍if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0:# 满足在边界内部,且网格为空(对应数值为0)self.state = (row, col) #可以走到这个位置else:return self.state, -1, False  # 碰到障碍或越界,返回惩罚-1,标记未完成# 检查是否到达终点if self.state == self.goal:return self.state, 10, True  # 到达终点,返回奖励10,标记完成else:return self.state, -0.1, False  # 正常移动,返回小惩罚-0.1,标记未完成

3.动作选择策略

ε-greedy策略选择动作。

 def choose_action(self, state):# 根据ε-greedy策略选择动作,以epsilon的概率选择探索,以1-epsilon的概率选择利用# 一般随着时间的推移,epsilon逐渐减小,即减小探索,增大利用概率# 如果随机抽样小于epsilon,则选择探索,即随机抽取动作if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3])  # 探索# 如果随机抽样大于等于epsilon,则选择利用,即利用现有规则进行动作选择else:return np.argmax(self.q_table[state])  # 利用,state是当前状态,为二维坐标

4.Q值更新方法

# Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st,at))self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action])state = next_state # 状态更新 

5.Qlearning计算流程图

二、代码实现

import numpy as np
import random# 定义迷宫环境
class Maze:def __init__(self, grid, start, goal):self.grid = grid  # 迷宫网格,0表示空地,1表示障碍self.start = start  # 起点self.goal = goal  # 终点self.rows, self.cols = len(grid), len(grid[0]) # 网格行、列边界self.state = start  # 当前状态def reset(self):# 重置迷宫状态self.state = self.startreturn self.statedef step(self, action):# 根据动作移动智能体row, col = self.stateif action == 0:  # 上row -= 1 # 行减1elif action == 1:  # 下row += 1 # 行加1elif action == 2:  # 左col -= 1 # 列-1elif action == 3:  # 右col += 1 # 列+1# 检查是否越界或碰到障碍if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0:# 满足在边界内部,且网格为空(对应数值为0)self.state = (row, col) #可以走到这个位置else:return self.state, -1, False  # 碰到障碍或越界,返回惩罚-1,标记未完成# 检查是否到达终点if self.state == self.goal:return self.state, 10, True  # 到达终点,返回奖励10,标记完成else:return self.state, -0.1, False  # 正常移动,返回小惩罚-0.1,标记未完成def render(self):# 可视化迷宫for r in range(self.rows): # 遍历状态for c in range(self.cols): # 遍历动作if (r, c) == self.state: # 对于当前位置,用字母A表示print("A", end=" ")  # 智能体位置elif (r, c) == self.goal: #对于目标位置用字母G表示print("G", end=" ")  # 终点elif self.grid[r][c] == 1: # 对于障碍物用#表示print("#", end=" ")  # 障碍else: # 对于空地用0表示print("0", end=" ")  # 空地print()print()# Q-learning算法
class QLearning:def __init__(self, maze, alpha=0.1, gamma=0.99, epsilon=0.1):self.maze = maze # 迷宫环境self.alpha = alpha  # 学习率self.gamma = gamma  # 折扣因子self.epsilon = epsilon  # 探索概率self.q_table = np.zeros((maze.rows, maze.cols, 4))  # Q表,4个动作,三个维度def choose_action(self, state):# 根据ε-greedy策略选择动作,以epsilon的概率选择探索,以1-epsilon的概率选择利用# 一般随着时间的推移,epsilon逐渐减小,即减小探索,增大利用概率# 如果随机抽样小于epsilon,则选择探索,即随机抽取动作if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3])  # 探索# 如果随机抽样大于等于epsilon,则选择利用,即利用现有规则进行动作选择else:return np.argmax(self.q_table[state])  # 利用,state是当前状态,为二维坐标def train(self, episodes):# 训练for episode in range(episodes):state = self.maze.reset() # 重置状态done = False # 训练完成标志total_reward = 0 # 总奖励while not done:action = self.choose_action(state) # 选择动作,根据1-epsilon策略next_state, reward, done = self.maze.step(action) #根据动作移动智能体total_reward += reward# Q-learning更新规则best_next_q = np.max(self.q_table[next_state]) # Qtable里面下一状态对应Q的最大值# Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st,at))self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action])state = next_state # 状态更新 # 每当完成100回合,则输出一次总奖励数据if (episode + 1) % 100 == 0:print(f"Episode {episode + 1}: Total Reward = {total_reward}")def test(self):# 测试训练后的策略state = self.maze.reset()done = Falsesteps = []while not done:action = np.argmax(self.q_table[state]) #选择Q表中最大的动作next_state, _, done = self.maze.step(action) steps.append(action)state = next_stateself.maze.render() # 可视化迷宫print("Steps taken:", steps) #输出动作集合,每一步动作都被储存倒steps【】列表中# 定义迷宫
grid = [[0, 0, 0, 1, 0],[0, 1, 0, 1, 0],[0, 1, 0, 0, 0],[0, 0, 0, 1, 0],[0, 1, 1, 1, 0]
]
start = (0, 0) # 起点
goal = (4, 4) # 终点# 创建迷宫和Q-learning对象
maze = Maze(grid, start, goal)
ql = QLearning(maze)# 训练和测试
ql.train(episodes=1000) #训练1000轮
ql.test() #测试

三、结果展示


文章转载自:

http://i9KZYa6B.wrkhf.cn
http://GdVlQ9eu.wrkhf.cn
http://n5pM95Iu.wrkhf.cn
http://CBhzg9Zj.wrkhf.cn
http://i2W19mkL.wrkhf.cn
http://Vazh4NLo.wrkhf.cn
http://nn1v6A4a.wrkhf.cn
http://UFzqN4AV.wrkhf.cn
http://6PhxNUEV.wrkhf.cn
http://7ROtH8at.wrkhf.cn
http://9H80qVM9.wrkhf.cn
http://KE5nxmP8.wrkhf.cn
http://4qikQsjl.wrkhf.cn
http://2mDkG2mX.wrkhf.cn
http://wr4G4DLb.wrkhf.cn
http://3AzmxHXB.wrkhf.cn
http://ej1GsyPy.wrkhf.cn
http://zz9KoHVp.wrkhf.cn
http://37DUtEeE.wrkhf.cn
http://rba1sP6X.wrkhf.cn
http://0R2WAJhu.wrkhf.cn
http://JCB3e3Fo.wrkhf.cn
http://hoWutV9i.wrkhf.cn
http://iDqtfjC7.wrkhf.cn
http://nMFRx39x.wrkhf.cn
http://PD8O7hs7.wrkhf.cn
http://NzJnNJQp.wrkhf.cn
http://ZnE8BNtF.wrkhf.cn
http://6FjgILeF.wrkhf.cn
http://ymFXkh2A.wrkhf.cn
http://www.dtcms.com/wzjs/629750.html

相关文章:

  • 建立一个网站怎样赚钱搜索引擎优化培训班
  • 兰州做门户网站潍坊网站建设服务商
  • 网站建设深圳给源码做网站go和php用哪个好
  • 有公司可以做网站升级ipv6卸载wordpress
  • 泉州网站建设优化公司网络公司门头
  • 数据管理系统网站模板九江学网站建设
  • 做网站做哪个行业好高质量的猎建筑人才
  • 上海 建设工程质量监督站网站园林景观设计公司组织架构
  • 关于申请开通网站建设的请示长沙网站设计我选刻
  • 镇江教育平台网站建设专业的铁岭做网站公司
  • 城乡建设局网站网站开发大学
  • 网站怎么做长截图青岛互联网企业
  • 企业网站建设 详细方案网站如何做成app
  • 网站推广 网站做网站需要服务器吗
  • discuz可以做门户网站吗电商平台建设实施方案
  • 三网合一网站怎么做学做网站需要学那些程序
  • ai怎么做网站用海报公司注册的注意事项
  • 知名的建站公司你那个没封的网站怎么做啊
  • 杭州网站建设案例广州建筑集团官网首页
  • 溆浦县建筑公司网站做单本小说网站怎么样
  • 泰安集团网站建设价格网站建设氺金手指排名15
  • 义乌网站建设工作室品牌好的建筑企业查询
  • 苍南哪里有网站建设公司WordPress离线博客
  • 网站怎么做的有创意杭州物联网前十名公司
  • 广州沙河一起做网站成都企业网站设计制作
  • 网站排名第一湖南衡阳市建设工程造价网站
  • 10g空间网站做视频网站郑州大型网站建设价格
  • 网站建设公司广告语宣传语织梦网站如何更新系统
  • 西安营销网站建设代做设计网站
  • 百度如何建设自己的网站快速做网站的技术