当前位置: 首页 > wzjs >正文

贵金属交易app下载seo和sem是什么意思啊

贵金属交易app下载,seo和sem是什么意思啊,太湖县住房和城乡建设网站市建设局,微信小程序怎么弄成二维码引子 古之成大事者,规模远大与综理密微,二者缺一不可。不管天气好坏,坚持每天前进大概30公里。起初店里的生意比较惨淡,他们有大把的时间来编写程序。 起因, 目的: 8x8的地图很容易失败, 这个问题&#…

引子

  1. 古之成大事者,规模远大与综理密微,二者缺一不可。
  2. 不管天气好坏,坚持每天前进大概30公里。
  3. 起初店里的生意比较惨淡,他们有大把的时间来编写程序。

起因, 目的:

8x8的地图很容易失败, 这个问题,我之前讲过。
请添加图片描述
如何解决, 一句话,根据距离来修改奖励.

过程:

1. 先让 ChatGPT 推荐几种方法

聊天记录

  • ChatGPT 推荐了5种方法,我试了, 都不行。失败率还是很高。
  • 再推荐几种方法,还是不行。比如 DQN, 我试了,失败。机器人在某个地方左右反复移动,就是不前进。

2. 因此我建议,使用距离公式。

因为,我之前在什么地方看过类似的思路。具体想不起来了。可能是算法题里面见过的。
然后让 GPT 根据这个思路来写代码。
运行一下, ok!

import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
import pickledef get_distance(state, goal_state, grid_size=8):"""计算当前位置到终点的曼哈顿距离"""x1, y1 = divmod(state, grid_size)x2, y2 = divmod(goal_state, grid_size)return abs(x1 - x2) + abs(y1 - y2)def run(episodes, is_training=True, render=False):env = gym.make('FrozenLake-v1', map_name="8x8", is_slippery=False)q = np.zeros((env.observation_space.n, env.action_space.n)) # init a 64 x 4 arraygoal_state = 63  # 8x8 终点在右下角(编号 63)lr = 0.9 # alpha or learning ratediscount_factor_g = 0.9 # gamma or discount rate. Near 0: more weight/reward placed on immediate state. Near 1: more on future state.epsilon = 1         # 1 = 100% random actionsepsilon_decay_rate = 0.0001        # epsilon decay rate. 1/0.0001 = 10,000rng = np.random.default_rng()   # random number generatorrewards_per_episode = np.zeros(episodes)for i in range(episodes):state = env.reset()[0]  # states: 0 to 63, 0=top left corner,63=bottom right cornerterminated = False      # True when fall in hole or reached goaltruncated = False       # True when actions > 200while not terminated and not truncated:if is_training and rng.random() < epsilon:action = env.action_space.sample() # actions: 0=left,1=down,2=right,3=upelse:action = np.argmax(q[state,:])new_state,reward,terminated,truncated,_ = env.step(action)# 计算当前状态和新状态的距离old_distance = get_distance(state, goal_state)new_distance = get_distance(new_state, goal_state)# 修改奖励逻辑:if reward == 1:# 到达终点,奖励不变new_reward = 1elif reward == 0 and new_distance < old_distance:# 接近终点,加奖励new_reward = 0.1elif reward == 0 and new_distance >= old_distance:# 远离终点,不奖励new_reward = 0else:# 掉进洞,维持 FrozenLake 惩罚new_reward = rewardq[state,action] = q[state,action] + lr * ( new_reward + discount_factor_g * np.max(q[new_state,:]) - q[state,action])state = new_stateepsilon = max(epsilon - epsilon_decay_rate, 0)if epsilon == 0:lr = 0.0001if reward == 1:rewards_per_episode[i] = 1env.close()plt.figure(figsize=(10, 8))sum_rewards = np.zeros(episodes)for t in range(episodes):sum_rewards[t] = np.sum(rewards_per_episode[max(0, t-100):(t+1)])plt.plot(sum_rewards)plt.savefig('frozen_lake8x8-distance-reward--1.png')return np.mean(sum_rewards[-100:])if __name__ == '__main__':# run(15000)for i in range(5):ret = run(15000)print(f"Run {i + 1}: reward: {ret}")# 输出:
# Run 1: reward: 101.0
# Run 2: reward: 101.0
# Run 3: reward: 101.0
# Run 4: reward: 101.0
# Run 5: reward: 101.0

3. 最近说一下这样做的理由

gpt 说的也挺好的:

📌 这样做的优点

更稳定的学习过程:机器人不会盲目探索,而是朝目标前进。
减少掉坑的次数:鼓励它更早学习正确路径。
适用于 8×8 复杂地图:比完全随机奖励的 Q-learning 更快收敛。

就是说,鼓励探索,探索的过程,也是有奖励的。

结论 + todo

最后的最后,分享一句话,来自 sentex:

RL 的难点,在于环境,奖励,观测。


http://www.dtcms.com/wzjs/484231.html

相关文章:

  • 网站右侧二维码线在科技成都网站推广公司
  • 2001国产卡一卡二新区seo可以从哪些方面优化
  • 上海建设交通党委网站win7优化工具哪个好用
  • 沈阳男科医院排名哪家好保定百度推广优化排名
  • 做热图的网站软文营销代理
  • 揭阳做淘宝批发拿货什么网站sem是什么仪器
  • 网站建立软件推广咨询服务公司
  • 邢台网站建设服务商搜索引擎优化的主要策略
  • 莆田网站建设培训培训机构退费纠纷一般怎么解决
  • 云主机 怎么做网站企业查询软件
  • 新疆网站建设公司金华网站建设
  • 广州企业网站制作推广运营淘宝交易指数换算工具
  • 广元做网站的公司seo内容优化是什么意思
  • 东莞市主营网站建设平台网站搜索优化公司
  • 网站域名备案代理营销策略ppt模板
  • 外贸累网站手机seo排名
  • 一个空间放两个php网站长沙网站推广公司
  • 盘锦做网站谁家好郑州网站建设专业乐云seo
  • 沈阳做网站的公司排名seo企业顾问
  • 移动应用开发学什么合肥seo管理
  • 国际外贸网站建设互联网下的网络营销
  • windows和linux 做网站seo全网营销公司
  • 福建响应式网站制作sku电商是什么意思
  • 衢江网站建设网络营销有几种方式
  • 银行收取网站建设费的会计科目国际新闻今日头条
  • 厨之梦进口食品网站谁做的域名服务器地址查询
  • 灰色行业老域名做网站不收录百度下载安装到桌面
  • 记事本做网站怎么加图片企业为何选择网站推广外包?
  • 在西安市建设工程交易中心网站上南京seo
  • 网站建设需要哪些材料代运营一家店铺多少钱