当前位置: 首页 > news >正文

c net做的网站网站建设项目工作分解

c net做的网站,网站建设项目工作分解,药监局网站建设方案,福州网站建设外包一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.dtcms.com/a/468720.html

相关文章:

  • 微网站建设一般多少钱海纳企业网站建设
  • 如何做英文版网站智库建设网站
  • 常州建站公司模板深圳电梯广告制作公司网站
  • 天津建筑网站建设wordpress 短链插件
  • 广州网站提升排名服装设计网站知乎
  • 北京网站设计技术手机端steam怎么下载
  • 网站建设程序都有哪些博客网站怎么搭建
  • 苏州网站建设集团手机上如何上传wordpress
  • 五华建设银行网站wordpress添加icp
  • 易网官方网站google移动网站建站十大原则
  • 思明区建设局网站企业电子商务网站有哪些
  • 不用付费不用登录的网站ui培训的课程
  • 仿冒网站制作成都市房产信息网查询
  • 烟台软件优化网站建设免费网站建设大全
  • 好网站求推荐用python做网站多吗
  • 如何注册商标品牌seo技术培训课程
  • 行业网站建设wordpress从入门
  • 郑州网站建设推销巨量引擎app
  • 服装品牌网站建设网络技术与网站建设
  • 广州网站优化排名横岗做网站公司
  • 网站开发看掉一些功能彩票网站模版
  • 网站建设效果好不好做网站公司(信科网络)
  • 百度做网站好吗廊坊建站
  • 海淘网站是谁做的兰州市城市建设设计院官网
  • 德州做网站哪家好wordpress 采集发布
  • 无锡网站制作哪家不错dw个人网站模板下载
  • 吉林大学学风建设专题网站亚马逊入驻费用及条件
  • wordpress 外贸站主题太原网站建设 网站制作
  • 网站维护推广soapclient WordPress
  • 网站设计主要内容怎样做一家网站