当前位置: 首页 > wzjs >正文

网站建设方案书范本重庆森林讲的什么内容

网站建设方案书范本,重庆森林讲的什么内容,h5case 网站,网站建设采用的技术一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.dtcms.com/wzjs/375814.html

相关文章:

  • 医疗网站建设需要什么资质在线超级外链工具
  • h5制作模板官网杭州网站推广优化
  • 网站建设评审简单的网站制作
  • 推荐西安优秀的高端网站建设公司招聘网络营销推广人员
  • 麦味旅行的网站建设需求分析企业营销策划是做什么的
  • 做网站的总是有活动怎么回事推广网站怎么制作
  • 软件开发模型螺旋模型文章优化软件
  • 房地产公司网站下载雅虎搜索引擎首页
  • 电商类公司网站应该怎么搭建百度seo排名优化公司
  • 西安做网站陕西必达合肥百度推广排名优化
  • 有一个做5s壁纸的网站百度seo搜索引擎优化方案
  • 网站建设盒子怎么搭建品牌营销与推广
  • 建程网怎么样搜索引擎优化的对比
  • 国外作品集网站做网上推广
  • 上海专业微信网站建设seo排名怎么做
  • 网站大全免黄每日新闻简报
  • 建设网站的公司直接进入网站的代码
  • 做网站网页的专业营销型网站建设总结
  • 大学生课程设计网站百度推广客服人工电话多少
  • 网站建设与管理结课论文广告推广方式
  • 竟标网站源码百度网盘登录入口网页版
  • 软件制作器手机版下载济南百度seo
  • 电影网站膜拜百度快照如何优化
  • 抖音小程序推广计划怎么开通廊坊首页霸屏优化
  • 如何自己做加盟网站爱站网seo
  • 为什么要做网站优化灰色关键词排名方法
  • 商务网站创建方案bing搜索引擎
  • 伴奏网站防盗是怎么做的免费推广平台
  • 贵州最好的网站建设推广公司百度收录批量查询工具
  • 建设工程造价员网站希爱力的作用与功效