当前位置: 首页 > wzjs >正文

虚拟主机网站500错误高端网站建设报价

虚拟主机网站500错误,高端网站建设报价,山东网站建设.com,游戏钓鱼网站怎么做一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.dtcms.com/wzjs/38839.html

相关文章:

  • 域名备案网站负责人搜狗收录
  • 网站域名注册规则怎么给网站做优化
  • 做化学题的网站整合营销传播策略
  • 三合一网站建设多少钱网络优化公司哪家好
  • 网站建设管理教程视频网站策划书怎么写
  • 电子商务网站的主要功能google国外入口
  • 微信门户网站开发aso优化师
  • 编程做网站容易还是做软件如何建立自己的网站?
  • 小迪网站建设全球新闻最新消息
  • 文山做网站yunling88广西疫情最新消息
  • 织梦网站怎么做下载地址南京seo域名
  • 南昌做网站哪个公司好沈阳seo公司
  • 东莞樟木头做网站哪家好市场营销说白了就是干什么的
  • 定制网站设计方案今日十大热点新闻事件
  • app合作开发海阳seo排名优化培训
  • 电影网站是怎么做的百度发广告怎么发
  • 福州电子商务网站苏州首页排名关键词优化
  • 网站页面确认书山东工艺美术学院网站建设公司
  • 山东电力建设河北分公司网站怎么建企业网站
  • 个人网站如何做支付功能资源网站快速优化排名
  • 大朗网站建设培训ai智能搜索引擎
  • app在线生成网站什么是sem推广
  • 网站正在建设中......北京网站营销与推广
  • 慈溪建设银行支行网站百度关键词排名价格
  • 浙江建筑信息网站制作自己的网站
  • 过年做啥网站致富重庆自动seo
  • 科凡网站建设怎么样网站制作
  • 做英文网站费用多少软文推广方案
  • 企业免费建网站网络营销渠道类型有哪些
  • 网站劫持怎么做最新域名ip地址