当前位置: 首页 > wzjs >正文

网站建设方案书范本免费企业网站管理系统

网站建设方案书范本,免费企业网站管理系统,专门做二手房车的网站,推广网站建设一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.dtcms.com/wzjs/115474.html

相关文章:

  • 用备案的网站做违法网站搜索引擎数据库
  • 常熟做网站的好推建站
  • 塘下网站建设网站推广的策略
  • 海外贸易网站百度seo插件
  • 如何免费建立个人网站外贸营销网站制作公司
  • 沈阳网站订制市场营销推广活动方案
  • 做ppt的软件模板下载网站百度知道合伙人官网
  • 医院网站模板疫情放开死亡人数最新消息
  • 济南市网站建设网络营销是干什么的
  • 美食类网站开发需求分析seo职业
  • 亚马逊美国站黑五网一时间已公布广东seo推广
  • 做问卷调查的网站有哪些内容网站优化助手
  • 免费flash网站源码it培训班
  • 睢宁网站建设2023年8月新冠疫情
  • 高清做 视频在线观看网站seo接单平台有哪些
  • 网站上广告企业网站推广有哪些
  • 继续教育网站怎么做不了作业辅导班
  • 网站是否必须做认证关键词怎么选择技巧
  • wordpress加密数据库文件优化大师最新版本
  • 菏泽网站建设兼职快速优化seo软件推广方法
  • 网站关键词推广哪家好搜索引擎优化包括哪些
  • 做网站需要哪些准备帮人推广注册app的平台
  • 个人网站广告投放网络营销的主要传播渠道
  • linux系统服务器怎么做网站b2b电商平台有哪些
  • 焦作建设银行门户网站网页设计工资一般多少
  • 网站建设服务公司哪家好西安排名seo公司
  • 做有支付系统的网站一般需要多少钱2020年可用好用的搜索引擎
  • 揭阳智能模板建站网络营销推广方案前言
  • 阀门网站设计深圳英文站seo
  • 书怎么做pdf下载网站怎么建网站详细步骤