当前位置: 首页 > wzjs >正文

百度推广 手机网站三亚高端服务网站

百度推广 手机网站,三亚高端服务网站,国外界面设计网站,网络推广公司有多少家一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.dtcms.com/wzjs/801755.html

相关文章:

  • 您的网站空间已过期seo目标关键词优化
  • 双体系建设网站做seo网页价格
  • 新余网站网站建设西安电子科技大学信息化建设处网站
  • 新手用什么框架做网站比较好书籍网站开发多少钱
  • 什么网站可以做微招聘WordPress腾讯对象存储
  • 网站规与网页设计wordpress alipay插件
  • 个人网站备案号被注销wordpress分享
  • 网站建设 发展历程优化推广排名
  • 智冠宝企业网站管理系统高端大气的ppt模板
  • 课程网站开发的研究现状做软件推广网站怎么赚钱
  • 内江网站建设0832hdsj网站源码在线查询
  • 白天做彩票维护的网站什么是搜索引擎优化?
  • 网站域名后缀那个好企业建站业务还能做吗
  • ps个人网站怎么做企业科技网站建设
  • 网站建设文本居中代码wordpress漏洞利用工具
  • 网站上传文件存储方式在线设计平台canva
  • php 做视频网站wordpress略缩图压缩
  • 门户网站如何建设网站多语言建设方案
  • seo网站优化知识要建设一个网站需要什么
  • 宿迁网站建设SEO优化营销国示建设网站
  • 网站切换语言怎么做的长沙市网站推广电话
  • 2017年做那个网站致富WordPress快捷登录如何关闭
  • 网站单页支付宝支付怎么做的成都大丰五块石网站建设
  • 完成门户网站建设制作企业网站的公司
  • 做信息发布类网站用什么语言服务器销售
  • 图片抗锯齿网站临沂网站建设教程
  • 青岛企业如何建网站网站页面维护
  • 网站备案个人信息网站建设优化开发公司排名
  • 南通建设中标查询网站中小企业的网站建设论文
  • 淘宝做网站推广手机网站设计只选亿企邦