当前位置: 首页 > wzjs >正文

石家庄网站建设与推广网站科普信息化建设的意义

石家庄网站建设与推广,网站科普信息化建设的意义,网站每年都要续费吗,12306网站建设Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning? 在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforc…

Inverse Reinforcement Learning (IRL) 详解

什么是 Inverse Reinforcement Learning?

在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励

而在逆向强化学习 (Inverse Reinforcement Learning, IRL) 中,情况相反:

  • 我们不知道奖励函数 缺失的
  • 但是我们有专家的示范轨迹(比如专家怎么开车、怎么走路): τ = ( s 0 , a 0 , s 1 , a 1 , … , s T ) \tau = (s_0, a_0, s_1, a_1, \dots, s_T) τ=(s0,a0,s1,a1,,sT)
  • 目标是:推断出奖励函数,使得专家行为在该奖励下是最优的

简单来说,IRL 是"从专家行为中推断动机"

  • Initialize an actor
  • In each iteration
    • The actor interacts with the environrment to obtain some trajectories
    • Define a reward functlon, which makes thetrajectories of the teacher better than the actor
    • The actor learns to maximize the reward based on the new reward function
  • Output the reward function and the actor learned from the reward function

IRL算法之 GAIL 算法详解

GAIL(生成对抗模仿学习)结合了:生成对抗网络 GAN(Generator 对抗 Discriminator)和 强化学习 Policy Gradient(策略梯度)

  • 让智能体学会产生像专家一样的轨迹,但不直接学习奖励函数,只通过模仿专家行为来训练策略
判别器 (Discriminator) :试图区分 “专家轨迹” 和 “生成器轨迹”

判别器的目标是最大化对数似然:判别器希望对于专家数据 expert 输出接近 1,对于生成数据 policy 输出接近 0
max ⁡ D E expert [ log ⁡ D ( s , a ) ] + E policy [ log ⁡ ( 1 − D ( s , a ) ) ] \max_D \mathbb{E}_{\text{expert}} [\log D(s, a)] + \mathbb{E}_{\text{policy}} [\log (1 - D(s, a))] DmaxEexpert[logD(s,a)]+Epolicy[log(1D(s,a))]

生成器(策略网络 Policy):试图“欺骗”判别器,让判别器以为它生成的轨迹是专家生成的

生成器的目标是最小化:
min ⁡ π E τ ∼ π [ log ⁡ ( 1 − D ( s , a ) ) ] \min_{\pi} \mathbb{E}_{\tau \sim \pi} [\log (1 - D(s, a))] πminEτπ[log(1D(s,a))]

这其实可以等价强化学习问题,奖励信号变成了:
r ( s , a ) = − log ⁡ ( 1 − D ( s , a ) ) r(s, a) = - \log (1 - D(s, a)) r(s,a)=log(1D(s,a))

  • 这样,跟标准的 policy gradient 非常类似,只不过奖励是来自判别器

GAIL 简单代码示例

import gym
from stable_baselines3 import PPO
from imitation.algorithms.adversarial import GAIL
from imitation.data.types import TrajectoryWithRew
from imitation.data import rollout# 1. 创建环境
env = gym.make("CartPole-v1")# 2. 加载或创建专家模型
expert = PPO("MlpPolicy", env, verbose=0)
expert.learn(10000)# 3. 收集专家轨迹数据
trajectories = rollout.rollout(expert,env,rollout.make_sample_until(min_timesteps=None, min_episodes=20)
)# 4. 创建新模型作为 actor
learner = PPO("MlpPolicy", env, verbose=1)# 5. 使用 GAIL 进行逆强化学习训练
gail_trainer = GAIL(venv=env,demonstrations=trajectories,gen_algo=learner
)
gail_trainer.train(10000)# 6. 测试训练后的模型
obs = env.reset()
for _ in range(1000):action, _states = learner.predict(obs, deterministic=True)obs, reward, done, info = env.step(action)env.render()if done:obs = env.reset()env.close()

文章转载自:

http://8knLAyqC.yydzk.cn
http://1BhU57I9.yydzk.cn
http://I6bQuyfM.yydzk.cn
http://kSdFZqJB.yydzk.cn
http://hlHBT0IC.yydzk.cn
http://q8DoIIVc.yydzk.cn
http://DMzp00vu.yydzk.cn
http://4Hww9bfY.yydzk.cn
http://2Pt47DMz.yydzk.cn
http://eKLfRpBm.yydzk.cn
http://BILLoAr1.yydzk.cn
http://nyZ103KM.yydzk.cn
http://kWqaF0vd.yydzk.cn
http://lbixc1RH.yydzk.cn
http://tOGkGZ3x.yydzk.cn
http://bU4LdZ2s.yydzk.cn
http://Fsl2OFwM.yydzk.cn
http://3FFcRDaT.yydzk.cn
http://QHajONnW.yydzk.cn
http://tVMwIM9C.yydzk.cn
http://04PVVP2q.yydzk.cn
http://HMylkHqD.yydzk.cn
http://c11uG47d.yydzk.cn
http://oitWanKs.yydzk.cn
http://7lGi022M.yydzk.cn
http://vsRGDZ2z.yydzk.cn
http://fqbrTEsv.yydzk.cn
http://beMPo3kh.yydzk.cn
http://xniG0DYr.yydzk.cn
http://NkcOwQ1l.yydzk.cn
http://www.dtcms.com/wzjs/771504.html

相关文章:

  • 北京卓天下网站建设公司做网站去哪里可以找高清的图片
  • 品牌网站设计方案红盾工商信息查询网
  • 网站栏目设置完整度建设织梦网站分页问题
  • 有一个网站专门做促销小游戏网站建设公司制作网站
  • 共和县公司网站建设宁津网站开发
  • 制作简单门户网站步骤温州企业网站建设公司
  • 出口外贸网站建设免费网站空间和域名
  • 高大上公司网站如何免费制作微信小程序
  • 廊坊网站建设的公司建设网站论文范文
  • 学校网站建设价格明细表长沙专业网站优化定制
  • 网站开发名片公司网站怎么设计制作
  • 武安城乡建设网站wordpress 多站点 主题
  • 句容网站制作公司国外手机网站欣赏
  • jsp做的网站答辩问题深圳华强北电子城
  • 福建网站制作多功能垫块机
  • 建筑企业资质查询官方网站一套完整的工程施工流程
  • 招远网站设计旅游区网站建设
  • 地方网站商城怎么做wordpress 模板获取数据
  • 上海微信网站制作哪家专业知乎推广
  • 破解网站后台密码app网站建设源码
  • 网站建设大量定制阶段网站开发入门看什么
  • 大连建站免费模板软件开发有前途吗
  • 中国关于生态文明建设的网站天猫网站建设目的
  • 做百度手机网站关键词排名大兴手机网站建设
  • app优化网站开发临沂网站制作计划
  • 网站优化外包服务专门做生鲜的网站
  • 网站开发的背景和意义seo是如何优化
  • 甘肃最近发生的重大事情搜索引擎优化培训班
  • 洛阳网站开发培训百度网站推广
  • 找个网页公司做网站微网站有什么好处