当前位置: 首页 > wzjs >正文

公司网站百度搜索的描述怎么做佛山seo外包平台

公司网站百度搜索的描述怎么做,佛山seo外包平台,现在有什么网络游戏好玩,可以做海报的网站Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning? 在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforc…

Inverse Reinforcement Learning (IRL) 详解

什么是 Inverse Reinforcement Learning?

在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励

而在逆向强化学习 (Inverse Reinforcement Learning, IRL) 中,情况相反:

  • 我们不知道奖励函数 缺失的
  • 但是我们有专家的示范轨迹(比如专家怎么开车、怎么走路): τ = ( s 0 , a 0 , s 1 , a 1 , … , s T ) \tau = (s_0, a_0, s_1, a_1, \dots, s_T) τ=(s0,a0,s1,a1,,sT)
  • 目标是:推断出奖励函数,使得专家行为在该奖励下是最优的

简单来说,IRL 是"从专家行为中推断动机"

  • Initialize an actor
  • In each iteration
    • The actor interacts with the environrment to obtain some trajectories
    • Define a reward functlon, which makes thetrajectories of the teacher better than the actor
    • The actor learns to maximize the reward based on the new reward function
  • Output the reward function and the actor learned from the reward function

IRL算法之 GAIL 算法详解

GAIL(生成对抗模仿学习)结合了:生成对抗网络 GAN(Generator 对抗 Discriminator)和 强化学习 Policy Gradient(策略梯度)

  • 让智能体学会产生像专家一样的轨迹,但不直接学习奖励函数,只通过模仿专家行为来训练策略
判别器 (Discriminator) :试图区分 “专家轨迹” 和 “生成器轨迹”

判别器的目标是最大化对数似然:判别器希望对于专家数据 expert 输出接近 1,对于生成数据 policy 输出接近 0
max ⁡ D E expert [ log ⁡ D ( s , a ) ] + E policy [ log ⁡ ( 1 − D ( s , a ) ) ] \max_D \mathbb{E}_{\text{expert}} [\log D(s, a)] + \mathbb{E}_{\text{policy}} [\log (1 - D(s, a))] DmaxEexpert[logD(s,a)]+Epolicy[log(1D(s,a))]

生成器(策略网络 Policy):试图“欺骗”判别器,让判别器以为它生成的轨迹是专家生成的

生成器的目标是最小化:
min ⁡ π E τ ∼ π [ log ⁡ ( 1 − D ( s , a ) ) ] \min_{\pi} \mathbb{E}_{\tau \sim \pi} [\log (1 - D(s, a))] πminEτπ[log(1D(s,a))]

这其实可以等价强化学习问题,奖励信号变成了:
r ( s , a ) = − log ⁡ ( 1 − D ( s , a ) ) r(s, a) = - \log (1 - D(s, a)) r(s,a)=log(1D(s,a))

  • 这样,跟标准的 policy gradient 非常类似,只不过奖励是来自判别器

GAIL 简单代码示例

import gym
from stable_baselines3 import PPO
from imitation.algorithms.adversarial import GAIL
from imitation.data.types import TrajectoryWithRew
from imitation.data import rollout# 1. 创建环境
env = gym.make("CartPole-v1")# 2. 加载或创建专家模型
expert = PPO("MlpPolicy", env, verbose=0)
expert.learn(10000)# 3. 收集专家轨迹数据
trajectories = rollout.rollout(expert,env,rollout.make_sample_until(min_timesteps=None, min_episodes=20)
)# 4. 创建新模型作为 actor
learner = PPO("MlpPolicy", env, verbose=1)# 5. 使用 GAIL 进行逆强化学习训练
gail_trainer = GAIL(venv=env,demonstrations=trajectories,gen_algo=learner
)
gail_trainer.train(10000)# 6. 测试训练后的模型
obs = env.reset()
for _ in range(1000):action, _states = learner.predict(obs, deterministic=True)obs, reward, done, info = env.step(action)env.render()if done:obs = env.reset()env.close()
http://www.dtcms.com/wzjs/28767.html

相关文章:

  • 怎么购买网站空间发布软文的平台有哪些
  • 鲜花外贸网站建设东莞网站建设哪家公司好
  • 北京做兼职哪个网站百度首页入口
  • 用织梦建设网站怎么让百度收录我的网站
  • 智库建设网站方案google官网入口注册
  • 七台河网站建设营销推广的公司
  • 网站功能优化的方法百度关键词搜索排名查询
  • 高中文凭能学做网站吗google搜索中文入口
  • 潍坊网站建设多少钱西安百度seo推广
  • 东莞建网站今天重大国际新闻
  • 免费做四年级题的网站权重查询
  • 做ppt比较好的网站百度电脑版官网
  • 厦门三五互联可以做网站吗引擎搜索是什么意思
  • 玛迪做网站关键词云图
  • 售后服务规范网站建设北京环球影城每日客流怎么看
  • 官方网站建设市场营销策划方案书
  • 深圳品牌网站设计专家seo优化包括
  • 网站开发那个好怎么去做网络推广
  • 柳州网站建设找哪家windows优化大师可靠吗
  • 永久建站空间购买11月将现新冠感染高峰
  • 行业网站名录百度发布平台官网
  • 千素网站建设中国的搜索引擎有哪些
  • 多用户商城网站开发班级优化大师怎么加入班级
  • 郑州建网站的好处seo培训价格
  • 北京网站优化对策中国优化网
  • 大学生网站建设结题报告seo网站关键词排名快速
  • 重庆专业网站建设公司哪家好百度收录怎么查询
  • 国家疫情防控最新政策第十版深圳百度推广seo公司
  • 网站策划要遵循的原则中国婚恋网站排名
  • 黄岩城乡住房和建设局网站游戏优化是什么意思