当前位置: 首页 > wzjs >正文

做网站虚拟主机和云服务器网站点击排名优化

做网站虚拟主机和云服务器,网站点击排名优化,网络优化工程师有前途吗,做民宿哪个网站好Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning? 在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforc…

Inverse Reinforcement Learning (IRL) 详解

什么是 Inverse Reinforcement Learning?

在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励

而在逆向强化学习 (Inverse Reinforcement Learning, IRL) 中,情况相反:

  • 我们不知道奖励函数 缺失的
  • 但是我们有专家的示范轨迹(比如专家怎么开车、怎么走路): τ = ( s 0 , a 0 , s 1 , a 1 , … , s T ) \tau = (s_0, a_0, s_1, a_1, \dots, s_T) τ=(s0,a0,s1,a1,,sT)
  • 目标是:推断出奖励函数,使得专家行为在该奖励下是最优的

简单来说,IRL 是"从专家行为中推断动机"

  • Initialize an actor
  • In each iteration
    • The actor interacts with the environrment to obtain some trajectories
    • Define a reward functlon, which makes thetrajectories of the teacher better than the actor
    • The actor learns to maximize the reward based on the new reward function
  • Output the reward function and the actor learned from the reward function

IRL算法之 GAIL 算法详解

GAIL(生成对抗模仿学习)结合了:生成对抗网络 GAN(Generator 对抗 Discriminator)和 强化学习 Policy Gradient(策略梯度)

  • 让智能体学会产生像专家一样的轨迹,但不直接学习奖励函数,只通过模仿专家行为来训练策略
判别器 (Discriminator) :试图区分 “专家轨迹” 和 “生成器轨迹”

判别器的目标是最大化对数似然:判别器希望对于专家数据 expert 输出接近 1,对于生成数据 policy 输出接近 0
max ⁡ D E expert [ log ⁡ D ( s , a ) ] + E policy [ log ⁡ ( 1 − D ( s , a ) ) ] \max_D \mathbb{E}_{\text{expert}} [\log D(s, a)] + \mathbb{E}_{\text{policy}} [\log (1 - D(s, a))] DmaxEexpert[logD(s,a)]+Epolicy[log(1D(s,a))]

生成器(策略网络 Policy):试图“欺骗”判别器,让判别器以为它生成的轨迹是专家生成的

生成器的目标是最小化:
min ⁡ π E τ ∼ π [ log ⁡ ( 1 − D ( s , a ) ) ] \min_{\pi} \mathbb{E}_{\tau \sim \pi} [\log (1 - D(s, a))] πminEτπ[log(1D(s,a))]

这其实可以等价强化学习问题,奖励信号变成了:
r ( s , a ) = − log ⁡ ( 1 − D ( s , a ) ) r(s, a) = - \log (1 - D(s, a)) r(s,a)=log(1D(s,a))

  • 这样,跟标准的 policy gradient 非常类似,只不过奖励是来自判别器

GAIL 简单代码示例

import gym
from stable_baselines3 import PPO
from imitation.algorithms.adversarial import GAIL
from imitation.data.types import TrajectoryWithRew
from imitation.data import rollout# 1. 创建环境
env = gym.make("CartPole-v1")# 2. 加载或创建专家模型
expert = PPO("MlpPolicy", env, verbose=0)
expert.learn(10000)# 3. 收集专家轨迹数据
trajectories = rollout.rollout(expert,env,rollout.make_sample_until(min_timesteps=None, min_episodes=20)
)# 4. 创建新模型作为 actor
learner = PPO("MlpPolicy", env, verbose=1)# 5. 使用 GAIL 进行逆强化学习训练
gail_trainer = GAIL(venv=env,demonstrations=trajectories,gen_algo=learner
)
gail_trainer.train(10000)# 6. 测试训练后的模型
obs = env.reset()
for _ in range(1000):action, _states = learner.predict(obs, deterministic=True)obs, reward, done, info = env.step(action)env.render()if done:obs = env.reset()env.close()
http://www.dtcms.com/wzjs/340106.html

相关文章:

  • 宁波企业网站设计郑州关键词排名顾问
  • 精品网站制作怎样做网站
  • 手机页面网站模板怎么卖windows优化大师有毒吗
  • 免费云服务器官网广州优化公司哪家好
  • 中国空间站合作的17个国家app推广接单平台哪个好
  • 做网站框架西安网站seo技术
  • 泰安专业网站开发公司网站建站方式有哪些
  • 辽宁新闻网站的建设佛山网站建设
  • 免费建网站教程丽水网站seo
  • 跨境自建站模板电商网站运营
  • 自己做的网站怎么发布到网上关键词怎么提取
  • 莱芜网站建设莱芜新网站推广方法
  • wap建站程序源码襄阳网站推广优化技巧
  • 做网站怎么打空格怎么做百度搜索排名
  • 许昌那有做网站软件推广平台有哪些?哪个比较好
  • 建设行业个人云网站百度合作平台
  • 做车贷的网站女教师遭网课入侵直播录屏曝
  • 网站建设 凡科淘宝关键词排名怎么查询
  • 做微信广告网站有哪些搜索引擎的优化和推广
  • 区网站建设网站优化推广服务
  • 天津市市建设与管理局网站关键词智能优化排名
  • 网站建设 日志北京做seo的公司
  • 上海专业网站建设平台广州seo优化推广
  • 合肥做微网站建设企业网站运营推广
  • 门户网站和新闻网站的区别网站推广seo是什么
  • 阿里云网站备案注销公司网站免费自建
  • 响应式网站价格深圳网站维护
  • 站长seo互动营销的概念
  • 注册域名和购买域名window优化大师
  • 中邮通建设咨询有限公司官方网站seo推广计划