当前位置: 首页 > wzjs >正文

有没有专做烘焙的网站百度seo搜索引擎优化方案

有没有专做烘焙的网站,百度seo搜索引擎优化方案,wordpress筛选,高端购物网站建设DDPG(Deep Deterministic Policy Gradient)算法详解 1. 背景与动机 问题场景:DDPG 是为解决连续动作空间的强化学习问题而设计的(如机器人控制、自动驾驶),而传统DQN仅适用于离散动作空间。DQN的局限性: DQN通过Q-learning框架选择离散动作(如“左/右”),但无法处理连…

DDPG(Deep Deterministic Policy Gradient)算法详解


在这里插入图片描述

1. 背景与动机

  • 问题场景:DDPG 是为解决连续动作空间的强化学习问题而设计的(如机器人控制、自动驾驶),而传统DQN仅适用于离散动作空间。
  • DQN的局限性
    • DQN通过Q-learning框架选择离散动作(如“左/右”),但无法处理连续动作(如“方向盘转动角度”)。
    • 高维连续动作空间中,DQN需要遍历所有可能的动作计算Q值,计算复杂度爆炸。
  • DPG的启发
    • Deterministic Policy Gradient(DPG)是一种直接优化确定性策略的方法(输出确定动作,而非动作的概率分布),适用于连续控制。
    • DDPG将DPG与深度神经网络结合,并引入DQN的经验回放目标网络技术,提升稳定性和样本效率。

2. DDPG核心原理

DDPG属于Actor-Critic架构,结合了策略梯度(Policy Gradient)和值函数近似(Q-learning)。

2.1 网络结构

  • Actor网络(策略网络)
    • 输入:状态(State)
    • 输出:确定性动作(Action)
    • 目标:直接输出最优动作,最大化Q值。
  • Critic网络(价值网络)
    • 输入:状态(State) + 动作(Action)
    • 输出:Q值(评估当前状态动作对的长期收益)
    • 目标:准确估计Q值,指导Actor更新。

2.2 核心思想

  • 确定性策略梯度
  • 策略函数为确定性函数: a = μ ( s ∣ θ μ ) a = \mu(s|\theta^\mu) a=μ(sθμ)
  • 策略梯度公式:
    ∇ θ μ J ≈ E s ∼ ρ β [ ∇ a Q ( s , a ∣ θ Q ) ∣ a = μ ( s ∣ θ μ ) ∇ θ μ μ ( s ∣ θ μ ) ] \nabla_{\theta^\mu} J \approx \mathbb{E}_{s \sim \rho^\beta} \left[ \nabla_a Q(s,a|\theta^Q) \big|_{a=\mu(s|\theta^\mu)} \nabla_{\theta^\mu} \mu(s|\theta^\mu) \right] θμJEsρβ[aQ(s,aθQ) a=μ(sθμ)θμμ(sθμ)]
  • 通过链式法则,Critic的Q值梯度指导Actor更新策略。
  • 目标网络与软更新
    • 使用独立的目标Actor网络(参数 θ μ ′ \theta^{\mu'} θμ)和目标Critic网络(参数 θ Q ′ \theta^{Q'} θQ),缓解训练不稳定性。
  • 软更新公式:
    θ t a r g e t ← τ θ + ( 1 − τ ) θ t a r g e t ( τ ≪ 1 , 如 0.001 ) \theta_{target} \leftarrow \tau \theta + (1-\tau)\theta_{target} \quad (\tau \ll 1, \text{如} 0.001) θtargetτθ+(1τ)θtarget(τ1,0.001)

2.3 算法流程

  1. 初始化

    • Actor当前网络 μ ( s ∣ θ μ ) \mu(s|\theta^\mu) μ(sθμ) 和 Critic当前网络 Q ( s , a ∣ θ Q ) Q(s,a|\theta^Q) Q(s,aθQ)
    • 目标网络 μ ′ ( s ∣ θ μ ′ ) \mu'(s|\theta^{\mu'}) μ(sθμ) Q ′ ( s , a ∣ θ Q ′ ) Q'(s,a|\theta^{Q'}) Q(s,aθQ)(初始参数相同)
    • 经验回放池(Replay Buffer)
  2. 交互与采样

    • Actor根据当前策略选择动作 a t = μ ( s t ∣ θ μ ) + N t a_t = \mu(s_t|\theta^\mu) + \mathcal{N}_t at=
http://www.dtcms.com/wzjs/222998.html

相关文章:

  • 菏泽哪家网站设计公司好深圳网络营销策划公司
  • wordpress格子主题济南网络优化网站
  • 肯德基网站建设方案小说网站排名
  • 金华高端网站建设公司sem是指什么
  • 热 综合-网站正在建设中-手机版网络营销策划的内容
  • 以企业介绍为主做外贸网站好吗中国网民博客 seo
  • 动态网站开发什么技术好西安seo王
  • 怎么提高网站关键字排名推广代理平台登录
  • 网站推广策划内容宁波seo外包推广公司
  • 无锡企业如何建网站黑龙江暴雪预警
  • 湖北做网站的公司seo免费资源大全
  • b2c模式的平台有哪些网站优化排名怎么做
  • 怎么做网站跟域名seo研究中心qq群
  • 万户信息 做网站怎么样进行优化
  • 苏州市住房和建设局网站推广官网
  • 湛江有帮公司做网站北京seo公司哪家好
  • 网站建设预览网站关键词优化排名技巧
  • 如何做关于橱柜网站网站优化推广教程
  • 江苏国泰做的网站案例五种常用的网站推广方法
  • 白云区pc端网站建设淘宝推广软件哪个好
  • 临清网站开发怎么制作自己的网站网页
  • 肇庆做网站windows系统优化软件
  • 微博内网站怎么做的投放广告的网站
  • 广告设计与制作主要学什么今日头条搜索优化
  • 百度站长工具有哪些广州网页推广公司
  • dw做的网页在网站图片不显示市场推广工作内容
  • 做网站不推广淘宝直通车推广怎么做
  • 宁波制作网站软件西安关键词排名提升
  • dw做框架网站实时热搜榜榜单
  • 建设网站的工作步骤是最近几天的新闻