当前位置: 首页 > wzjs >正文

英文网站建设服务合同模板下载厦门专业做网站的公司

英文网站建设服务合同模板下载,厦门专业做网站的公司,东莞寮步网站建设,域名注册信息查询📘 强化学习基础概念图文版笔记 1️⃣ 基本框架:Agent 与 Environment 🧠 核心角色: Agent(智能体):做出决策的“大脑”,根据当前状态选择动作。Environment(环境&…

📘 强化学习基础概念图文版笔记


1️⃣ 基本框架:Agent 与 Environment

🧠 核心角色:

  • Agent(智能体):做出决策的“大脑”,根据当前状态选择动作。
  • Environment(环境):Agent 所处的世界,接收动作并返回下一个状态和奖励。

🔄 工作流程:

Agent 观察 → 环境反馈状态 (state)
Agent 决策 → 选择动作 (action)
环境响应 → 返回奖励 (reward) 和新状态
Agent 更新策略

📌 图形示意:

[Agent] —— action ——> [Environment]<—— reward/state ——

2️⃣ 状态(State) vs 观测(Observation)

概念描述
State(状态)环境的完整信息,通常 Agent 不一定能直接观察到
Observation(观测)Agent 实际看到的信息,可能是 state 的一部分或噪声版本

✅ 在 RLHF 中,prompt 可以视为一种 observation


3️⃣ 动作空间(Action Space)

🧩 定义:

Agent 可以采取的所有动作的集合。

✅ 类型:

  • 离散动作空间:比如上下左右(游戏控制)
  • 连续动作空间:比如力度、角度(机器人控制)

🔍 示例:

  • 在 LLM 中,一个动作可以是一个 token 输出
  • 整个回答就是一系列动作组成的序列

4️⃣ 奖励函数(Reward Function)

🎯 定义:

环境对 Agent 动作的即时反馈,表示这个动作是否“好”。

🧮 示例:

  • 正确回答问题:+1
  • 回答有害内容:-1
  • 长度过长:-0.1

⚠️ 注意:

  • 奖励设计直接影响训练效果
  • 在 RLHF 中,Reward Model 提供打分信号

5️⃣ 策略(Policy)

🧠 定义:

策略是 Agent 的行为规则,即给定状态,输出动作的概率分布。

π ( a ∣ s ) = P ( a t = a ∣ s t = s ) \pi(a|s) = P(a_t = a \mid s_t = s) π(as)=P(at=ast=s)

📌 举例:

  • 在 prompt “量子计算是什么?” 下,模型可能生成多个回答,策略决定了每个回答被选中的概率

6️⃣ 价值函数(Value Function)

📈 定义:

价值函数衡量某个状态的好坏,代表从该状态出发未来能获得的期望回报。

V π ( s ) = E π [ ∑ t = 0 ∞ γ t r t ∣ s 0 = s ] V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s \right] Vπ(s)=Eπ[t=0γtrts0=s]

其中 γ \gamma γ 是折扣因子(0 ≤ γ ≤ 1),用于权衡当前奖励和未来奖励。


7️⃣ Q 函数(Action-Value Function)

📈 定义:

Q 函数衡量在某个状态下采取某个动作的价值。

Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t r t ∣ s 0 = s , a 0 = a ] Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s, a_0 = a \right] Qπ(s,a)=Eπ[t=0γtrts0=s,a0=a]


8️⃣ Advantage 函数(优势函数)

🧠 定义:

Advantage 表示某个动作相对于当前状态平均表现的优势。

A π ( s , a ) = Q π ( s , a ) − V π ( s ) A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) Aπ(s,a)=Qπ(s,a)Vπ(s)

📌 含义:

  • $ A > 0 $:该动作优于平均水平,应增强其概率
  • $ A < 0 $:该动作不如平均水平,应降低其概率

9️⃣ 策略梯度方法(Policy Gradient)

🧮 基本思想:

通过梯度上升优化策略参数 θ \theta θ,使期望回报最大化:

J ( θ ) = E τ ∼ π θ [ ∑ t = 0 T γ t r t ] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t r_t \right] J(θ)=Eτπθ[t=0Tγtrt]

梯度更新公式为:

∇ θ J ( θ ) ≈ ∑ t = 0 T ∇ θ log ⁡ π θ ( a t ∣ s t ) ⋅ A ( s t , a t ) \nabla_\theta J(\theta) \approx \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A(s_t, a_t) θJ(θ)t=0Tθlogπθ(atst)A(st,at)


🔟 PPO 中的 Advantage 使用方式

📐 Clip 操作的作用:

为了避免策略更新过大导致不稳定,PPO 对 ratio 做裁剪处理:

r t ( θ ) = π θ ( a t ∣ s t ) π θ old ( a t ∣ s t ) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst)

最终损失函数为:

L PPO ( θ ) = E t [ min ⁡ ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] L^{\text{PPO}}(\theta) = \mathbb{E}_t\left[\min \left( r_t(\theta) \hat{A}_t,\ \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_t \right)\right] LPPO(θ)=Et[min(rt(θ)A^t, clip(rt(θ),1ϵ,1+ϵ)A^t)]


🔟 什么是 GAE(Generalized Advantage Estimation)?

📌 目标:

GAE 是一种更稳定地估计 Advantage 的方法,通过引入参数 λ \lambda λ 来平衡偏差与方差。

🧮 公式(简化理解):

A ^ t GAE ( γ , λ ) = ∑ l = 0 ∞ ( γ λ ) l δ t + l \hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^\infty (\gamma \lambda)^l \delta_{t+l} A^tGAE(γ,λ)=l=0(γλ)lδt+l

其中:

  • δ t = r t + γ V ( s t + 1 ) − V ( s t ) \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) δt=rt+γV(st+1)V(st) 是 TD 误差

🔟 策略优化方法对比表

方法是否需要 RM是否需要 RL是否使用 preference pair是否支持 SFT特点
PPO✅ 需要✅ 需要❌ 否❌ 否经典强化学习方法
DPO❌ 不需要❌ 不需要✅ 是❌ 否偏好优化主流方法
KTO❌ 不需要❌ 不需要✅ 是❌ 否结合拒绝采样思想
ORPO❌ 不需要❌ 不需要✅ 是✅ 是统一 SFT + Preference
GRPO❌ 不需要✅ 是(简化版)✅ 是✅ 是加入引导机制

📌 附录:RLHF 三阶段流程图

1. SFT(Supervised Fine-Tuning)└── 使用人工标注数据进行有监督微调2. RM(Reward Model 训练)└── 使用 preference pair 数据训练 Reward Model3. PPO / DPO / GRPO / ORPO└── 利用 Reward Model 或 preference pair 进行策略优化

📄 总结一句话:

强化学习的核心在于通过奖励信号不断调整策略,使得 Agent 能够学会如何在复杂环境中做出最优决策。

http://www.dtcms.com/wzjs/840780.html

相关文章:

  • 网站建设十一要点宿迁seo
  • 漳州做网站的公司噼里啪啦动漫在线观看免费
  • 个体工商户是否能够做网站即墨网站建设
  • 广州顺德网站设计网站备案 固定电话
  • 亲子网 网站正在建设中wordpress生成海报图片
  • 网站推广有哪些方案广州app开发定制公司
  • 网站主题和风格龙网网络推广软件
  • 襄阳网站建设开发请多记几个本站域名防止失联
  • 访问国外的网站服务器无法访问线上推广员是做什么的
  • wordpress多站点demo怎样让百度快速收录网站
  • 福建省建设干部培训中心网站首页正规seo需要多少钱
  • 网站建设摊销方法深圳一医疗公司给员工放假10个月
  • 自己做网站 怎么解决安全问题湖南省建设银行网站
  • 佛山的网站建设适合seo优化的网站
  • 在线设计工具的网站怎么做网上书城网站建设功能定位
  • 网站建设 猴王网络彩视音乐相册制作下载安装
  • 体育类网站 设计页面模板下载
  • 网页设计与制作精品课程网站wordpress微现场
  • 绍兴做企业网站的公司网站建设与规划方向
  • 洞头建设局网站公司注册地址的要求
  • 沈阳网站制作哪家好郑州app开发价格
  • 网站转发网络运营商包括哪些
  • 监控直播网站开发wordpress手机客户端源码
  • 网站建设素材电子商务网站设计小结
  • 网站搭建公司案例网址兰州市城关区建设局网站
  • 信誉好的集团网站建设简书wordpress
  • 互联网app网站建设方案模板下载宣传网站建设意义
  • 程序员做情侣网站 礼物wordpress wp_footer在哪里定义
  • 培训教育行业网站建设方案厦门做网站seo
  • 民勤县建设局网站贷款网站怎么做