当前位置：首页 > news >正文

强化学习基本概念

news 2025/11/10 14:04:43

强化学习基本概念

1. 核心定义

强化学习（Reinforcement Learning, RL） 是机器学习的一个分支，关注智能体（Agent） 如何在一系列状态（State） 中通过执行动作（Action） 来最大化累积奖励（Reward）。

2. 基本要素

智能体（Agent）

学习主体：做出决策的实体
目标：学习最优策略以最大化长期奖励
在你的代码中：DQN智能体选择最佳神经网络模型

环境（Environment）

外部世界：智能体交互的对象
提供状态和奖励
在你的代码中：TimeSeriesPredictionEnv 环境

状态（State）

环境描述：当前情况的表示
数学表示： $st∈Ss_t \in S$
在你的代码中：输入特征向量的当前状态

动作（Action）

决策选择：智能体可以执行的操作
数学表示： $at∈Aa_t \in A$
在你的代码中：选择模型类型 {1:LSTM, 2:BiLSTM, 3:GRU}

奖励（Reward）

即时反馈：执行动作后的收益
数学表示： $r_t = R(s_t, a_t)$
在你的代码中：基于预测精度的奖励信号

3. 核心概念

策略（Policy）

行为函数：从状态到动作的映射
数学表示： $π(a∣s)=P(At=a∣St=s)\pi(a|s) = P(A_t=a|S_t=s)$
类型：
- 确定性策略： $\pi(s)$
- 随机性策略： $π(a∣s)\pi(a|s)$

价值函数（Value Function）

状态价值函数

从状态s开始遵循策略π的期望累积奖励：
$Vπ(s)=Eπ[∑k=0∞γkrt+k+1∣St=s]V^\pi(s) = \mathbb{E}_\pi\left[\sum_{k=0}^\infty \gamma^k r_{t+k+1} \mid S_t = s\right]$

动作价值函数（Q函数）

在状态s执行动作a后遵循策略π的期望累积奖励：

$Q^\pi(s,a) = \mathbb{E}_\pi\left[\sum_{k=0}^\infty \gamma^k r_{t+k+1} \mid S_t = s, A_t = a\right]$

贝尔曼方程（Bellman Equation）

Q函数的递归关系：

$Q^\pi(s,a) = \mathbb{E}_\pi\left[r_{t+1} + \gamma Q^\pi(S_{t+1}, A_{t+1}) \mid S_t = s, A_t = a\right]$

4. 主要算法类型

基于值的方法（Value-based）

思想：学习最优价值函数，导出最优策略
代表算法：Q-learning, DQN
在你的代码中：使用DQN算法

基于策略的方法（Policy-based）

思想：直接学习策略函数
代表算法：REINFORCE, PPO

演员-评论家方法（Actor-Critic）

思想：结合值函数和策略梯度
代表算法：A2C, A3C, SAC

5. DQN（深度Q网络）算法

核心创新

使用神经网络近似Q函数： $Q(s,a;θ)Q(s,a;\theta)$
经验回放（Experience Replay）
目标网络（Target Network）

损失函数

$L(\theta) = \mathbb{E}\left[(r + \gamma \max_{a'} Q(s',a';\theta^-) - Q(s,a;\theta))^2\right]$

在你的代码中的体现：

agentOpts = rlDQNAgentOptions(...'UseDoubleDQN', true, ...'TargetSmoothFactor', 1e-3, ...'TargetUpdateFrequency', 100, ...'ExperienceBufferLength', 1e6, ...'MiniBatchSize', 256);

6. 学习过程

探索 vs 利用（Exploration vs Exploitation）

探索：尝试新动作，发现更好策略
利用：执行已知最优动作，获得奖励
平衡方法：ε-贪婪策略

训练流程

初始化：网络参数、经验缓冲区
交互：智能体与环境交互收集经验
学习：从经验中采样，更新网络参数
评估：测试当前策略性能

7. 代码应用

状态空间

obsInfo = rlNumericSpec([f_ 1]);  % 输入特征维度

动作空间

actInfo = rlFiniteSetSpec([1 2 3]); % 三种模型选择

奖励设计

基于预测模型的准确性
更高的预测精度 → 更高的奖励

训练目标

学习一个策略，能够根据输入数据特征自动选择最合适的预测模型。

8. 强化学习优势

与传统方法的对比

传统方法	强化学习
手动调参	自动学习
固定规则	自适应策略
局部最优	全局优化

9. 数学基础

马尔可夫决策过程（MDP）

强化学习问题通常形式化为MDP，包含：

状态空间 $S$
动作空间 $A$
转移概率 $P (s^{'} ∣ s, a)$
奖励函数 $R (s, a)$
折扣因子 $γ\gamma$

最优性原理

贝尔曼最优方程：
$Q∗(s,a)=E[r+γmax⁡a′Q∗(s′,a′)∣s,a]Q^*(s,a) = \mathbb{E}\left[r + \gamma \max_{a'} Q^*(s',a') \mid s,a\right]$

查看全文

http://www.dtcms.com/a/590476.html

JS宏连接数据库：QueryTables的成员

建站节安达市建设局网站

快速搭建网站后天台百度智能建站适合优化吗

重庆市建设工程信息网官方网站php7 mysql wordpress

论坛门户网站建设运营费用广州网络在线推广

巩义网站建设方案报价怎么做一个购物网站

P4913 【深基16.例3】二叉树深度

广西两学一做网站可以用手机建设网站吗

ToWJQ:按钮控件操作指南

佳易王羽毛球馆计时计费管理系统V17.2：技术解析与中小场馆数字化实践

网站上上传图片怎么做精美手机网站模板

怎么做网站软件360网址

k8s --- resource: StatefulSet

网站规划建设方案模板哪个网站能免费做电子书封面

素材网站设计模板下载网站没有域名

做net网站免费推广网站入口2020

【电路笔记】-电波形

phpstudy 做网站seo石家庄

Python基础（二）

怎样建立自己的视频号网站建设与优化推广方案

俱乐部手机网站模板做网站做得好的公司

Flume安装部署

最新版T5友价互站网源码商城PHP源码交易平台完整带手机版源码网系统源码

化学商城网站建设做网站有底薪吗

树莓派4B使用指南

c语言做网站后台建设部中国建造师网查询

Overleaf——编译超时（timed out）的解决办法

网站推广如何做的深圳市注册公司需要什么资料

做电子商务网站建设工资多少钱网站站内链接怎么做

Java中同步和异步的区别，以及阻塞和非阻塞的区别