当前位置：首页 > news >正文

【足式机器人算法】#1 强化学习基础

news 2025/9/27 6:11:38

前言

传统的机器人控制方法依赖于精确的物理模型和复杂的数学公式，然而足式机器人面临几个固有难题：

机器人具有高度复杂的非线性动力学模型
应用场景存在大量不确定性
关节数量多，状态和动作的空间维度很高

与传统方法不同，强化学习可以不依赖于精确的模型，而是通过智能体与环境的不断交互，从试错中学习最优策略，从而适应各种复杂和未知的环境。随着强化学习的发展，人们发现了其在足式机器人上应用的可能性，并超越了许多传统方法，因而足式机器人与强化学习的结合成为当前机器人领域最前沿和活跃的研究方向之一。

尽管强化学习可以抛开物理模型，基于纯粹的计算机科学，但引入动力学模型作为先验信息将在一定程度上提升强化学习的训练效果。足式机器人的动力学模型及其与强化学习的结合将在具有一定强化学习算法基础后进行补充。

本系列学习笔记中强化学习以及其他可能会遇到的前置知识的介绍主要以为足式机器人算法铺路为目的，不会系统性全面展开，更基础的强化学习还请见【强化学习】系列笔记。在本篇简要回顾强化学习的核心概念之后博主将直接进行机器人领域主流强化学习算法的学习分享。

定义

强化学习是通过从交互中学习来实现目标的计算方法，主要包括三个方面

感知：在某种程度上感知环境的状态
行动：可以采取行动来影响状态或者达到目标
目标：随着时间推移最大化累积奖励

在强化学习的每一步 $t$ 中，智能体和环境将按如下流程运行

智能体
- 获得观察 $O_t$
- 获得奖励 $R_t$
- 执行行动 $A_t$
环境
- 获得行动 $A_t$
- 到达下一步 $t + 1$
- 给出观察 $O_{t+1}$
- 给出奖励 $R_{t+1}$

系统要素

历史（History）是观察、行动和奖励的序列，即一直到时间 $t$ 为止的所有可观测变量

$H_t=O_1,R_1,A_1,O_2,R_2,A_2,\cdots,O_{t-1},R_{t-1},A_{t-1},O_t,R_t$

历史可以影响接下来智能体如何选择行动以及环境如何选择观察和奖励。

状态（State）是一种用于确定接下来会发生的事情（行动、观察、奖励）的信息，是关于历史的函数

$S_t=f(H_t)$

策略（Policy）是智能体在特定时间的行为方式，是从状态到行动的映射

确定性策略（Deterministic Policy）： $a=π(s)a=\pi(s)$
随机策略（Stochastic Policy）： $π(a∣s)=P(At=a∣St=s)\pi(a|s)=P(A_t=a|S_t=s)$

奖励（Reward） $R (s, a)$ 是一个定义强化学习目标的标量，让智能体立即感知到什么是“好”的。

价值函数（Value Function）

状态价值是一个标量，用于定义对于长期来说什么是“好”的。
价值函数是对于未来累积奖励的预测，用于评估在给定的策略下状态的好坏

$\begin{equation}\begin{split}Q_\pi(s,a)&=\mathbb E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s,A_t=a]\\&=\mathbb E_\pi[R_{t+1}+\gamma Q_\pi(s',a')|S_t=s,A_t=a]\end{split}\end{equation}$

环境的模型（Model）用于模拟环境的行为

预测下一个状态
- $Ps,s′a=P[St+1=s′∣St=s,At=a]\mathcal P^a_{s,s'}=\mathbb P[S_{t+1}=s'|S_t=s,A_t=a]$
预测下一个奖励
- $Rsa=E[Rt+1∣St=s,At=a]\mathcal R^a_s=\mathbb E[R_{t+1}|S_t=s,A_t=a]$