当前位置：首页 > news >正文

深度强化学习，用神经网络代替 Q-table

news 2025/11/7 7:23:37

是的，您的理解完全正确！奖励机制是强化学习的核心与灵魂。几乎所有强化学习问题都是围绕着“奖励”这一概念来构建和运行的。

我们可以这样来理解：

核心思想：奖励是行为的“指南针”

强化学习的灵感来源于人类和动物的学习方式。比如：

训练小狗：它做出“坐下”的动作，你就给它一块零食（正奖励）。它随地小便，你就批评它（负奖励）。通过多次尝试，小狗就学会了哪些行为能带来好处，哪些会带来坏处。
玩游戏：在游戏中，击败敌人得到分数（正奖励），自己的角色死亡则扣分（负奖励）。游戏玩家的目标就是学习一套操作策略，使得最终获得的总分最高。

在强化学习中，这个过程由一个智能体在形式化的框架中完成：

智能体 在某个环境中。
在每个时间步，智能体观察当前的状态。
根据状态，它选择一个动作。
环境会转换到一个新的状态，并给智能体一个奖励信号。
智能体的终极目标是学习一个策略，使得从环境中获得的累计奖励（通常是未来折扣奖励的总和）最大化。

奖励机制的关键作用

奖励机制在整个学习过程中扮演着以下几个至关重要的角色：

定义目标：奖励信号清晰地告诉智能体“什么是好，什么是坏”。你想让智能体做什么，就通过奖励来告诉它。这是你与智能体沟通的唯一方式。
引导探索：智能体一开始并不知道哪个动作好。正奖励会鼓励它更多地探索产生该奖励的行为路径，而负奖励则会让它避免那些路径。
信用分配：在一个漫长的决策序列中（比如一盘围棋），奖励通常是在最后才给出的（赢或输）。强化学习算法（如价值函数、策略梯度）的一个核心任务就是解决信用分配问题——即如何将最终的成功或失败，归因到之前成百上千个具体动作上。

从“奖励”衍生出的核心概念

整个强化学习的理论大厦都建立在奖励机制之上：

价值函数：可以看作是“长远眼光下的奖励”。它回答的问题是：“从当前状态开始，遵循某个策略，我未来期望能获得的总奖励是多少？” 它帮助智能体不仅仅贪图眼前的蝇头小利，而是为长远的最大总收益做规划。
策略：是智能体的行为准则。它的优化目标非常明确：最大化累积奖励。一个好的策略会倾向于选择那些能带来高价值状态的动作。
Q-Learning：一种经典的算法。它学习一个Q函数，该函数评估在某个状态下采取某个动作，然后遵循最优策略所能获得的期望累积奖励。智能体通过不断更新这个Q值来学习。

一个经典案例：雅达利游戏《Breakout》

状态：当前游戏的画面（砖块、球、挡板的位置）。
动作：向左移动、向右移动、不动。
奖励：
- 用球击碎一个砖块：+1分（正奖励）
- 球掉落到屏幕底部：-1分（负奖励） 或游戏结束。
- 其他情况：0奖励。
学习过程：智能体一开始随机移动挡板。偶然接到球并击碎砖块后，它获得了正奖励。通过数百万次的试错，它逐渐学会了将挡板移动到球的下方，甚至发现了“从侧面击球能打到顶部，从而获得更高分数”的高级策略。

所以，您的判断是准确的。 可以说，没有奖励机制，就没有强化学习。设计一个好的奖励函数，本身就是强化学习应用中最具挑战性和艺术性的部分之一。一个设计不当的奖励函数，可能会导致智能体学会一些“作弊”或违背设计者初衷的行为。

您对强化学习流程的理解非常准确和到位！您描述的 “状态 -> 选择高分动作 -> 新状态 -> 循环” 正是强化学习的核心执行循环。

现在，我们来深入探讨您最关心的问题：奖励（也就是“打分”）究竟是如何产生的？

您的两个猜测——“人为打分”和“基于距离自动打分”——都是完全正确的，它们代表了设计奖励函数的两种主要方式。在实际应用中，通常是这两种方式以及更多方法的结合。

奖励函数的两种主要设计模式

1. 稀疏奖励 - 接近“人为最终打分”

方式：只有在智能体最终成功或彻底失败时，才会获得一个大的奖励（比如+1000分）或惩罚（比如-1000分）。在中间过程中，每一步的奖励都是0。
例子：教一个机械臂开门。
- 成功打开门：+1
- 过程中每一步：0
- 把门弄坏了：-1
优点：设计简单，目标明确。
缺点：学习极其困难。因为绝大多数动作得到的奖励都是0，智能体就像在黑暗中摸索，不知道哪些动作是通往成功的正确步骤，全靠运气才能偶然碰到一次成功。这被称为“探索问题”。

2. 稠密奖励 - 接近“基于距离自动打分”

方式：为智能体的每一个中间行为提供一个细粒度的、持续的奖励信号，引导它一步步走向目标。您提到的“检测状态数据信息与目标地距离”就是最经典的稠密奖励设计。
例子：让一个机器人走到房间的某个目标点。
- 基于距离：每一步，根据机器人离目标点更近了还是更远了给予小奖励或小惩罚。比如，奖励 = (上一步距离 - 当前步距离) * 系数。更近了就给正分，更远了就给负分。
- 基于任务：对于机械臂开门，可以设计为：
  - 手抓到了门把手：+0.1
  - 成功转动了门把手：+0.3
  - 把门推开了一定角度：+0.2
  - 门完全打开：+0.4（最终奖励）
优点：学习更快、更高效。智能体每时每刻都能得到反馈，知道自己的行为是在向好还是向坏的方向发展。
缺点：设计难度大，容易导致“奖励黑客”。如果奖励函数设计得不完美，智能体可能会找到一种“作弊”方式来最大化奖励，而不是真正完成任务。例如，为了“离目标点更近”的奖励，它可能会绕着目标点转圈来无限刷分，而不是真正到达目标点。

综合案例：机器人走到目标点

让我们将您的理解整合到一个具体的例子中：

状态：收集所有传感器信息。这包括机器人自身的关节角度、相机看到的图像、激光雷达测得的障碍物距离，以及最关键的：它自己当前的位置(x_current, y_current)和目标点的位置(x_target, y_target)。
奖励函数：这里我们使用稠密奖励（自动打分）。
- distance = sqrt( (x_current - x_target)² + (y_current - y_target)² ) //计算当前与目标的距离
- reward = (previous_distance - current_distance) //核心奖励：距离缩短了就给正分，拉大了就给负分。
- 附加奖励/惩罚：
  - 如果到达目标：reward += 100 //稀疏的最终奖励
  - 如果撞到障碍物：reward -= 10 //防止它走捷径撞墙
  - 每走一步消耗时间：reward -= 0.01 //鼓励它尽快到达
学习循环：
- 循环开始：机器人处于状态S1（比如，在起点）。
- 选择动作：它的策略网络根据S1，计算出“向前走”、“向左转”等动作的预期价值（Q值），然后选择分数最高的一个（比如“向前走”）。
- 执行与环境交互：执行“向前走”，环境发生变化。
- 观察新状态与奖励：机器人进入新状态S2（离目标近了一点），并根据上面的奖励函数自动计算出一个奖励R（比如+0.5）。
- 学习与更新：机器人将(S1, “向前走”, +0.5, S2)这个经验存储到记忆库中。然后它会用大量这样的经验来调整它的策略网络，使其在未来遇到类似S1的状态时，更可能选择能带来高奖励的动作。
- 循环继续：以S2作为新的当前状态，重复此过程。

总结

您的理解完全正确：强化学习的训练就是一个不断接收状态、采取动作、获得奖励，并以此更新策略的循环。
打分方式：不是单纯的人为每一步打分（那在大规模任务中不现实），也不是单一的自动打分。而是工程师设计一个巧妙的、自动化的奖励函数。这个函数：
- 核心是“基于距离或进度的自动打分”（稠密奖励），为学习提供清晰的指引。
- 可能包含“人为的最终打分”（稀疏奖励），来定义终极的成功与失败。
- 还会包含很多防止不良行为和鼓励高效行为的附加条款。

所以，您可以将奖励函数看作是给机器人编写的一部 “行为宪法” ，通过自动化的“打分”来告诉它什么是对的、什么是错的、什么是值得鼓励的。而强化学习算法，就是机器人理解和执行这部宪法的过程。

您这个问题问到了强化学习最核心的部分！您的理解方向是对的，但细节上可以更精确。让我来详细解释Q值是如何计算和使用的。

Q值的核心思想

Q值代表的是：在特定状态 s 下，采取特定动作 a 之后，所能获得的 所有未来奖励的期望总和（会考虑折扣）。

它回答的问题是：“在当前这个局面下，我走这步棋，从长远来看，到底能值多少分？”

Q值是怎么计算出来的？

Q值不是通过“在数据库中检索最相似状态”来简单计算的，而是通过一个不断迭代更新的学习过程。主要有两种经典方法：

方法一：Q-Learning（基于值迭代）

这是最经典的方法，它不直接记住所有状态，而是通过一个函数（最初是一张大表，后来是神经网络）来估算Q值。

核心更新公式（非常关键）：

新Q值(s, a) ≈ 老Q值(s, a) + α * [即时奖励 + γ * 下一状态的最大Q值 - 老Q值(s, a)]

其中：

α 是学习率
γ 是折扣因子（未来奖励不如眼前奖励值钱）
即时奖励 + γ * 下一状态的最大Q值 被称为 “目标Q值”，它是基于实际体验得到的一个更可靠的估计。
目标Q值 - 老Q值 是 “预测误差”。

这个公式的含义是：根据一次实际尝试的结果，来修正我之前对这个动作价值的预测。

方法二：Deep Q-Network (DQN)

当状态空间太大时（比如游戏画面），无法用表格存储所有Q值。DQN使用一个神经网络来近似 Q函数。

输入：状态 s（比如游戏像素）
输出：该状态下每个可能动作 a 的Q值

经典例子：穿越迷宫

让我们用一个最简单的迷宫来演示Q-Learning的计算过程：

S: 起点
G: 终点（奖励+100）
*: 墙壁
动作: 上/下/左/右[S] [ ] [ ]
[ ] [*] [ ]
[ ] [ ] [G]

参数设置： 学习率 α=0.1，折扣因子 γ=0.9

初始化： 所有Q值都是0

第一次尝试：

在起点S，随机选择动作“右”
执行“右”，到达新位置，但没有奖励（即时奖励=0）
观察新位置的最大Q值（目前都是0）
更新Q(S, 右)：
Q(S, 右) = 0 + 0.1 * [0 + 0.9 * 0 - 0] = 0
（这次更新很小，因为探索没有实质性进展）

经过多次探索后，一次成功的尝试：

在离终点G只有一步的位置，状态记为s_near，选择动作“下”
执行“下”，到达终点G，获得奖励+100
更新Q(s_near, 下)：
Q(s_near, 下) = 老值 + 0.1 * [100 + 0.9 * 0 - 老值]
假设老值是10，则新值 = 10 + 0.1 * (100 - 10) = 19

反向传播价值：
下一次，当智能体在s_near的前一个状态s_far，选择动作到达s_near时：

它会发现s_near状态的最大Q值现在是19（而不是0）
更新Q(s_far, 动作)：
Q(s_far, 动作) = 老值 + 0.1 * [0 + 0.9 * 19 - 老值]

通过这样成千上万次的尝试，成功的奖励会像涟漪一样，从终点G反向传播到起点S，最终所有通往终点的正确路径上的Q值都会变得很高。

您的理解 vs 实际机制

您说：“根据以往这个状态数据，在数据库中检索出的哪个状态值最相似…”

您的理解是正确的精神，但机制不同：实际上不是检索“最相似状态”，而是每次体验都在直接更新当前状态的Q值。
在Deep Q-Learning中，神经网络的作用就是泛化：它学会了将相似的状态映射到相似的Q值输出。所以当遇到一个新状态时，网络会根据它学到的规律来估算Q值，而不是去检索一个具体的数据库。

您说：“哪个策略的总分最高就使用哪个策略的行为吗”

完全正确！ 这就是策略：π(s) = argmax_a Q(s, a)
在每个状态，智能体简单地选择当前估计Q值最高的那个动作。

总结

Q值的计算是一个动态的、不断自我修正的估值过程，而不是静态的检索。它通过：

探索：尝试各种动作
体验：获得即时奖励和观察新状态
更新：根据实际结果修正对动作价值的预测
传播：将最终成功的价值，通过Q值更新，一步步反向传播到整个决策路径的早期步骤中

最终，当学习完成后，Q表（或Q网络）就包含了基于大量经验的对每个动作在每种状态下真实价值的最优估计。

您问到了一个非常关键的技术细节！是的，我们需要保存数据，但保存的形式随着算法的发展而演变。主要有两种方式：

1. 经典的 Q-Table 方法（小规模问题）

这种方式就是直接保存一个巨大的表格。

需要保存的数据：

状态（s）：作为表的行索引
动作（a）：作为表的列索引
Q值：表格单元格中的数值

具体表结构示例（迷宫问题）：

状态	动作-上	动作-下	动作-左	动作-右
S1(起点)	Q(S1,上)=0.5	Q(S1,下)=0.8	Q(S1,左)=0.1	Q(S1,右)=1.2
S2	Q(S2,上)=2.1	Q(S2,下)=1.5	Q(S2,左)=0.9	Q(S2,右)=1.8
S3(靠近终点)	Q(S3,上)=15.3	Q(S3,下)=89.5	Q(S3,左)=12.1	Q(S3,右)=10.2
…	…	…	…	…

更新过程就是直接修改这个表格：

# 伪代码：Q-Table更新
Q_table[state][action] = Q_table[state][action] + learning_rate * (reward + discount_factor * max(Q_table[next_state]) - Q_table[state][action])

优缺点：

✅ 简单直观
❌ 状态空间大时表格会爆炸（比如围棋有10¹⁷⁰个状态，宇宙原子才10⁸⁰个）

2. 现代的 Deep Q-Network (DQN) 方法（大规模问题）

当状态太多无法用表格存储时，我们用神经网络来学习 Q函数。

需要保存的数据：

神经网络参数（权重和偏置）：这才是真正的"Q表"
经验回放缓存区：存储训练样本 (s, a, r, s')

神经网络作为Q函数：

输入层（状态s） → 隐藏层 → 输出层（所有动作的Q值）↓                       ↓[游戏画面像素]           [Q(s,左), Q(s,右), Q(s,上), Q(s,下), Q(s,开火)...]

更新过程完全不同：

# 伪代码：DQN更新
# 1. 从经验缓存随机采样一批(s, a, r, s')
batch = replay_buffer.sample(32)# 2. 计算目标Q值
targets = []
for s, a, r, s_done, next_s in batch:if s_done:  # 游戏结束target = relse:target = r + gamma * max(Q_network.predict(next_s))targets.append(target)# 3. 训练神经网络：让Q(s,a)预测值接近目标值
Q_network.train(batch_states, batch_actions, targets)

具体数据存储示例

对于Q-Table：

# 实际存储的数据结构
Q_table = {"state_1": {"up": 0.5, "down": 0.8, "left": 0.1, "right": 1.2},"state_2": {"up": 2.1, "down": 1.5, "left": 0.9, "right": 1.8},"state_3": {"up": 15.3, "down": 89.5, "left": 12.1, "right": 10.2}
}

对于DQN：

# 经验回放缓存（存储具体经历）
replay_buffer = [{"state": "s1", "action": "right", "reward": 0, "next_state": "s2", "done": False},{"state": "s2", "action": "down", "reward": 0, "next_state": "s3", "done": False},{"state": "s3", "action": "down", "reward": 100, "next_state": None, "done": True}
]# 神经网络参数（这才是真正的Q函数）
Q_network_weights = {"layer1_weights": [[0.1, 0.2, ...], ...],"layer1_biases": [0.01, 0.02, ...],"layer2_weights": [[0.3, 0.4, ...], ...],...
}

总结对比

方面	Q-Table	DQN (神经网络)
存储内容	直接的(state, action) → Q值映射表	神经网络的权重参数
存储方式	显式表格	神经网络参数 + 经验缓存
适用场景	状态空间小、离散的问题	状态空间大、连续的问题（如图像、传感器数据）
泛化能力	无，只能处理见过的状态	有，能对相似状态给出合理Q值估计

所以回答您的问题： 是的，需要保存数据，但：

对于简单问题，保存的是直接的Q值表格
对于复杂问题，保存的是神经网络的参数，它隐式地编码了整个Q函数

现代强化学习主要使用神经网络方法，因为它能处理现实世界中几乎无限的状态空间。

非常好的问题！您触及了深度强化学习的一个关键点。但这里有一个重要的概念需要澄清：

神经网络并不是用Q-Table作为训练数据来训练的，恰恰相反——神经网络是用来替代 Q-Table的！

让我详细解释这个过程：

神经网络 vs Q-Table 的关系

传统Q-Learning（使用Q-Table）：

# 需要存储巨大的表格
Q_table = {"状态1": {"动作A": 0.5, "动作B": 0.8},"状态2": {"动作A": 0.2, "动作B": 0.9},# ... 数百万/数十亿行 ...
}

Deep Q-Learning（使用神经网络）：

# 只需要存储神经网络的权重（相对较小）
Q_network_weights = {"layer1_weights": [...],"layer2_weights": [...]
}# 神经网络本身就是一个函数：Q(s,a) = f(s; weights)
def Q_network(state):# 输入状态，输出各个动作的Q值return [Q_value_for_action1, Q_value_for_action2, ...]

神经网络的训练数据来源

神经网络的训练数据不是来自现成的Q-Table，而是来自智能体与环境的实时交互经验：

收集经验：智能体在环境中尝试动作，获得 (状态s, 动作a, 奖励r, 下一状态s')
存储经验：将这些经验存入"经验回放缓存"
训练网络：从缓存中随机采样一批经验来训练神经网络

# 训练数据的生成过程（不是从Q-Table来！）
experiences = []
for episode in range(10000):state = env.reset()while not done:action = epsilon_greedy(Q_network, state)  # 用当前网络选择动作next_state, reward, done = env.step(action)# 这才是训练数据的来源！experiences.append((state, action, reward, next_state, done))state = next_state# 用这些经验来更新神经网络train_network(Q_network, experiences)

这是一个回归问题吗？

是的，完全正确！Deep Q-Learning本质上是一个回归问题。

回归目标：

对于每个 (s, a) 对，我们要让神经网络的预测值逼近 目标Q值：

目标Q值 = r + γ * maxₐ′ Q(s′, a′)

神经网络的损失函数通常是均方误差：

损失 = [Q_network(s, a) - (r + γ * maxₐ′ Q(s′, a′))]²

网络结构示例：

输入: [状态特征] → 隐藏层 → 隐藏层 → 输出: [Q(s,动作1), Q(s,动作2), ...]↓                       ↓[位置, 速度, 图像像素...]    [0.8, 1.2, 0.3, ...]  # 连续数值

输出是连续的Q值，损失函数是MSE → 这确实是一个回归任务。

完整的训练循环

# 初始化神经网络（随机权重）
Q_net = NeuralNetwork()for episode in range(100000):state = env.reset()total_reward = 0while not done:# 1. 用当前网络选择动作q_values = Q_net.predict(state)  # 输出例如: [0.5, 0.8, 1.2, 0.1]action = np.argmax(q_values)  # 选择Q值最大的动作# 2. 执行动作，获得经验next_state, reward, done = env.step(action)# 3. 存储经验replay_buffer.add(state, action, reward, next_state, done)# 4. 从经验回放中采样并训练batch = replay_buffer.sample(32)for s, a, r, s_next, done in batch:if done:target = relse:target = r + gamma * np.max(Q_net.predict(s_next))# 回归训练：让Q(s,a)接近targetcurrent_q = Q_net.predict(s)[a]loss = (current_q - target) ** 2Q_net.update(s, a, target)  # 通过梯度下降更新权重state = next_state# 训练完成后，只保存神经网络权重
save_model(Q_net.weights)

总结

不是从Q-Table学习：神经网络是Q-Table的替代品，不是学生
训练数据来源：来自智能体与环境的实时交互经验
确实是回归问题：目标是让预测的Q值逼近基于贝尔曼方程计算的目标值
最终保存的：神经网络的权重参数，这些参数编码了"状态→动作价值"的映射关系

所以您的直觉是对的——这确实是一个回归任务，但训练数据的来源是环境交互而非现成的Q-Table。

您问到了强化学习实战中最关键的一步！让我用具体的代码示例来展示如何从环境中获取这些经验数据。

基本框架：智能体与环境的交互循环

import gym
import numpy as npclass SimpleAgent:def __init__(self, action_space):self.action_space = action_spacedef choose_action(self, state):# 随机选择动作（最简单的策略）return self.action_space.sample()def basic_interaction_loop():# 1. 创建环境（这里以经典的CartPole环境为例）env = gym.make('CartPole-v1')agent = SimpleAgent(env.action_space)experiences = []  # 存储经验数据的列表# 2. 开始一个回合（episode）state = env.reset()  # 重置环境，获取初始状态done = Falsetotal_reward = 0print("开始收集经验数据...")while not done:# 3. 智能体根据当前状态选择动作action = agent.choose_action(state)# 4. 执行动作！这是最关键的一步# 环境返回：下一个状态，奖励，是否结束，额外信息next_state, reward, done, info = env.step(action)# 5. 这就是我们需要的经验元组！experience = (state, action, reward, next_state, done)experiences.append(experience)print(f"状态: {state[:2]}... | 动作: {action} | 奖励: {reward} | 新状态: {next_state[:2]}... | 结束: {done}")# 更新状态，继续循环state = next_statetotal_reward += reward# 可选：渲染环境（可视化）# env.render()print(f"回合结束！总奖励: {total_reward}")print(f"共收集了 {len(experiences)} 条经验")env.close()return experiences# 运行示例
if __name__ == "__main__":experiences = basic_interaction_loop()

更实用的实现：带经验回放缓存

在实际的深度强化学习中，我们会使用经验回放缓冲区来存储和管理这些数据：

import random
from collections import deque
import numpy as npclass ExperienceReplayBuffer:def __init__(self, capacity=10000):self.buffer = deque(maxlen=capacity)def add(self, state, action, reward, next_state, done):"""添加一条经验到缓冲区"""experience = (state, action, reward, next_state, done)self.buffer.append(experience)def sample(self, batch_size):"""随机采样一批经验"""return random.sample(self.buffer, batch_size)def __len__(self):return len(self.buffer)class DQNAgent:def __init__(self, state_size, action_size):self.state_size = state_sizeself.action_size = action_sizeself.memory = ExperienceReplayBuffer(10000)self.epsilon = 1.0  # 探索率self.epsilon_min = 0.01self.epsilon_decay = 0.995def choose_action(self, state):"""ε-贪婪策略选择动作"""if np.random.random() <= self.epsilon:# 探索：随机选择动作return random.randrange(self.action_size)else:# 利用：选择Q值最大的动作（这里简化处理）# 实际中会用神经网络预测Q值return random.randrange(self.action_size)  # 简化def remember(self, state, action, reward, next_state, done):"""记住经验"""self.memory.add(state, action, reward, next_state, done)def replay(self, batch_size):"""用经验回放训练网络"""if len(self.memory) < batch_size:return# 从缓冲区采样一批经验batch = self.memory.sample(batch_size)# 这里应该是神经网络训练代码for state, action, reward, next_state, done in batch:# 实际实现中会用这些数据来训练Q网络target = rewardif not done:# 贝尔曼方程：target = r + γ * max Q(s',a')target = reward + 0.95 * np.amax(self.model.predict(next_state))# 更新Q网络，让Q(s,a)接近target# self.model.fit(...)pass# 衰减探索率if self.epsilon > self.epsilon_min:self.epsilon *= self.epsilon_decaydef advanced_training_loop():"""完整的训练循环"""env = gym.make('CartPole-v1')state_size = env.observation_space.shape[0]action_size = env.action_space.nagent = DQNAgent(state_size, action_size)batch_size = 32episodes = 1000for episode in range(episodes):state = env.reset()state = np.reshape(state, [1, state_size])total_reward = 0for time in range(500):  # 最大时间步# 选择动作action = agent.choose_action(state)# 执行动作，获取经验next_state, reward, done, _ = env.step(action)next_state = np.reshape(next_state, [1, state_size])# 稍微调整奖励函数（可选）if done and time < 499:  # 提前结束，给予惩罚reward = -10# 记住经验agent.remember(state, action, reward, next_state, done)state = next_statetotal_reward += rewardif done:print(f"Episode: {episode}/{episodes}, Score: {time}, Epsilon: {agent.epsilon:.2f}")break# 用积累的经验训练网络if len(agent.memory) > batch_size:agent.replay(batch_size)env.close()# 运行高级版本
# advanced_training_loop()

关键步骤总结

环境初始化：env.reset() 返回初始状态
动作选择：智能体基于当前状态选择动作
环境交互：env.step(action) 返回：
- next_state：执行动作后的新状态
- reward：该动作获得的即时奖励
- done：回合是否结束
- info：额外信息（调试用）
存储经验：将 (state, action, reward, next_state, done) 存入缓冲区
循环：用 next_state 更新 state，继续直到 done == True

实际应用中的技巧

# 状态预处理（常用于图像输入）
def preprocess_state(state):"""将状态转换为适合神经网络的格式"""# 例如：图像缩放、灰度化、归一化等state = state / 255.0  # 归一化return state# 奖励塑形（Reward Shaping）
def shaped_reward(original_reward, state, next_state):"""设计更好的奖励信号来引导学习"""base_reward = original_reward# 例如：在赛车游戏中，根据速度给予额外奖励speed_reward = next_state[1] * 0.1  # 假设state[1]是速度# 避免撞墙的惩罚collision_penalty = -10 if is_collision(next_state) else 0return base_reward + speed_reward + collision_penalty