部分可观察马尔可夫决策过程
POMDP 是什么?
POMDP 全称是部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process),它是一种用于在不确定环境下进行决策的数学框架。POMDP 是**马尔可夫决策过程(MDP)**的扩展,主要用于处理系统状态无法完全观察的情况。以下是对 POMDP 的详细解释:
1. POMDP 的基本概念
POMDP 是一种描述决策问题的模型,在这种问题中,决策者(通常称为智能体)无法直接知道系统的真实状态,而是通过观察来推断状态。它可以用一个六元组
( S , A , T , R , Ω , O ) (S, A, T, R, \Omega, O) (S,A,T,R,Ω,O)
来定义:
-
(S)(状态空间):系统中所有可能的状态集合。
-
(A)(动作空间):智能体可以采取的所有动作集合。
-
(T)(状态转移函数):描述在状态 (s) 采取动作 (a) 后转移到状态 (s’) 的概率,即
P ( s ′ ∣ s , a ) P(s' \mid s, a) P(s′∣s,a)
。
-
®(奖励函数):在状态 (s) 采取动作 (a) 时获得的即时奖励,即 (R(s, a))。
-
Ω \Omega Ω
(观察空间)
:智能体可能接收到的所有观察集合。
-
(O)(观察函数):描述在采取动作 (a) 后到达状态 (s’) 并接收到观察 (o) 的概率,即
P ( o ∣ s ′ , a ) P(o \mid s', a) P(o∣s′,a)
与 MDP 不同,在 POMDP 中,智能体不能直接看到当前状态 (s),而是接收到一个观察 (o)。这个观察只提供了关于真实状态的部分信息,因此智能体需要根据这些不完整的线索来做出决策。
2. 信念状态(Belief State)
由于状态不可直接观察,POMDP 引入了信念状态(belief state)的概念。信念状态 (b) 是一个概率分布,表示智能体对系统当前状态的估计。例如,(b(s)) 表示智能体认为系统处于状态 (s) 的概率。
- 信念更新:每当智能体采取一个动作 (a) 并接收到一个观察 (o),它会根据先前的信念、动作和观察更新新的信念 (b’)。这个过程通常使用贝叶斯规则计算。
通过信念状态,智能体能够在不完全信息下进行推理和决策。
3. 决策过程
在 POMDP 中,智能体的策略(policy)是基于信念状态的映射,即从信念 (b) 到动作 (a) 的函数
π ( b ) = a \pi(b) = a π(b)=a
。目标是找到一个最优策略,使得长期累积的期望奖励最大化。奖励通常会考虑未来的折扣,即:
V ( b ) = E [ ∑ t = 0 ∞ γ t R ( s t , a t ) ∣ b 0 ] V(b) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid b_0 \right] V(b)=E[t=0∑∞γtR(st,at)∣b0]
其中
γ \gamma γ
是折扣因子(0 ≤ γ \gamma γ < 1), b 0 b_0 b0是初始信念。
4. POMDP 与 MDP 的区别
-
状态可观察性:
- MDP:状态完全可观察,智能体知道当前的确切状态。
- POMDP:状态部分可观察,智能体只能通过观察推测状态。
-
策略依赖:
- MDP:策略基于状态
π ( s ) \pi(s) π(s)
-
POMDP:策略基于信念状态
π ( b ) \pi(b) π(b)
-
复杂性:
- MDP:计算相对简单。
- POMDP:由于信念状态是连续的,求解更加复杂。
5. POMDP 的应用
POMDP 在许多需要处理不确定性和不完全信息的领域中有广泛应用,例如:
- 机器人导航:机器人在未知环境中移动,传感器数据无法完全揭示环境状态。
- 医疗决策:医生根据症状和测试结果(不完全信息)制定治疗方案。
- 自动驾驶:车辆在复杂交通环境中根据不完美的感知数据决策。
- 金融投资:投资者在市场信息不完整时优化资产配置。
6. 一个简单例子:老虎问题
想象一个场景:有两扇门,一扇门后有老虎(惩罚 -100),另一扇门后有宝藏(奖励 +10)。你无法直接知道老虎的位置,但可以选择“听”来获取线索(代价 -1)。每次“听”时,你会听到声音,但声音可能不准确(例如,50% 概率正确)。这是一个典型的 POMDP 问题:
- 状态:{老虎在左边, 老虎在右边}
- 动作:{听, 开左门, 开右门}
- 观察:{听到左边, 听到右边}
你需要根据观察更新信念,然后决定是继续听(收集更多信息)还是开门(冒险获取奖励或惩罚)。
7. 总结
POMDP 是一种强大的工具,用于解决状态不完全可观察的决策问题。它通过信念状态来处理不确定性,并基于此制定策略以最大化长期奖励。