当前位置: 首页 > news >正文

玻尔兹曼分布与玻尔兹曼探索

目录

玻尔兹曼分布定义

玻尔兹曼探索:

1. 玻尔兹曼分布公式

2. 温度 T 如何影响采样结果?

(1) 高温 (T→∞):

(2) 低温 (T→0+):

(3) 中等温度 (T∈(0,∞)):

3. 直观示例

4. 实际应用中的意义

5.核心误区澄清:选择机制 ≠ 贪心

总结

参考:


玻尔兹曼分布定义

在统计力学和数学中,玻尔兹曼分布(英语:Boltzmann distribution),或称吉布斯分布(英语:Gibbs distribution)[1],是一种概率分布或概率测度,它给出一个系统处于某种状态的概率,是该状态的能量及温度的函数。该分布以下列形式表示:

p_i \propto e^{\varepsilon _i}/(KT) 

其中pi是系统处于状态i的概率,εi是该状态的能量,kT为玻尔兹曼常数k和热力学温度T的乘积。符号∝表示比例(比例常数见§ 分布形式)。

两种状态的概率比称为玻尔兹曼因子,其特征在于其仅取决于两状态之能量差:

\frac{p_i}{p_j} \propto e^{(\varepsilon _j - \varepsilon _i)}/(KT)

其中,pi为状态i的概率,pj为状态j的概率,而ϵi和ϵj分别为状态i和状态j的能量。两能量对应的概率比,必须考虑它们的简并能级。

该分布表明,低能量的状态比起高能量的状态具有较高的分布概率。同时,它也能够定量地比较两能级分布概率的关系。

玻尔兹曼分布是状态能量与系统温度的概率分布函数,给出了粒子处于特定状态下的概率[7]。其具有以下形式:

p_i = \frac{1}{Q}e^{ - \varepsilon_i}/(KT) = \frac{e^{ - \varepsilon_i}/(KT)}{\sum_{j=1}^{M}e^{ - \varepsilon_i}/(KT)}

其中pi为状态i的概率,ϵi为状态i之能量, k为玻尔兹曼常数,T为系统的绝对温度,而M是系统中我们有兴趣且可知的状态数量。 分母为归一化常数Q,这个结果源自于所有可能状态的概率之和必须为1的约束条件。

玻尔兹曼分布是使熵最大化的分布。

H(p_1, p_2, ..., p_M) = -\sum_{i=1}^{M}p_ilog_2p_i

玻尔兹曼探索:

在玻尔兹曼探索(Boltzmann Exploration)中,温度系数 TT 是一个关键的超参数,它直接控制着动作选择策略的探索-利用权衡(Exploration-Exploitation Trade-off)。温度 TT 的变化会显著改变动作概率分布的形状,但不会改变动作价值(Q值)的相对排序。以下详细解释:

1. 玻尔兹曼分布公式

动作 a 被选择的概率由玻尔兹曼分布(Softmax 函数)给出:

P(a)=\frac{e(q(a)/T)}{\sum_b e(q(b)/T)}

其中:

  • Q(a)是动作 aa 的价值估计,

  • T>0 是温度系数,

  • 分母是所有动作的指数值之和。

2. 温度 T 如何影响采样结果?

(1) 高温 (T→∞):
  • 效果:所有动作的概率趋近均匀分布。

  • 数学解释lim_{T-> \infty} P(a) = \frac{1}{N}

  • 行为:智能体完全随机探索,忽略动作的价值差异。

(2) 低温 (T→0+):
  • 效果:概率集中在价值最高的动作上。

  • 数学解释

    lim_{T-> 0} P(a) = \left\{\begin{matrix} 1 & if Q(a)=max_bQ(b)\\ 0 & otherwise \end{matrix}\right.
  • 行为:智能体趋于贪心策略(纯利用),几乎不探索。

(3) 中等温度 (T∈(0,∞)):
  • T越大:动作概率分布越平缓(高熵,高探索性)。

  • 越小:分布越尖锐(低熵,高利用性)。

3. 直观示例

假设三个动作的 Q 值:Q(a1)=3, Q(a2)=2, Q(a3)=1:

温度 TTP(a1)P(a1​)P(a2)P(a2​)P(a3)P(a3​)分布特性
T=100.360.330.31接近均匀分布
T=10.670.240.09适度偏向最优动作
T=0.10.9993.7×10−41.4×10−9几乎贪心选择最优

✅ 始终满足 P(a1)>P(a2)>P(a3),但概率差异随 TT 减小而急剧增大

4. 实际应用中的意义

  • 退火策略(Annealing)
    实践中常从高温开始(充分探索),逐渐降低 TT(增加利用),平衡学习过程。

  • 超参数调优
    TT 需根据问题调整:

    • 高噪声环境 → 更高 TT(避免过早收敛到次优解)

    • 确定性环境 → 更低 TT(快速利用已知最优解)。

5.核心误区澄清:选择机制 ≠ 贪心

  • ❌ 误解
    “先计算概率分布 → 再选择概率最大的动作 = 贪心策略”

  • ✅ 现实
    玻尔兹曼探索的最终动作选择是依概率采样(Stochastic Sampling),而非固定选择最大概率动作。
    代码实现伪代码:

  • def boltzmann_exploration(Q_values, T):# 计算所有动作的指数权重exp_values = np.exp(Q_values / T)# 计算概率分布 (Softmax)probs = exp_values / np.sum(exp_values)# 关键步骤:按概率分布随机采样一个动作chosen_action = np.random.choice(actions, p=probs)return chosen_action

总结

  • 玻尔兹曼探索的探索性来自随机采样,而非直接选择最大概率动作。

  • 温度 TT 通过调节概率分布的平坦度控制采样随机性

    • 高 TT → 分布平坦 → 采样结果多样性高 → 强探索

    • 低 TT → 分布尖锐 → 采样结果集中在最优动作 → 弱探索

  • 贪心策略是 Boltzmann 在 T→0+T→0+ 时的极限情况,正常 T>0T>0 时必有探索行为。

这种设计使智能体能在利用已知高价值动作的同时,智能地探索潜在有价值的替代动作(而非完全盲目随机),是平衡探索-利用的理想策略之一。

参考:

https://zh.wikipedia.org/wiki/%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E5%88%86%E5%B8%83

http://www.dtcms.com/a/310686.html

相关文章:

  • 户外广告牌识别误检率↓78%!陌讯动态感知算法实战解析
  • 力扣面试150题--数字范围按位与
  • 【文章素材】ACID 原子性与数据库
  • 五自由度机械臂阻抗控制下的力跟踪
  • 神经网络学习笔记
  • 台式机 Server 20.04 CUDA11.8
  • JAVA,Filter和Interceptor
  • ThreadLocal总结
  • 基于倍增的LCA + kruskal重构树 + 并查集
  • 可编辑234页PPT | 某制造集团供应链流程分析和数字化转型解决方案
  • JavaScript 语句和函数
  • ensp防火墙安全策略实验
  • 【全网首个公开VMware vCenter 靶场环境】 Vulntarget-o 正式上线
  • Linux权限提升
  • shell编程练习,实现循环创建账户、测试主机连通性、批量修改主机root密码等功能
  • Linux 用户与组管理:从配置文件到实操命令全解析
  • Lecture 7: Processes 4, Further Scheduling
  • 嵌入式系统中常用通信协议
  • 高压大电流与低压大电流电源的设计难点
  • QT中重写事件过滤失效(返回了多个事件)
  • Jetpack Compose Column组件之focusProperties修饰符
  • 基于C#和NModbus4库实现的Modbus RTU串口通信
  • 【工具分享】模拟接口请求响应的Chrome插件ModResponse
  • 光伏运维数据透明化,发电量提高45%
  • Cursor免费使用工具
  • 配置多数据源dynamic-datasource 开箱即用方案​
  • ubuntu使用man手册中文版办法
  • 同品牌的系列广告要如何保证宣传的连贯性?
  • C语言(02)——标准库函数大全(持续更新)
  • 精品可编辑PPT | 集团整体架构与商务智能解决方案