当前位置：首页 > news >正文

【机器学习】强化学习（3）——深度强化学习的数学知识

news 2025/10/16 23:18:41

深度学习的损失函数和反向传播涉及到很多数学知识，其原理解释在此。

1 似然估计

1.1 基本概念

似然估计贯穿于整个参数估计的过程，包含损失函数的定义、梯度的计算以及参数的更新。

定义：损失函数通常是似然函数，反映了模型预测的概率分布与真实数据分布之间的差异，定义这个损失函数是基于似然估计的原则。
梯度计算：在训练过程中，需要计算损失函数关于模型参数的梯度，这个梯度指示了参数空间中损失函数增加最快的方向。为了最小化损失函数，需要沿着梯度的反方向更新参数。计算梯度的过程也是基于似然估计的原则。
参数更新：在计算得到梯度后，使用优化算法（如梯度下降、Adam等）更新模型参数。这一步是似然估计的核心，通过更新参数来最小化损失函数。参数的更新是基于似然估计的目标。

1.2 最大似然估计

最大似然估计（Maximum Likelihood Estimation, MLE） 是统计学中的一种方法，用于估计概率模型中的参数。在给定数据 $D=\{x_i,y_i\}^N_{i=1}$ 时，找到模型参数 $\theta$ ，使得数据出现的概率（似然）最大。

似然函数：似然函数是给定参数下观测数据的概率， $L(\theta)=\prod_{i=1}^NP(y_i|x_i;\theta)$ 。对于离散随机变量，似然函数是概率质量函数（PMF）的乘积；对于连续随机变量，似然函数是概率密度函数（PDF）的乘积。
对数似然函数：为了简化计算，通常取似然函数的自然对数，得到对数似然函数， $\log L(\theta)=\sum_{i=1}^N \log P(y_i|x_i;\theta)$ 。

最大似然估计：最大似然估计是使似然函数或对数似然函数达到最大值的参数值。最大化对数似然等价于最小化负对数似然（Negative Log-Likelihood,NLL）， $J(\theta)=-\frac{1}{N}\sum_{i=1}^N \log P(y_i|x_i;\theta)$ ，这通常是深度学习中的交叉熵损失。

1.3 对数似然(Log-Likelihood)

基本原理——对数的加法运算法则： $log_a(MN)=\log_a(M)+\log_a(N)$

直接对概率 $P(y|x;\theta)$ 求导时，链式法则会导致复杂的计算（尤其是多层神经网络），对数梯度形式更易于计算。（建议再学习一下softmax概率交叉熵损失的梯度推导）

乘积形式的概率在计算时容易导致数值下溢，取对数可以将乘积转为求和，避免数值问题，同时对数函数的单调性保证最大化对数似然等价于最大化原始似然。

数值下溢（Underflow）是计算机科学中一个常见的数值问题，指的是在计算过程中，某些数值变得非常小，以至于超出了计算机浮点数表示范围的下限，从而导致这些数值被近似为零的现象。

另外，对数转换后的梯度方差更小，有助于稳定训练。

【更新中，欢迎交流】

参考来源：
@ AIGC
策略梯度定理公式的详细推导

http://www.dtcms.com/a/60323.html

相关文章：

设计模式Python版策略模式

C++：vector容器（下篇）

CI/CD—Jenkins配置一次完整的jar自动化发布流程

Hadoop安装文件解压报错：无法创建符号链接。。。

C++11 `enum class`

CSGO开箱网盲盒源码搭建与成品演示解析

多视图几何--相机标定--DTL进行相机标定

每日学Java之一万个为什么

C++函数高阶

19天 - HTTP 1.0 和 2.0 有什么区别？HTTP 2.0 和 3.0 有什么区别？HTTP 和 HTTPS 有什么区别？

单元测试、系统测试和集成测试知识总结

物联网在电力行业的应用

网络DNS怎么更改?

【前端】BOM DOM

Fuel 爬虫：Scala 中的图片数据采集与分析

DeepSeek 助力 Vue3 开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14基础固定表头示例

HTTP拾技杂谈

16、流量控制是怎么实现的？【中高频】

Django 5实用指南（十四）项目部署与性能优化【完】

非线性优化--NLopt算法（Android版本和Python示例）

DeepSeek 助力 Vue3 开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14_01基础固定表头示例

单调栈、单调队列

目标检测Anchor-based 与 Anchor-free

【Linux内核系列】：深入理解缓冲区

用ABBYY PDF Transformer+对PDF的创建编辑转换和注释等操作

【实战ES】实战 Elasticsearch：快速上手与深度实践-6.2.2GDPR数据脱敏处理

BUUCTF [GUET-CTF2019]soul sipse 1

我与DeepSeek读《大型网站技术架构》（8）- 信息过滤与反垃圾

linux内存页块划分及位图存储机制

为什么使用消息队列？消息队列有什么优点和缺点？Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点？