当前位置：首页 > news >正文

AI大模型从0到1记录学习大模型技术之数学基础 day26

news 2025/10/30 17:03:20

高等数学
导数
导数的概念
导数（derivative）是微积分中的一个概念。函数在某一点的导数是指这个函数在这一点附近的变化率（即函数在这一点的切线斜率）。导数的本质是通过极限的概念对函数进行局部的线性逼近。

当函数f的自变量在一点x_0上产生一个增量h时，函数输出值的增量∆y与自变量增量∆x的比值在∆x趋于0时的极限如果存在，即为f在x_0处的导数，记作f’(x_0)、df/dx(x_0)或〖df/dx|〗_(x=x_0 )。
f^’ (x_0 )=lim┬(∆x→0)⁡〖(f(x_0+∆x)-f(x_0))/∆x〗

例如在运动学中，物体的位移对于时间的导数就是物体的瞬时速度：v=dx/dt。
基本函数的导数
说明公式例子
常数的导数 ©^‘=0 (3)^’=0
幂函数的导数 (x^α )^'=αx(α-1) (x^3 )^'=3x2
指数函数的导数 (a^x )^'=ax ln⁡a (3^x )^'=3x ln⁡3
(e^x )^'=ex —
对数函数的导数 (log_a⁡x )^‘=1/(x ln⁡a ) (log_3⁡x )^’=1/(x ln⁡3 )
(ln⁡x )^‘=1/x —
三角函数的导数 (sin⁡x )^’=cos⁡x —
(cos⁡x )^‘=〖-sin〗⁡x —
(tan⁡x )^'=sec2⁡x=1/cos^2⁡x —
(cot⁡x )^'=〖-csc〗2⁡x=(-1)/sin^2⁡x —
导数的求导法则
说明公式
两函数之和求导 (f+g)^'=f’+g’
两函数之积求导 (fg)^'=f’ g+fg’
两函数之商求导 (f/g)^'=(f’ g-fg’)/g^2
复合函数的导数若f(x)=h[g(x)],则f’(x)=h’[g(x)]∙g^’ (x)
例如：求函数f(x)=x^4+sin⁡(x2 )-ln⁡(x) e^x+7在x=3处的导数。
f^’ (x)=4x^{(4-1)+cos⁡(x}2 )∙2x-(e^x/x+ln⁡(x) e^x )+0
=4x^3+2xcos(x2 )-e^x/x-ln⁡(x) e^x
f^’ (3)=108+6 cos⁡(9)-e^3/3-ln⁡(3) e^3
利用导数求极值
导数等于零的点称为函数的驻点（或极值可疑点），在这类点上函数可能会取得极大值或极小值。进一步判断则需要知道导数在附近的符号。

二阶导数
二阶导数的概念
在微积分中，函数的二阶导数是函数导数的导数。粗略来说，某个量的二阶导数描述该量变化率变化的快慢。例如物体位置对时间的二阶导数是物体的瞬时加速度，即该物体速度随时间的变化率：a=dv/dt=(d^2 x)/(dt^2 )。
函数f的二阶导数通常记作f’‘、(d^2 y)/(dx^2 )或d/dx (dy/dx)。
二阶导数与函数凹凸的关系
函数的二阶导数描述了函数图像的凹凸方向和程度。若二阶导数在某区间恒为正，则函数在该区间向上弯（也称下凸函数）。反之，若二阶导数在某区间恒为负，则函数在该区间向下弯（也称上凸函数）。
若函数的二阶导数在某点左右异号，则图像由向上弯转为向下弯，或反之。这种点称之为拐点。若二阶导数连续，则在该点处二阶导数为0。但反之二阶导数为0的点不一定是拐点。如f(x)=x^4，在x=0处有f’‘(0)=0，但f(x)在实数系上无拐点。
二阶导数与凹凸性的关系有助于判断函数的驻点是否为极大值点或极小值点：
若f^’ (x)=0，f^‘’ (x)<0，则f在x取得极大值。
若f^’ (x)=0，f^‘’ (x)>0，则f在x取得极小值。
若f^’ (x)=0，f^‘’ (x)=0，则该点可能是拐点，也可能是极大值点或极小值点。
偏导与梯度
偏导数
如果函数f的自变量并非单个元素，而是多个元素，例如：
f(x,y)=x^2+xy+y2

可将其中一个元素x看作参数，此时f可看作关于另一元素y的函数。
f_x (y)=x^2+xy+y2
在x=a固定的情况下，可计算f_x关于y的导数：
f_(x=a)'(y)=a+2y
这种导数称为偏导数，一般记作：
∂f/∂y (x,y)=x+2y
更一般地来说，一个多元函数f(x_1,x_2,…,x_n )在点(a_1,a_2,…,a_n )处对x_i的偏导数定义为：
∂f/(∂x_i ) (a_1,a_2,…,a_n )=lim┬(∆x_i→0)⁡〖(f(a_1,…a_i+∆x_i,…,a_n )-f(a_1,…a_i,…,a_n))/(∆x_i )〗
梯度
多元函数f(x_1,…,x_n )关于每个变量x_i都有偏导数∂f/(∂x_i )，在点a处，这些偏导数定义了一个向量。
∇f(a)=[∂f/(∂x_1 ) (a),∂f/(∂x_2 ) (a),…,∂f/(∂x_n ) (a)]
这个向量称为f在点a的梯度。
例如：f(x,y)=x^2+xy+y2在(1,1)处的梯度为[3,3]。

线性代数
标量与向量
标量与向量的概念
标量（scalar）
标量是一个单独的数，只有大小。
向量（vector）
向量由标量组成，有大小有方向。
行向量：(■(2&5&8))
列向量：(■(2@5@8))
向量运算
向量转置：列向量转置结果为行向量
x=(■(2@5@8))
x^T=(■(2&5&8))
向量相加：对应元素相加
(■(2@5@8))+(■(1@3@7))=(■(3@8@15))
向量与标量相乘：标量与向量每个元素相乘
3×(■(2@5@8))=(■(6@15@24))
向量内积：又称向量点乘，两向量对应元素乘积之和，结果为标量
〈x,y〉=〈(■(2@5@8)),(■(1@3@7))〉=2+15+56=73
两向量之间夹角表示为
cos⁡θ=〈x,y〉/(√(〈x,x〉 ) √(〈y,y〉 ))
向量范数
范数（norm）是具有“长度”概念的函数。
L0范数（也称0范数）
‖x‖0=非零元素的个数
例如：
x=(■(0@2@-1)),‖x‖0=2
L1范数（也称和范数或1范数）
‖x‖1=∑(i=1)^m▒|x_i | =|x_1 |+⋯+|x_m |
例如：
x=(■(0@2@-1)),‖x‖1=0+2+1=3
L2范数（也称欧几里得范数或2范数）
‖x‖2=(∑(i=1)^m▒|x_i |^2 )^(1/2)=√((|x_1 |^2+⋯+|x_m |^2 ) )
例如：
x=(■(0@2@-1)),‖x‖2=√(0+4+1)=√5
Lp范数
‖x‖p=(∑(i=1)^m▒|x_i |^p )^(1/p)=(|x_1 |^p+⋯+|x_m |^p )^(1/p)
在numpy中，可以利用linalg.norm 函数方便地计算向量的范数。
矩阵与张量
矩阵的概念
一个m×n的矩阵（matrix）是一个有m行n列元素的矩形阵列。用R^(m×n)表示所有m×n实数矩阵的向量空间。
[■(1&2@3&5@4&8)]∈R^(3×2)
方阵：行数等于列数的矩阵
[■(1&2@3&4)]∈R^(2×2)
对角矩阵：主对角线以外元素全为0的方阵
[■(1&0&0@0&5&0@0&0&9)]
单位矩阵：主对角线元素全为1的对角矩阵
I(3×3)=[■(1&0&0@0&1&0@0&0&1)]
矩阵乘法
矩阵乘法运算
两个矩阵的乘法仅当矩阵A的列数和矩阵B的行数相等时才能定义。如A∈R^{(m×n)，B∈R}(n×p)，它们的乘积AB∈R^(m×p)
[AB]ij=a_i1 b_1j+a_i2 b_2j+⋯+a_in b_nj=∑(r=1)^n▒〖a_ik b_kj 〗
例如：
[■(1&0&2@-1&3&1)]×[■(3&1@2&1@1&0)]=[■(1×3+0×2+2×1&1×1+0×1+2×0@(-1)×3+3×2+1×1&(-1)×1+3×1+1×0)]=[■(5&1@4&2)]
特别地，矩阵与单位矩阵相乘等于矩阵本身：
AI=A(A∈R^(m×n),I∈R(n×n) ) 或 IA=A(I∈R^(n×n),A∈R(n×m) )
例如：
AI=[■(1&2@3&5@4&8)]×[■(1&0@0&1)]=[■(1×1+2×0&1×0+2×1@3×1+5×0&3×0+5×1@4×1+8×0&4×0+8×1)]=[■(1&2@3&5@4&8)]=A
矩阵乘法的性质
矩阵乘法满足结合律、左分配律和右分配律。不满足交换律即AB≠BA。
结合律：若A∈R^(m×n),B∈R(n×p),C∈R^(p×q)，则(AB)C=A(BC)
左分配律：若A∈R^(m×n),B∈R(m×n),C∈R^(n×p)，则(A+B)C=AC+BC
右分配律：若A∈R^(m×n),B∈R(n×p),C∈R^(n×p)，则A(B+C)=AB+AC
矩阵转置
矩阵转置运算
矩阵A∈R^{(m×n)的转置是一个n×m的矩阵，记为A}T。其中的第i个行向量是原矩阵的第i个列向量；或者说，转置矩阵A^T第i行第j列的元素是原矩阵A第j行第i列的元素。
[A^T ]ij=a_ji
A=[■(1&2@3&5@4&8)]∈R^(3×2)
A^{T=[■(1&3&4@2&5&8)]∈R}(2×3)
矩阵转置的性质
(A^T )^T=A
(A+B)^T=AT+B^T
(kA)^T=〖kA〗T
(AB)^T=BT A^T
矩阵的逆
对于方阵A，如果存在另一个方阵A^{(-1)，使得AA}(-1)=I成立，此时A^(-1) A=I也同样成立。称A^(-1)为A的逆矩阵。例如：
AA^(-1)=[■(1&2@3&5)]×[■(-5&2@3&-1)]=[■(1×(-5)+2×3&1×2+2×(-1)@3×(-5)+3×5&3×2+5×(-1) )]=[■(1&0@0&1)]=I
其他矩阵运算
矩阵的向量化
矩阵A∈R^(m×n)的向量化vec(A)将矩阵A的元素按列排列成一个mn×1的向量。
vec(A)=[a_11,…a_m1,…a_1n,…a_mn ]^T
矩阵也可以转化为行向量rvec(A)，称为矩阵的行向量化。
rvec(A)=[a_11,…a_m1,…a_1n,…a_mn ]
例如：A=[■(1&2@3&4)],vec(A)=(■(1@2@3@4)),rvec(A)=(■(1&2&3&4))。
矩阵的内积
矩阵A∈R^{(m×n)和矩阵B∈R}(m×n)的内积记作〈A,B〉，它是两个矩阵对应元素乘积之和，是一个标量。
〈A,B〉=〈vec(A),vec(B)〉=∑▒〖a(i,j) b(i,j) 〗
矩阵的Hadamard积
矩阵A∈R^{(m×n)和矩阵B∈R}(m×n)的Hadamard积记作A⨀B，它是两个矩阵对应元素的乘积，是一个m×n的矩阵。
(A⨀B)ij=a_ij b_ij
矩阵的Kronecker积
矩阵A∈R^{(m×n)和矩阵B∈R}(p×q)的Kronecker积记作A⨂B，它是矩阵A中每个元素与矩阵B的乘积，是一个mp×nq的矩阵。
█((A⨂B)ij=&[■(a_1 B&a_2 B&⋯&a_n B)]@=&[■(a_ij B)](i=1,j=1)^(m,n)@=&[■(a_11 B&a_12 B&⋯&a_1n B@a_21 B&a_22 B&⋯&a_2n B@⋮&⋮&⋱&⋮@a_m1 B&a_m2 B&⋯&a_mn B)] )
Kronecker积也称为直积或张量积。
张量
张量（tensor）可视为多维数组，是标量，1维向量和2维矩阵的n维推广。
例如：3维张量
[■([■(1&2@3&5@4&8)]&[■(3&2@1&6@7&3)]&[■(5&6@9&1@2&4)] )]
矩阵求导
矩阵求导的本质就是函数对变元的每个元素逐个求导，只是写成了向量、矩阵的形式。
为方便理解，首先对变元和函数作统一的符号规定：
x=[x_1,x_2,…,x_m ]^T∈Rm为实向量变元。
X=[x_1,x_2,…,x_m ]^T∈R(m×n)为实矩阵变元。
f(x)∈R为实标量函数，其变元x为实向量。
f(X)∈R为实标量函数，其变元X为实矩阵。
f(x)∈R^p为实向量函数，其变元x为实向量。
f(X)∈R^p为实向量函数，其变元X为实矩阵。
F(x)∈R^(p×q)为实矩阵函数，其变元x为实向量。
F(X)∈R^(p×q)为实矩阵函数，其变元X为实矩阵。
常用求导结果
(∂x^T a)/∂x=(∂a^T x)/∂x=a
(∂x^T x)/∂x=2x
(∂x^T Ax)/∂x=(A^T+A)x
(∂a^T Xb)/∂X=ab^T
(∂a^T X^T b)/∂X=(∂〖〖(a〗^T X^T b)〗^{T)/∂X=(∂b}T Xa)/∂X=ba^T
(∂a^T XX^T b)/∂X=ab^T X+ba^T X
(∂a^T X^T Xb)/∂X=Xba^T+XabT
Jacobian矩阵与梯度矩阵
Jacobian矩阵（了解）
实标量函数f(x)，对x（m×1维）的偏导向量为1×m的行向量：
D_x f(x)=∂f(x)/(∂x^T )=[∂f(x)/(∂x_1 ),∂f(x)/(∂x_2 ),…,∂f(x)/(∂x_m )]
n×1维的实向量函数f(x)，对x的偏导向量为n×m的矩阵：
D_x f(x)=∂f(x)/(∂x^T )=[■(∂f(x)/(∂x_1 )&⋯&∂f(x)/(∂x_m )@⋮&⋱&⋮@∂f(x)/(∂x_1 )&⋯&∂f(x)/(∂x_m ))]∈R^(n×m)
当实标量函数f(X)的变元为实矩阵X（维度m×n）时，存在两种可能的定义：
D_X f(X)=∂f(X)/(∂X^T )=[■(∂f(X)/(∂x_11 )&⋯&∂f(X)/(∂x_m1 )@⋮&⋱&⋮@∂f(X)/(∂x_1n )&⋯&∂f(X)/(∂x_mn ))]∈R^(n×m)
和
D_vecX f(X)=∂f(X)/(∂vec^T (X) )=[∂f(X)/(∂x_11 ),…,∂f(X)/(∂x_m1 ),…,∂f(X)/(∂x_1n ),…,∂f(X)/(∂x_mn )]
其中D_X f(X)与D_vecX f(X)分别称为实标量函数f(X)关于实矩阵变元X的Jacobian矩阵和行偏导矩阵。两者之间的关系为D_vecX f(X)=rvec(D_X f(X))=(vec(D_X^T f(X)))^T。
实矩阵函数F(X)=[f_kl ](k=1,l=1)^(p,q)∈R(p×q)，其实矩阵变元X∈R^(m×n)。为得到该函数的Jacobian矩阵，先通过列向量化，将p×q的矩阵函数F(X)转换为pq×1的列向量：
vec(F(X))=[f_11 (X),…,f_p1 (X),…,f_1q (X),…,f_pq (X)]^T∈Rpq
然后，该列向量对列向量化的X求偏导，得到pq×mn的Jacobian矩阵：
D_X f(X)=∂vec(F(X))/(∂(vecX)^T )∈R^(pq×mn)
其具体表达式为：
D_X f(X)=[■((∂f_11 (X))/(∂(vecX)^T )@⋮@(∂f_p1 (X))/(∂(vecX)^T )@⋮@(∂f_1q (X))/(∂(vecX)^T )@⋮@(∂f_pq (X))/(∂(vecX)^T ))]=[■((∂f_11 (X))/(∂x_11 )&⋯&(∂f_11 (X))/(∂x_m1 )&⋯&(∂f_11 (X))/(∂x_1n )&⋯&(∂f_11 (X))/(∂x_mn )@⋮&⋱&⋮&⋱&⋮&⋱&⋮@(∂f_p1 (X))/(∂x_11 )&⋯&(∂f_p1 (X))/(∂x_m1 )&⋯&(∂f_p1 (X))/(∂x_1n )&⋯&(∂f_p1 (X))/(∂x_mn )@⋮&⋱&⋮&⋱&⋮&⋱&⋮@(∂f_1q (X))/(∂x_11 )&⋯&(∂f_1q (X))/(∂x_m1 )&⋯&(∂f_1q (X))/(∂x_1n )&⋯&(∂f_1q (X))/(∂x_mn )@⋮&⋱&⋮&⋱&⋮&⋱&⋮@(∂f_pq (X))/(∂x_11 )&⋯&(∂f_pq (X))/(∂x_m1 )&⋯&(∂f_pq (X))/(∂x_1n )&⋯&(∂f_pq (X))/(∂x_mn ))]
梯度矩阵
采用列向量形式定义的偏导算子称为列向量偏导算子，习惯称为梯度算子。
实标量函数f(x)的梯度向量为m×1的列向量：
∇_x f(x)=∂f(x)/∂x=[∂f(x)/(∂x_1 ),∂f(x)/(∂x_2 ),…,∂f(x)/(∂x_m )]^T
将矩阵变元X列向量化，得到f(X)的梯度算子：
∇_vecX f(X)=∂f(X)/∂vec(X) =[∂f(X)/(∂x_11 ),…,∂f(X)/(∂x_m1 ),…,∂f(X)/(∂x_1n ),…,∂f(X)/(∂x_mn )]^T
另外，可直接得到其梯度矩阵：
∇_X f(X)=∂f(X)/∂X=[■(∂f(X)/(∂x_11 )&⋯&∂f(X)/(∂x_1n )@⋮&⋱&⋮@∂f(X)/(∂x_m1 )&⋯&∂f(X)/(∂x_mn ))]∈R^(m×n)
可以发现，实标量函数f(X)的梯度矩阵等于Jacobian矩阵的转置，∇_X f(X)=(D_X f(X))^T。另外，实矩阵函数F(X)的梯度矩阵也是其Jacobian矩阵的转置，∇_X F(X)=(D_X F(X))^T。
类似地，f(x) 的二阶偏导构成的矩阵被称为“黑塞矩阵”（Hessian Matrix）：
H(x)=[(∂^2 f)/(∂x_i ∂x_j )](n×n)
一阶实矩阵微分（了解）
矩阵的迹
方阵A∈R^(n×n)的主对角线元素之和为矩阵A的迹（trace），记作tr(A)：
A=[■(a_11&a_12&⋯&a_1n@a_21&a_22&⋯&a_2n@⋮&⋮&⋱&⋮@a_n1&a_n2&⋯&a_nn )]
tr(A)=a_11+a_22+⋯+a_nn=∑(i=1)^n▒a_ii
标量的迹是其本身：x=tr(x)
转置：tr(A)=tr(A^T )
线性：tr(c_1 A+c_2 B)=c_1 tr(A)+c_2 tr(B)
交换律：tr(AB)=tr(BA)
矩阵微分的性质
矩阵微分用符号dX表示，定义为dX=[dX_ij ](i=1,j=1)^(m,n)。
考虑标量函数的微分，有d(trU)=tr(dU)：
d(trU)=d(∑(i=1)^n▒u_ii )=∑_(i=1)^n▒〖du_ii 〗=tr(dU)
考虑矩阵乘积UV的微分矩阵，有d(UV)=(dU)V+UdV：
[d(UV)]_ij=d([UV]_ij )
=d(∑_k▒〖u_ik v_kj 〗)=∑_k▒d(u_ik v_kj )
=∑_k▒[(du_ik ) v_kj+u_ik dv_kj ]
=∑_k▒〖(du_ik ) v_kj 〗+∑_k▒〖u_ik dv_kj 〗
=[(dU)V]_ij+[UdV]_ij
上两例表明，实矩阵微分具有以下两个基本性质：
转置：矩阵转置的微分等于矩阵微分的转置，即d(X^T )=(dX)^T。
线性：d(αX+βY)=αdX+βdY。
下面汇总矩阵微分常用的计算公式：
dA=O;A为常数矩阵,O为零矩阵
d(αX)=αd(X)
d(X^T )=(dX)^T
d(U±V)=dU±dV
d(AXB)=A(dX)B
d(UVW)=d(U)VW+U(dV)W+UVd(W)
U=F(X),V=G(X),W=H(X)为矩阵函数
d(trX)=tr(dX),并且d(tr（F(X)）)=tr(d(F(X)))
d|X|=|X|tr(X^(-1) dX);|X|为行列式,并且d|F(X)|=|F(X)|tr(F^(-1) (X)d(F(X)))
d(U⨂V)=(dU)⨂V+U⨂d(V);U⨂V为矩阵Kronecker积
d(U⨀V)=(dU)⨀V+U⨀d(V);U⨀V为矩阵Hadamard积
d(vec(X))=vec(dX)
dlogX=X^(-1) dX,并且dlog(F(X))=F^(-1) (X)d(F(X))
d(X^(-1) )=-X^(-1) (dX) X^(-1)
标量函数的矩阵微分
考虑标量函数f(x)的全微分：
df(x)=∂f(x)/(∂x_1 ) dx_1+⋯+∂f(x)/(∂x_m ) dx_m
=[∂f(x)/(∂x_1 ),…,∂f(x)/(∂x_m )][█(dx_1@⋮@dx_m )]
=∂f(x)/(∂x^T ) dx
令A=∂f(x)/(∂x^T )，则有：
df(x)=∂f(x)/(∂x^T ) dx=Adx=tr(Adx)
这表明，标量函数f(x)的Jacobian矩阵与微分矩阵之间存在等价关系：
df(x)=tr(Adx)⟺D_x f(x)=∂f(x)/(∂x^T )=A
换言之，若函数f(x)的微分可以写作df(x)=tr(Adx)，则矩阵A就是函数f(x)关于其变元向量x的Jacobian矩阵。
考虑标量函数f(X)，其变元为X∈R^(m×n)的全微分：
df(X)=∂f(X)/(∂x_1 ) dx_1+⋯+∂f(X)/(∂x_m ) dx_m
=[∂f(X)/(∂x_11 ),…,∂f(X)/(∂x_m1 )][█(dx_11@⋮@dx_m1 )]+⋯+[∂f(X)/(∂x_1n ),…,∂f(X)/(∂x_mn )][█(dx_1n@⋮@dx_mn )]
=[∂f(X)/(∂x_11 ),…,∂f(X)/(∂x_m1 ),…,∂f(X)/(∂x_1n ),…,∂f(X)/(∂x_mn )][█(dx_11@⋮@dx_m1@⋮@dx_1n@⋮@dx_mn )]
=∂f(x)/(∂vec^T (X) ) d(vecX)=D_vecX f(X)d(vecX)
利用行向量偏导与Jacobian矩阵的关系D_vecX f(X)=(vec(D_X^T f(X)))^T，上式可以改写为：
df(X)=(vec(A^T ))^T d(vecX)
式中A=D_X f(X)=∂f(X)/(∂X^T )是标量函数f(X)的Jacobian矩阵。
利用向量化算子和迹函数之间的关系tr(B^T C)=(vec(B))^T vec©，令B=A^T，C=dX，则有：
df(X)=(vec(A^T ))^T d(vecX)=tr(AdX)
综上：
df(x)=tr(Adx)⟺D_x f(x)=∂f(x)/(∂x^T )=A,∇_x f(x)=A^T
df(X)=tr(AdX)⟺D_X f(X)=∂f(X)/(∂X^T )=A,∇_X f(X)=A^T
因此可以利用矩阵微分直接求标量函数f(X)的Jacobian矩阵D_X f(X)和梯度矩阵∇_X f(X)。
二次型函数f(x)=x^T Ax
标量函数可直接写成迹的形式：
f(x)=tr(f(x))
d(f(x))=d(tr(x^T Ax))
=tr[(dx)^T Ax+x^T Adx]
=tr([dx^T Ax]^T+xT Adx)
=tr(x^T A^T dx+x^T Adx)
=tr(x^T (A+A^T )dx)
根据df(x)=tr(Adx)⟺D_x f(x)=∂f(x)/(∂x^T )=A,∇_x f(x)=A^T可得：
∇_x f(x)=A^T=[xT (A+A^T )]^T=(AT+A)x
矩阵的标量函数：迹f(X)=tr(X^T X)
dtr(X^T X)=tr(d(X^T X))
=tr(((dX)^T X)+X^T dX)
=tr((dX)^T X)+tr(X^T dX)
因为tr(A)=tr(A^T )，所以有：
dtr(X^T X)=tr((dX)^T X)+tr(X^T dX)
=tr(((dX)^T X)^T )++tr(X^T dX)
=tr(2X^T dX)
∇_X f(X)=∂tr(X^T X)/∂X=(2X^T )^T=2X
三矩阵乘积的迹函数f(X)=tr(X^T AX)
dtr(X^T AX)=tr(d(X^T AX))
=tr(((dX)^T AX)+X^T AdX)
=tr((dX)^T AX)+tr(X^T AdX)
=tr(((dX)^T AX)^T )++tr(X^T AdX)
=tr((AX)^T dX)+tr(X^T AdX)
=tr(X^T (A^T+A)dX)
∇_X f(X)=∂tr(X^T AX)/∂X=(X^T (A^T+A))T=(A+A^T )X
包含逆矩阵的迹函数f(X)=tr(AX^(-1) )
dtr(AX^(-1) )=tr(d(AX^(-1) ))
=tr(Ad(X^(-1) ))
=-tr(AX^(-1) d(X) X^(-1) )
=-tr(X^(-1) AX^(-1) d(X))
∇_X f(X)=∂tr(AX^(-1) )/∂X=(X^(-1) AX^(-1) )^T
四矩阵乘积的迹函数f(X)=tr(XAXB)
dtr(XAXB)=tr(d(XAXB))
=tr(d(X)AXB+XAd(X)B)
=tr((AXB+BXA)d(X))
∇_X f(X)=∂tr(XAXB)/∂X=(AXB+BXA)^T
总结
标量函数总可以写为迹函数的形式：
f(X)=tr(f(X))
无论dX出现在迹函数内的任何位置，总可以通过迹的交换律将其写到最右边：
tr[A(dX)B]=tr[BAdX]
对于(dX)^T，总可以通过迹函数的性质转换为dX：
tr[A(dX)^T B]=tr[A^T B^T dX]
概率论
概率
概率的概念
概率是对事件发生的可能性的度量。通常将事件A的概率写作P(A)。
概率的计算
事件概率
A P(A)∈[0,1]
非A P(A ̅ )=1-P(A)
A和B
（联合概率） P(A∩B)=P(A│B)P(B)=P(B│A)P(A)
当A、B相互独立时：P(A∩B)=P(A)P(B)
A或B P(A∪B)=P(A)+P(B)-P(A∩B)
当A、B互斥时：P(A∪B)=P(A)+P(B)
B的情况下A的概率
（条件概率） P(A│B)=P(A∩B)/P(B) =(P(B│A)P(A))/P(B)
例如：现有一个装有10个球的袋子，其中有6个红球和4个蓝球。从中随机抽取两个球。我们定义以下事件：
事件A：第一个抽到的是红球。
事件B：两个抽到的球都是红球。
计算联合概率P(A∩B)
第一个球是红球的概率：
P(A)=6/10
在第一个球是红球的情况下，两个球都是红球的概率：
P(B|A)=5/9
联合概率：
P(A∩B)=P(B│A)P(A)=5/9×6/10=1/3
计算条件概率P(A|B)
条件概率P(A|B)表示在已知两个球都是红球的情况下，第一个球是红球的概率。
两个球都是红球的概率：
P(B)=6/10×5/9=1/3
在两个球都是红球的情况下，第一个球是红球的概率：
P(A│B)=P(A∩B)/(P(B))=(1/3)/(1/3)=1
概率分布
概率分布，是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。如果试验结果用变量X的取值来表示，则随机试验的概率分布就是随机变量的概率分布，即随机变量的可能取值及取得对应值的概率。
均匀分布
均匀分布也叫矩形分布，它表示在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）。
均匀分布的概率密度函数可写为：
P(x)=1/(b-a)，a<x<b
P(x)=0, else
伯努利分布
伯努利分布（Bernoulli Distribution）又称两点分布或0-1分布，是一个离散概率分布，适用于只有两种可能结果的随机试验。
伯努利分布描述了一个随机变量x，它只有两个可能的取值：
x=1，发生概率为p。
x=0，发生概率为1-p。
伯努利分布的概率密度函数可写为：
P(x)=p^x (1-p)^(1-x)
二项分布
二项分布（Binomial Distribution）是一种离散概率分布，它描述了在固定次数的独立伯努利试验（每次试验只有成功和失败两种结果）中，成功次数的概率。二项分布可以看作是伯努利分布的扩展，从单次试验推广到多次试验。
对于随机变量X，有概率密度函数：
P(X=k)=(■(n@k)) p^k (1-p)^(1-k) (k=0,1,…,n)
n为试验的总次数
k为成功的次数
p为单次试验成功的概率
(■(n@k))=n!/k!(n-k)!表示从𝑛次试验中选择𝑘次成功的组合数
二项分布概率密度函数图：

正态分布
正态分布（Normal Distribution）也称高斯分布，是常见的连续概率分布。正态分布在统计学上十分重要，经常用在自然和社会科学来代表一个不明的随机变量。
若随机变量X服从一个平均数为μ、标准差为σ（σ=√(1/n ∑_(i=1)^n▒(x_i-μ)2 )）的正态分布，则记为X~N(μ,σ^2)，其概率密度函数
f(x)=1/(σ√2π) e^{(-〖(x-μ)〗}2/(2σ^2 ))
正态分布的期望μ可解释为位置参数，决定了分布的位置；其方差σ^2可解释为尺度参数，决定了分布的幅度。
中心极限定理指出，在特定条件下，一个具有有限均值和方差的随机变量的多个样本的平均值本身就是一个随机变量，其分布随着样本数量的增加而收敛于正态分布。因此，许多与独立过程总和有关的物理量，例如测量误差，通常可被近似为正态分布。
正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是位置参数μ=0，尺度参数σ^2=1的正态分布。
正态分布概率密度函数图：

在numpy中，提供了各种随机函数，可以用来生成服从特定分布的数据。
贝叶斯定理
贝叶斯定理（Bayes’ Theorem）是概率论中的一个核心定理，用于描述在已有条件概率信息的基础上，如何更新或计算事件的概率。它以英国数学家托马斯·贝叶斯的名字命名。贝叶斯定理特别适合处理“逆向概率”问题，即从结果反推原因的概率。
全概率公式
对于复杂事件B，它可能有很多种具体情况，发生概率不容易直接求得。
这些不同的具体情况可以是一组简单事件，记作A1、A2、…、An，发生的概率P(Ai) 已知；如果它们满足两两互不相容、且发生概率之和为1，就称它们是一个完备事件组。
这样，如果知道了在每个简单事件发生的前提下、复杂事件发生的概率（条件概率 P(B| Ai) ），就可以将它们全部合并起来，求出复杂事件的概率了。
P(B)=P(B│A_1 )·P(A_1 )+P(B│A_2 )·P(A_2 )+⋯+P(B│A_n )·P(A_n )
=∑_i^n▒〖P(B│A_i )·P(A_i)〗
这个公式就被称为“全概率公式”。
贝叶斯公式
贝叶斯定理建立在条件概率的基础上，假设有两事件A,B，贝叶斯定理描述了在已知B发生的情况下，A发生的概率：
P(A|B)=(P(B|A)∙P(A))/P(B)
P(A|B)：后验概率，B发生的情况下A发生的概率。
P(B|A)：似然概率，A发生的情况下B发生的概率。
P(A)：先验概率，A发生的概率。
P(B)：B发生的概率，通常通过全概率公式计算。
在实际问题中P(B)通常不是直接给出，而是需要通过全概率公式计算。假设样本空间被一组互斥且完备的事件A_1,A_2,…,A_n划分，则：
P(B)=∑_(i=1)^n▒〖P(B|A_i )∙P(A_i ) 〗
例如：某疾病发病率为1%，如果一个人有疾病，检测呈阳性的概率为95%；如果一个人没有疾病，检测呈阳性的概率为5%，现有一人检测结果呈阳性，问他真正患病的概率是多少？
P(疾病|阳性)=(P(阳性|疾病)∙P(疾病))/P(阳性)
P(阳性)=P(阳性|疾病)∙P(疾病)+P(阳性|无疾病)∙P(无疾病)
=0.95×0.01+0.05×0.99
=0.0095+0.0495
=0.059
P(疾病|阳性)=0.0095/0.059≈0.161
检测呈阳性的人真正患病的概率为16.1%。
似然函数
似然函数的概念
概率用于在已知一些参数的情况下，预测接下来在观测上所得到的结果。而似然性则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值。
似然函数是对参数的函数，其定义为在给定参数值的条件下，观察到某个特定数据的概率。换句话说，似然函数是一个关于参数的函数，而不是关于数据的函数。
如果我们有一个参数化的概率模型P(X|θ)，其中X是观测数据，θ是模型参数，似然函数L(θ|X)定义为：
L(θ|X)=P(X|θ)
这里，P(X│θ) 表示在参数为θ的情况下，观察到数据X的概率。
设有一组独立同分布的观测数据X=(x_1,x_2,…,x_n)，并且这些数据服从某个分布（例如正态分布、二项分布等），比如服从参数为θ的某个分布，那么似然函数可以写作：
L(θ│X)=P(X│θ)=∏_(i=1)^n▒〖P(x_i |θ)〗
针对其中存在的乘法，可以使对数函数将其转化为加法：
log⁡〖L(θ│X)〗=log⁡∏_(i=1)^n▒〖P(x_i |θ)〗=∑_(i=1)^n▒〖logP(x_i |θ)〗
极大似然估计
似然函数常用于极大似然估计。我们希望找到使似然函数最大化的参数θ。这意味着在给定观测数据的情况下，选择最可能生成这些数据的参数值。
例如，掷硬币3次，2次正面1次背面，能否依据此结果逆推出正面的概率；正面概率为0.5的概率为多少、正面概率为0.6的概率为多少；最有可能的正面概率是多少？
我们用θ代表硬币正面朝上的概率，用X代表2次正面1次背面的结果
L(θ│X)=P(X│θ)=C_3^2 θ^2 (1-θ)
当正面概率为0.5时：P(X│θ=0.5)=C_3^2 〖0.5〗^2 (1-0.5)=0.375
当正面概率为0.6时：P(X│θ=0.6)=C_3^2 〖0.6〗^2 (1-0.6)=0.432
为了找出极大似然估计，对似然函数取对数并求导，使其等于0
█(log⁡〖L(θ│X)〗=&log⁡〖C_3^2∙θ2 (1-θ)〗@=&log⁡〖3+2logθ+log(1-θ)〗@(d log⁡〖L(θ│X)〗)/dθ=&2/θ-1/(1-θ)=0)
解得θ=2/3，意味着当掷硬币3次，出现2次正面1次背面的结果时，硬币正面朝上的概率最有可能为2/3。