模式识别与机器学习课程笔记(1):数学基础
模式识别与机器学习课程笔记(1):数学基础
- 特征矢量和特征空间
- 随机矢量的描述
-
- 随机矢量的分布函数
- 随机矢量的数字特征
- 随机变量、随机矢量间的统计关系
- 随机矢量的变换
- 正态分布
-
- 正态分布的定义
- 正态分布随机矢量的性质
- 离散随机矢量及其分布
- 信息论
- 矩阵微分法基本知识
-
- 矢量或矩阵对于数量变量的微分
- 二、数量函数对于矢量的微分
- 三、矢量函数对于矢量的微分
特征矢量和特征空间
- 特征量的类型:物理量、次序量、名义量
- 物理量:直接反映特征的实际物理意义。如:长度、重量、速度等。处理前需要离散化。
- 次序量:按某种规则确定的只反映特征的次序关系或等级。如:产品的等级、病症的级或期。已是离散量。
- 名义量:反映样本的状态特征,非数值的。如:男性与女性、事物的状态、种类等。需要数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。
- n维特征矢量: x → = ( x 1 , x 2 , ⋯ , x n ) ′ \overrightarrow { x } = ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } )' x=(x1,x2,⋯,xn)′
- n维特征空间: x → \overrightarrow{x} x的全体构成的n维空间记为 X n X^n Xn或 R n R^n Rn或 Ω \Omega Ω
随机矢量的描述
- 概率的频率观和贝叶斯观
- 频率观:概率是可重复随机事件的频率(的极限值)。
- 贝叶斯观( Bayesian):概率是对不确定性的定量描述。
- 概率论的两条基本规则
加法规则和乘法规则: p ( X ) = ∑ Y p ( X , Y ) p ( X , Y ) = p ( Y ∣ X ) p ( X ) p ( X ) = \sum _ { Y } p ( X , Y ) \\ p ( X , Y ) = p ( Y | X ) p ( X ) p(X)=Y∑p(X,Y)p(X,Y)=p(Y∣X)p(X)
链式法则:
P ( x ( 1 ) , … , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 1 n P ( x ( i ) ∣ x ( 1 ) , … , x ( i − 1 ) ) P(x^{(1)}, \dots, x^{(n)}) = P(x^{(1)}) \prod_{i=1}^{n} P(x^{(i)} \mid x^{(1)}, \dots, x^{(i-1)}) P(x(1),…,x(n))=P(x(1))i=1∏nP(x(i)∣x(1),…,x(i−1))
随机矢量的分布函数
随机矢量: X → = ( X 1 , X 2 , ⋯ , X n ) ′ \overrightarrow { X } = ( X_ { 1 } , X_ { 2 } , \cdots , X_ { n } )' X=(X1,X2,⋯,Xn)′
确定性矢量: x → = ( x 1 , x 2 , ⋯ , x n ) ′ \overrightarrow { x } = ( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } )' x=(x1,x2,⋯,xn)′
随机矢量的联合概率分布函数:
F ( x 1 , x 2 , … , x n ) = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , … , X n ≤ x n ) F ( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } ) = P ( X _ { 1 } \leq x _ { 1 } , X _ { 2 } \leq x _ { 2 } , \ldots , X _ { n } \leq x _ { n } ) F(x1,x2,…,xn)=P(X1≤x1,X2≤x2,…,Xn≤xn)
随机矢量的联合概率分布函数:
p ( x 1 , x 2 , … , x n ) = Δ p ( x → ) = ∂ n F ( x 1 , x 2 , … , x n ) / ∂ x 1 ∂ x 2 … ∂ x n p ( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } ) \stackrel { \Delta } { = } p ( \overrightarrow { x } ) = \partial ^ { n } F ( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } ) / \partial x _ { 1 } \partial x _ { 2 } \ldots \partial x _ { n } p(x1,x2,…,xn)=Δp(x)=∂nF(x1,x2,…,xn)/∂x1∂x2…∂xn
类概率分布和类概率密度函数:
F ( x → ∣ ω i ) = P ( X → ≤ x → ∣ ω i ) p ( x → ∣ ω i ) = ∂ n F ( x 1 , x 2 , ⋯ , x n ∣ ω i ) / ∂ x 1 ∂ x 2 ⋯ ∂ x n F ( \overrightarrow { x } | \omega _ { i } ) = P ( \overrightarrow { X } \leq \overrightarrow{ x } | \omega _ { i } ) \\ p ( \overrightarrow { x } | \omega _ { i } ) = \partial ^ { n } F ( x _ { 1 } , x _ { 2 } ,\cdots, x _ { n } | \omega _ { i } ) / \partial x _ { 1 } \partial x _ { 2 } \cdots \partial x _ { n } F(x∣ωi)=P(X≤x∣ωi)p(x∣ωi)=∂nF(x1,x2,⋯,xn∣ωi)/∂x1∂x2⋯∂xn
随机矢量的数字特征
- 均值矢量: μ → = E [ X → ] = X ‾ → = [ E [ X 1 ] E [ X 1 ] E [ X 2 ] ] = ∫ X n x → p ( x ) d x → \overrightarrow { \mu } = E [ \overrightarrow{X} ] =\overrightarrow{ \overline{ X }} = \begin{bmatrix} E [ X _ { 1 } ] \\ E [ X _ { 1 } ] \\ \\E [ X _ { 2 } ] \end{bmatrix} = \int _ {X^ {n} } \overrightarrow { x } p ( x ) d \overrightarrow { x } μ=E[X]=X= E[X1]E[X1]E[X2] =∫Xnxp(x)dx
- 条件期望:
μ → w i = E [ X → ∣ ω i ] = ∫ x → ∈ ω i x → p ( x → ∣ ω i ) d x → \overrightarrow { \mu } _ { _ {w_ i } } = E \left[ \overrightarrow { X } \mid \omega _ { i } \right] = \int_{\overrightarrow { x } \in \omega _ { i } } \overrightarrow { x } p(\overrightarrow{x} \mid \omega_i) d\overrightarrow{x} μwi=E[X∣ωi]=∫x∈ωixp(x∣ωi)dx - 协方差矩阵
Σ = E [ ( X → − μ → ) ( X → − μ → ) ′ ] = ∫ X n ( x → − μ → ) ( x → − μ → ) ′ p ( x → ) d x → = ( σ i j 2 ) n × n \Sigma = E \left[ ( \overrightarrow { X } - \overrightarrow { \mu } ) ( \overrightarrow { X } - \overrightarrow { \mu } ) ^ { \prime } \right] = \int _ { {X}^n } ( \overrightarrow { x } - \overrightarrow { \mu } ) ( \overrightarrow { x } - \overrightarrow { \mu } ) ^ { \prime } p ( \overrightarrow { x } ) d \overrightarrow { x } = ( \sigma _ { i j }^2 ) _ { n \times n } Σ=E[(X−μ)(X−μ)′]=∫Xn(x−μ)(x−μ)′p(x)dx=(σij2)n×n - 自相关矩阵:自相关矩阵定义为 R = E [ X X T ] R = E[\mathbf{X} \mathbf{X}^T] R=E[XX