当前位置: 首页 > news >正文

最优估计准则与方法(4)最小二乘估计(LS)_学习笔记

前言

最小二乘估计(Least Squres Estimation,LSE) 是非常重要的参数(静态)估计方法,是典型的批量处理(Batch Processing) 方法。自1795年诞生于伟大数学家高斯(Gauss)以来,至今200多年来广泛应用于回归分析、曲线拟合和数据建模等领域,一直作为各行业工程界的主要技术手段。本文将详细介绍最优估计领域中的最小二乘估计(LS),即线性最小二乘估计(LLS)

背景介绍

Carl Friedrich Gauss and Ceres

图1 Gauss与Ceres

最小二乘法(Least Squares Method) 的首次清晰简洁的阐述是由阿德里安·马里·勒让德(Adrien Marie Legendre)于 1805 年发表的,描述为一种用于将线性方程与数据拟合的代数方法1809 年,卡尔·弗里德里希·高斯(Carl Friedrich Gauss)发表了计算天体轨道的方法,他声称自己早在1795年就掌握了最小二乘法。这自然引发与勒让德的优先权之争,但高斯成功超越了前者。通过将最小二乘法与概率原理及正态分布联系起来,提出最小二乘估计,在此过程中发明了正态分布[1]。高斯方法的强大之处在早期的运用中就已有所体现,当时它被用于预测新发现的小行星(矮行星)“凯瑞斯(Ceres)”的未来位置。1801 年 1 月 1 日,意大利天文学家朱塞佩·皮亚齐(Giuseppe Piazzi)发现了凯瑞斯,并能够追踪其轨迹 40 天,之后它便在太阳的强光照射下消失不见了。基于这些数据,天文学家们希望在凯瑞斯从太阳后面出来之前确定其位置,而无需解决开普勒关于行星运动的复杂非线性方程。只有由 24 岁的匈牙利天文学家弗朗茨·亚瑟·冯·扎克(Franz Xaver von Zach)运用高斯提供的最小二乘估计法分析得出的预测,才成功地找到了凯瑞斯的位置[1]。
根据模型参数与观测数据的关系,最小二乘法分为 线性最小二乘法(Linear Least Squares)非线性最小二乘法(Nonlinear Least Squares)。最优估计理论中研究的 最小二乘估计(LS)线性最小二乘估计(LLS),包括 古典最小二乘估计(LS)加权最小二乘估计(WLS)递推最小二乘估计(RLS)。关于 非线性最小二乘法(NLLS) 是数值优化理论的研究内容,是工程中解决非线性系统问题的主要方法。

线性参数估计问题描述

XXXnnn维未知参数向量,ZZZkkk维观测向量,表示经过kkk组实验观测得到的观测值向量,其中元素ziz_{i}zi表示第i次观测实验得到的观测值,显然其是1维观测标量,VVVkkk维观测噪声向量,其中元素viv_{i}vi表示第i次观测实验的观测噪声,显然其是1维噪声标量。一般情况下k>nk > nk>n且希望kkknnn大得多。单次观测值为多维的情况将在后续其他Blog中讨论。观测实验依据的自变量为θ\thetaθ,则将观测量ziz_{i}zi表示为关于θ\thetaθ的未知函数f(θ,X)f(\theta,X)f(θ,X)
zi=f(θ,X)=∑j=1n[xjhi,j(θ)]+vi=x1hi,1(θ)+x2hi,2(θ)+⋯+xnhi,n(θ)+vi\begin{align*} z_{i} = f(\theta,X) = \sum_{j=1}^{n} \left [ x_{j}h_{i,j}(\theta) \right ]+ v_{i} = x_{1}h_{i,1}(\theta)+ x_{2}h_{i,2}(\theta) + \cdots + x_{n}h_{i,n}(\theta) + v_{i} \tag{1} \\ \end{align*} zi=f(θ,X)=j=1n[xjhi,j(θ)]+vi=x1hi,1(θ)+x2hi,2(θ)++xnhi,n(θ)+vi(1)
其中
X=[x1x2⋮xn]Z=[z1z2⋮zk]V=[v1v2⋮vk]\begin{align*} X = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} Z = \begin{bmatrix} z_{1} \\ z_{2} \\ \vdots \\ z_{k} \end{bmatrix} V = \begin{bmatrix} v_{1} \\ v_{2} \\ \vdots \\ v_{k} \end{bmatrix} \end{align*} X=x1x2xnZ=z1z2zkV=v1v2vk
式(1)中hi,j(θ)h_{i,j}(\theta)hi,j(θ)表示第iii次观测第jjj个基函数,常用为多项式、三角函数或自然指数函数形式:
hi,j(θ)=θj−1hi,j(θ)=sin(jθ)hi,j(θ)=exp(λjθ)\begin{align*} h_{i,j}(\theta) &= \theta ^{j-1} \\ h_{i,j}(\theta) &= sin(j\theta) \\ h_{i,j}(\theta) &= exp(\lambda_{j} \theta) \\ \end{align*} hi,j(θ)hi,j(θ)hi,j(θ)=θj1=sin(jθ)=exp(λjθ)
其中,λj\lambda_{j}λj为自然数指数参数。
当观测实验进行,上述基函数均可根据θ\thetaθ求得。令hi=[hi,1(θ)hi,2(θ)⋯hi,n(θ)]h_{i} = \begin{bmatrix} h_{i,1}(\theta) & h_{i,2}(\theta) & \cdots & h_{i,n}(\theta) \\ \end{bmatrix}hi=[hi,1(θ)hi,2(θ)hi,n(θ)]且为已知,其为nnn维常向量,将式(1)改写为:
Z=HX+V\begin{align*} Z= HX+ V \tag{2} \\ \end{align*} Z=HX+V(2)
其中,HHH为参数向量XXX到观测向量ZZZk×nk \times nk×n维转移矩阵:
H=[h1h2⋮hk]=[h1,1(θ)h1,2(θ)⋯h1,n(θ)h2,1(θ)h2,2(θ)⋯h2,n(θ)⋮⋮⋱⋮hk,1(θ)hk,2(θ)⋯hk,n(θ)]\begin{align*} H = \begin{bmatrix} h_{1} \\ h_{2} \\ \vdots \\ h_{k} \end{bmatrix} = \begin{bmatrix} h_{1,1}(\theta) & h_{1,2}(\theta) & \cdots & h_{1,n}(\theta) \\ h_{2,1}(\theta) & h_{2,2}(\theta) & \cdots & h_{2,n}(\theta) \\ \vdots & \vdots & \ddots & \vdots\\ h_{k,1}(\theta) & h_{k,2}(\theta) & \cdots & h_{k,n}(\theta) \end{bmatrix} \\ \end{align*} H=h1h2hk=h1,1(θ)h2,1(θ)hk,1(θ)h1,2(θ)h2,2(θ)hk,2(θ)h1,n(θ)h2,n(θ)hk,n(θ)
显然,观测向量ZZZ与被估参数向量XXX存在线性关系,依据最优准则求对XXX的估计值X^\hat{X}X^是一个线性参数估计问题,自然对应线性最小二乘估计(LLS)

这里讨论下超定方程组的矛盾:当k=nk = nk=n时,线性方程组有唯一精确解,但当k>nk > nk>n,线性方程数大于未知被估参数向量的维度,线性方程组变成线性超定方程组,其解不唯一。最小二乘法的思想是需求统计意义上的近似解,使线性超定方程组中各方程能得到近似相等。

古典最小二乘估计(Classical Least Squares Estimation, CLSE)

最小二乘估计(LS)准则 为:使残差平方和达到最小。
代价函数如下:
J=E^TE^=(Z−HX^)T(Z−HX^)=∑i=1ke^i2=∑i=1k(zi−hiX^)2=min\begin{align*} J = \hat{E}^{T}\hat{E}= (Z-H\hat{X})^{T}(Z-H\hat{X}) =\sum_{i=1}^{k} \hat{e}_{i}^{2} = \sum_{i=1}^{k}(z_{i}-h_{i}\hat{X})^{2}=min\tag{3} \\ \end{align*} J=E^TE^=(ZHX^)T(ZHX^)=i=1ke^i2=i=1k(zihiX^)2=min(3)
其中,e^i\hat{e}_{i}e^i为第iii次观测的残差(Residual Error)E^\hat{E}E^kkk维残差向量有:
e^i=zi−hiX^E^=Z−HX^=[e^1e^2⋮e^k]\begin{align*} \hat{e}_{i} &= z_{i}-h_{i}\hat{X} \tag{4} \\ \hat{E} &= Z-H\hat{X} = \begin{bmatrix} \hat{e}_{1} \\ \hat{e}_{2} \\ \vdots \\ \hat{e}_{k} \end{bmatrix} \tag{5} \\ \end{align*} e^iE^=zihiX^=ZHX^=e^1e^2e^k(4)(5)
最小二乘估计(LS)方法
根据式(3)进行对如下代价函数进行最小化:
J=(Z−HX^)T(Z−HX^)\begin{align*} J &= (Z-H\hat{X})^{T}(Z-H\hat{X}) \tag{6} \\ \end{align*} J=(ZHX^)T(ZHX^)(6)
JJJX^\hat{X}X^求偏导,并令其为0,有:
∂J∂X^=0∂J∂(Z−HX^)∂(Z−HX^)∂X^=0−2HT(Z−HX^)=0X^=(HTH)−1HTZ\begin{align*} \frac{\partial J}{\partial \hat{X}} &= 0 \\ \frac{\partial J}{\partial (Z-H\hat{X})}\frac{\partial (Z-H\hat{X})}{\partial \hat{X}} &=0 \\ -2H^{T}(Z-H\hat{X}) &= 0 \\ \hat{X} &= (H^{T}H)^{-1}H^{T}Z \tag{7} \end{align*} X^J(ZHX^)JX^(ZHX^)2HT(ZHX^)X^=0=0=0=(HTH)1HTZ(7)
再由∂2J∂X^2=2HTH>0\frac{\partial^{2} J}{\partial \hat{X}^{2}}=2H^{T}H > 0X^22J=2HTH>0,为X^\hat{X}X^为被估参数向量XXX的最小二乘估计,显然其是观测向量ZZZ的线性估计。
此时,由式(6)代价函数的最小值为:
Jmin=(Z−HX^)T(Z−HX^)=ZT(I−H(HTH)−1HT)T(I−H(HTH)−1HT)Z\begin{align*} J_{min} &= (Z-H\hat{X})^{T}(Z-H\hat{X}) \\ &= Z^{T}(I-H(H^{T}H)^{-1}H^{T})^{T}(I-H(H^{T}H)^{-1}H^{T})Z \tag{8} \\ \end{align*} Jmin=(ZHX^)T(ZHX^)=ZT(IH(HTH)1HT)T(IH(HTH)1HT)Z(8)
最小二乘估计(LS)无偏性
令估计误差为X~\tilde{X}X~,定义为被估参数向量XXX与估计值向量X^\hat{X}X^的偏差,有:
X~=X−X^=(HTH)−1HTHX−(HTH)−1HTZ=(HTH)−1HT(HX−Z)=−(HTH)−1HTV\begin{align*} \tilde{X} &= X - \hat{X} \tag{9} \\ &= (H^{T}H)^{-1}H^{T}HX - (H^{T}H)^{-1}H^{T}Z \\ &= (H^{T}H)^{-1}H^{T}(HX - Z) \\ &= -(H^{T}H)^{-1}H^{T}V \tag{10} \\ \end{align*} X~=XX^=(HTH)1HTHX(HTH)1HTZ=(HTH)1HT(HXZ)=(HTH)1HTV(9)(10)
估计误差X~\tilde{X}X~的数学期望为:
E[X~]=E[X−X^]=E[−(HTH)−1HTV]=−(HTH)−1HTE[V]\begin{align*} E[\tilde{X}] &= E[X - \hat{X}] \tag{11} \\ &= E[-(H^{T}H)^{-1}H^{T}V] \\ &= -(H^{T}H)^{-1}H^{T}E[V] \tag{12} \\ \end{align*} E[X~]=E[XX^]=E[(HTH)1HTV]=(HTH)1HTE[V](11)(12)
由式(12)可知,如果观测噪声VVV为白噪声,即E[V]=0E[V]=0E[V]=0,则最小二乘估计X^\hat{X}X^为无偏线性估计。在该无偏估计情况下,估计误差X^\hat{X}X^的方差矩阵与估计量X^\hat{X}X^的均方误差矩阵相等,即:
Var(X~)=E[(X~−E[X~])(X~−E[X~])T]=E[X~X~T]−(E[X~])2=E[X~X~T]−0=E[X~X~T]MSE(X^)=E[(X−X^)(X−X^)T]=E[X~X~T]\begin{align*} Var(\tilde{X}) &= E[(\tilde{X} - E[\tilde{X}])(\tilde{X} - E[\tilde{X}])^{T}] \tag{13} \\ &= E[\tilde{X}\tilde{X}^{T}] - (E[\tilde{X}])^{2} \\ &= E[\tilde{X}\tilde{X}^{T}] - 0 \\ &= E[\tilde{X}\tilde{X}^{T}] \\ MSE(\hat{X}) &= E[(X-\hat{X})(X-\hat{X})^{T}] \tag{14} \\ &= E[\tilde{X}\tilde{X}^{T}] \\ \end{align*} Var(X~)MSE(X^)=E[(X~E[X~])(X~E[X~])T]=E[X~X~T](E[X~])2=E[X~X~T]0=E[X~X~T]=E[(XX^)(XX^)T]=E[X~X~T](13)(14)
方差矩阵描述估计误差向量偏离其均值的离散程度,而估计量均方误差矩阵描述估计误差平方和均值偏离0的离散程度,二者在无偏估计的情况下等价,说明估计误差越接近0,估计精度越高。
Var(X~)=MSE(X^)=E[X~X~T]=E[(−(HTH)−1HTV)(−(HTH)−1HTV)T]=(HTH)−1HTE[VVT]HT(HTH)−1=(HTH)−1HTRHT(HTH)−1\begin{align*} Var(\tilde{X}) &= MSE(\hat{X}) \tag{15} \\ &= E[\tilde{X}\tilde{X}^{T}] \\ &= E[(-(H^{T}H)^{-1}H^{T}V)(-(H^{T}H)^{-1}H^{T}V)^{T}] \\ &= (H^{T}H)^{-1}H^{T}E[VV^{T}]H^{T}(H^{T}H)^{-1} \\ &= (H^{T}H)^{-1}H^{T}RH^{T}(H^{T}H)^{-1} \tag{16} \\ \end{align*} Var(X~)=MSE(X^)=E[X~X~T]=E[((HTH)1HTV)((HTH)1HTV)T]=(HTH)1HTE[VVT]HT(HTH)1=(HTH)1HTRHT(HTH)1(15)(16)
其中,RRR为观测噪声向量VVV的方差矩阵:
R=[σ120⋯00σ22⋯0⋮⋮⋱⋮00⋯σk2]\begin{align*} R &= \begin{bmatrix} \sigma_{1}^{2} & 0& \cdots& 0\\ 0& \sigma_{2}^{2} & \cdots& 0 \\ \vdots& \vdots& \ddots & \vdots\\ 0& 0& \cdots& \sigma_{k}^{2} \end{bmatrix} \\ \end{align*} R=σ12000σ22000σk2
由式(8)和(16)可知,即使在无偏估计前提下,二者并不相等。因此,最小二乘无偏估计只能保证残差平方和最小,但不能保证估计误差方差最小。

综上,根据最小二乘估计原理,做如下总结:

  1. 求最小二乘估计量X^\hat{X}X^不需要任何观测噪声向量VVV的任何统计信息;
  2. 最小二乘估计的无偏性取决于噪声向量VVV的数学期望,如VVV为白噪声,即为无偏估计;
  3. 无论是否具备无偏性,最小二乘估计只能保证残差平方和最小而不是估计误差方差最小。

参考文献

[1] Least squares
https://en.wikipedia.org/wiki/Least_squares
[2] 《最优估计理论》,周凤歧,2009,高等教育出版社。
[3] 《最优估计理论》,刘胜,张红梅著,2011,科学出版社。

http://www.dtcms.com/a/300271.html

相关文章:

  • 【补题】Codeforces Global Round 15 B. Running for Gold
  • P1019 [NOIP 2000 提高组] 单词接龙
  • 从Python编程到AI大模型:GeoAI大模型驱动的地球科学智能计算——涵盖随机森林、CNN、LSTM、Transformer及科研绘图实战
  • linux mmc驱动精讲-1、引言
  • UNet改进(25):集成可变形注意力的高效图像分割方法
  • python 检测蜂窝网络,实现掉网自动拨号
  • nacos启动报错:Unable to start embedded Tomcat。
  • ChatIm项目文件上传与获取
  • 配置nodejs
  • 面试150 数据流的中位数
  • 6.数组和字符串
  • 从稀疏数据(CSV)创建非常大的 GeoTIFF(和 WMS)
  • 【时时三省】(C语言基础)返回指针值的函数
  • TRIM功能
  • 《代码随想录》刷题记录
  • 速通python加密之MD5加密
  • Datawhale AI 夏令营:让AI理解列车排期表 Notebook(Baseline拆解)
  • JVM常见工具
  • Java 对象秒变 Map:字段自由伸缩的优雅实现
  • KTO:基于行为经济学的大模型对齐新范式——原理、应用与性能突破
  • 2025测绘程序设计国赛实战 | 基于统计滤波算法的点云去噪
  • 使用binutils工具分析目标文件(贰)
  • U514565 连通块中点的数量
  • 缓存一致性:从单核到异构多核的演进之路
  • HarmonyOS中的PX、 VP、 FP 、LPX、Percentage、Resource 详细区别是什么
  • HCIP--MGRE实验
  • CT、IT、ICT 和 DICT区别
  • Windows卷影复制的增量备份
  • 在VS Code中运行Python:基于Anaconda环境或Python官方环境
  • 人大金仓 kingbase 连接数太多, 清理数据库连接数