小目标检测的尺寸极限
1. 小目标检测的权衡关系
- 不考虑目标识别,小目标检测问题的一个直觉是:目标颜色/灰度值和背景差异越大,检测所需的目标尺寸就越小
极限情况下(如全黑背景)1x1的亮点也能检测;
目标颜色/灰度和背景越接近,检测所需的成像尺寸越大(提供足够的轮廓特征)
2. 问题形式化
2.1 量化定义
- 给定图像观测 patch x∈Rw×h×cx\in \mathbb{R}^{w\times h\times c}x∈Rw×h×c(类比bbox区域),目标检测本质是一个二元假设检验
- 假设 H0H_0H0:观测 xxx 只来自背景,记作 x∼P0x\sim P_0x∼P0
- 假设 H1H_1H1:观测 xxx 来自目标+背景,记作 x∼P1x\sim P_1x∼P1
P0P_0P0 可通过在数据集随机裁剪无目标背景patch构造;P1P_1P1 可通过在数据集随机裁剪有目标patch构造
- 目标检测的本质就是 判断 xxx 来自哪个分布,这个 “可区分度” 可用 KL 散度量化 DKL(P1∣∣P0)D_{\text{KL}}(P_1||P_0)DKL(P1∣∣P0)。若 DKL<ϵD_{\text{KL}}<\epsilonDKL<ϵ,则在任何检测器下,误检率和漏检率都接近随机猜测
2.2 展开分析
-
把 patch 拉平成长度 N=w×h×cN=w\times h\times cN=w×h×c 的一维向量 x∈RNx\in\mathbb{R}^Nx∈RN。目标成像过程可以写成
x=G(b+t)+n(1)x = G(b+t)+n \tag{1} x=G(b+t)+n(1) 其中 b∈RNb\in\mathbb{R}^Nb∈RN 是拉平的背景 patch,t∈RNt\in\mathbb{R}^Nt∈RN 是拉平的目标 patch,G∈RN×NG\in\mathbb{R}^{N\times N}G∈RN×N 是线性成像算子,n∈RNn\in\mathbb{R}^Nn∈RN 是过程加性噪声Note:为什么成像模型可以假设为线性的,因为辐射传输 + 成像系统的主要环节基本都是线性算子的组合
- 光学成像的线性性:光学系统在不考虑强非线性效应(散射饱和、非线性材料)时,满足叠加原理,即 “两个独立辐射源的像强度 = 各自像强度的和”
- 电荷/电压形成的线性性:相机传感器(CCD/CMOS/红外探测器)的基本过程:光子 → 电荷 → 电压 → 数字信号,在工作区间内(远未饱和时),入射光能量和输出电压近似线性
- 常见噪声模型可线性化:
- 读出噪声/热噪声:加性高斯
- 光子噪声(Poisson):当信号不极弱时,近似为加性高斯,仍可放进“均值+协方差”的框架
- 量化噪声:可看作均匀分布的加性噪声
- 大气传输:衰减和模糊通常可视为线性算子(乘法/卷积),非线性散射效应在近似条件下也能线性化处理
-
为便于推导,做以下约定和假设:
- 目标 ttt 在成像后引入的确定性增量记为 Δ=Gt∈RN\Delta=Gt\in \mathbb{R}^NΔ=Gt∈RN,这是一个常数向量
- 把背景 GbGbGb 和加性噪声 nnn 合并为一个多维随机向量,有均值 μb\mu_bμb 和协方差 Σ\SigmaΣ,假设它服从高斯分布
- 小目标检测场景中 w,hw,hw,h 是小值,可以假设背景 bbb 在局部的波动服从高斯分布(忽略海杂波、湍流等杂波主导的背景重尾分布情况),高斯分布经过线性变换后还是高斯分布;
- 过程噪音包括传感器噪声、大气扰动等,根据中心极限定理,这些累积的、独立或弱相关的小扰动”在统计上会逼近高斯分布
因此 P0,P1P_0, P_1P0,P1 服从高斯分布,有 P0=N(μb,Σ),P1=N(μb+Δ,Σ)P_0 = \mathcal{N}(\mu_b, \Sigma), \quad P_1 = \mathcal{N}(\mu_b+\Delta, \Sigma)P0=N(μb,Σ),P1=N(μb+Δ,Σ)
-
在上述高斯情形下,参考 多维高斯分布的信息熵和KL散度计算,KL 散度为
DKL(P1∣∣P0)=12[log∣Σ0∣∣Σ1∣−N+tr(Σ0−1Σ1)+(μ0−μ1)⊤Σ0−1(μ0−μ1)](2)D_{\text{KL}}(P_1||P_0) = \frac{1}{2}\left[\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}-N+\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)+\left(\mu_{0}-\mu_{1}\right)^{\top} \Sigma_{0}^{-1}\left(\mu_{0}-\mu_{1}\right)\right] \tag{2} DKL(P1∣∣P0)=21[log∣Σ1∣∣Σ0∣−N+tr(Σ0−1Σ1)+(μ0−μ1)⊤Σ0−1(μ0−μ1)](2)其中 ∣⋅∣|\cdot|∣⋅∣ 表示行列式计算。进一步化简,由于两个高斯分布协方差同为 Σ\SigmaΣ,维度同为 NNN,有- log∣Σ0∣∣Σ1∣=log1=0\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}=\log 1=0log∣Σ1∣∣Σ0∣=log1=0
- tr(Σ0−1Σ1)=tr(I)=N\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)=\operatorname{tr}(I)=Ntr(Σ0−1Σ1)=tr(I)=N
- μ0−μ1=−Δ\mu_{0}-\mu_{1}=-\Deltaμ0−μ1=−Δ
KL 散度可以简化为漂亮的形式
DKL(P1∥P0)=12(−Δ)⊤Σ−1(−Δ)=12Δ⊤Σ−1Δ(3)D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right)=\frac{1}{2}(-\Delta)^{\top} \Sigma^{-1}(-\Delta)=\frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta \tag{3} DKL(P1∥P0)=21(−Δ)⊤Σ−1(−Δ)=21Δ⊤Σ−1Δ(3)得到重要结论:小目标的可检测性由信号向量 Δ\DeltaΔ(目标辐射+成像过程)与背景+噪声协方差 Σ\SigmaΣ 的 “马氏距离” 决定 -
注意本节分析引入了以下关键假设
- 成像模型假是线性的
- 背景在局部的波动服从高斯分布
- 成像过程噪声服从高斯分布
2.3 直观的简化情况
-
设观测图像共有 M=w⋅hM = w \cdot hM=w⋅h 个像素,由目标和背景叠加得到;每个像素的观测光谱是 xij\mathbf{x}_{ij}xij,背景光谱是 bij\mathbf{b}_{ij}bij,光谱差向量 sij=xij−bij\mathbf{s}_{ij}=\mathbf{x}_{ij}-\mathbf{b}_{ij}sij=xij−bij;设观测目标导致的亮度增益因子是 aaa
像素亮度定义为像素光谱向量的模长,即有 ∣∣xij∣∣=∣∣bij+a⋅sij∣∣||\mathbf{x}_{ij}|| = ||\mathbf{b}_{ij}+a·\mathbf{s}_{ij}||∣∣xij∣∣=∣∣bij+a⋅sij∣∣
-
最简单情况下,进一步引入以下假设
- 小目标情况下假设目标均匀,每个像素的 sij\mathbf{s}_{ij}sij 都相同,设为 s\mathbf{s}s
- 像素之间是独立的,噪声方差为 σ2\sigma^2σ2,即背景的协方差矩阵 Σ=σ2I\Sigma = \sigma^2 IΣ=σ2I。
这种情况下,每个像素的信号增量为 Δij=a⋅∥sij∥\Delta_{ij} = a \cdot \|\mathbf{s}_{ij}\|Δij=a⋅∥sij∥,目标区域的总信号增量 Δ\DeltaΔ 是所有 MMM 个像素的信号增量的累加。目标区域的总信号增量表示为
∥Δ∥2=∑i,jΔij2=∑i,j(a⋅∥sij∥)2=a2∑i,j∥sij∥2=a2⋅M⋅∥s∥2(4)\begin{aligned} \|\Delta\|^2 &= \sum_{i,j} \Delta_{ij}^2 = \sum_{i,j} (a \cdot \|\mathbf{s}_{ij}\|)^2 = a^2 \sum_{i,j} \|\mathbf{s}_{ij}\|^2 \\ &= a^2 \cdot M \cdot \|\mathbf{s}\|^2 \end{aligned} \tag{4} ∥Δ∥2=i,j∑Δij2=i,j∑(a⋅∥sij∥)2=a2i,j∑∥sij∥2=a2⋅M⋅∥s∥2(4) -
把 Σ=σ2I\Sigma = \sigma^2 IΣ=σ2I 带入式 (3),由于 Δ⊤IΔ=∥Δ∥2\Delta^{\top} I \Delta = \|\Delta\|^2Δ⊤IΔ=∥Δ∥2 得到
DKL=12⋅∥Δ∥2σ2=12⋅a2⋅M⋅∥s∥2σ2(5)D_{\text{KL}} = \frac{1}{2} \cdot \frac{\|\Delta\|^2}{\sigma^2} = \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2} \tag{5} DKL=21⋅σ2∥Δ∥2=21⋅σ2a2⋅M⋅∥s∥2(5) -
假设目标可检测的分布偏差阈值为 θ\thetaθ,目标可检测需满足
DKL≥θ⇒12⋅a2⋅M⋅∥s∥2σ2≥θ⇒M≥2σ2θa2∥s∥2(6)\begin{aligned} & D_{\text{KL}} \geq \theta \\ \Rightarrow \space & \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2} \geq \theta \\ \Rightarrow \space & M \geq \frac{2 \sigma^2 \theta}{a^2 \|\mathbf{s}\|^2} \end{aligned} \tag{6} ⇒ ⇒ DKL≥θ21⋅σ2a2⋅M⋅∥s∥2≥θM≥a2∥s∥22σ2θ(6) 至此我们成功量化了第一节的直觉,此公式说明最小像素数 MminM_{\min}Mmin 如何受到以下因素的影响:- 目标的亮度放大因子 aaa:目标亮度 aaa 越大,所需的最小像素数 MminM_{\min}Mmin 越小。
- 光谱差异 ∥s∥\|\mathbf{s}\|∥s∥:每个像素的光谱差异 ∥s∥\|\mathbf{s}\|∥s∥ 越大,所需的最小像素数 MminM_{\min}Mmin 越小。
- 噪声方差 σ2\sigma^2σ2:背景噪声的方差 σ2\sigma^2σ2 越大,所需的最小像素数 MminM_{\min}Mmin 越大。
2.4 数值示例
- 设背景噪声标准差 σ=15\sigma=15σ=15,目标亮度增益因子 a=2a=2a=2,目标光谱差向量范数 ∣∣s∣∣=0.3||\mathbf{s}||=0.3∣∣s∣∣=0.3,检测阈值 θ=ln2\theta=\ln 2θ=ln2(1 bit信息)
Mmin=2σ2θa2∥s∥2≈866.43M_{\text{min}} = \frac{2 \sigma^2 \theta}{a^2 \|\mathbf{s}\|^2} \approx 866.43 Mmin=a2∥s∥22σ2θ≈866.43 - 设背景噪声标准差 σ=10\sigma=10σ=10,目标亮度增益因子 a=5a=5a=5,目标光谱差向量范数 ∣∣s∣∣=0.5||\mathbf{s}||=0.5∣∣s∣∣=0.5,检测阈值 θ=ln2\theta=\ln 2θ=ln2(1 bit信息)
Mmin=2σ2θa2∥s∥2≈22.18M_{\text{min}} = \frac{2 \sigma^2 \theta}{a^2 \|\mathbf{s}\|^2} \approx 22.18 Mmin=a2∥s∥22σ2θ≈22.18 - 设背景噪声标准差 σ=5\sigma=5σ=5,目标亮度增益因子 a=10a=10a=10,目标光谱差向量范数 ∣∣s∣∣=1||\mathbf{s}||=1∣∣s∣∣=1,检测阈值 θ=ln2\theta=\ln 2θ=ln2(1 bit信息)
Mmin=2σ2θa2∥s∥2≈0.35M_{\text{min}} = \frac{2 \sigma^2 \theta}{a^2 \|\mathbf{s}\|^2} \approx 0.35 Mmin=a2∥s∥22σ2θ≈0.35