当前位置：首页 > news >正文

Srinath多元假设检验 (Multiple-hypothesis Testing)（To 廖老师）

news 2025/10/16 5:09:12

Mandyam D. Srinath《Introduction to Statistical Signal Processing with Applications》

多元假设检验

迄今为止我们已研究了在两种假设之间的判决问题。但在许多情况下，源有若干个输出，我们必须判决对应于输出的几个假设中，哪一个是正确的。若源有 $M$ 个输出，则在每次试验时总共有 $M$ 个不同的假设可能出现。对于这种问题，可严格地参照二元假设检验问题的做法，应用贝叶斯准则。因此，假定先验概率 $P(H_0)$ , $P(H_1)$ , …, $P(H_{M-1})$ 已知。若假设 $H_j$ 成立时选择了 $H_i$ ，规定其代价为 $C_{ij}$ 。

平均代价为

$\overline{C} = \sum_{i=0}^{M-1} \sum_{j=0}^{M-1} C_{ij} P(D_i|H_j) P(H_j) \tag{1}$

式中 $P(D_i|H_j)$ 是假设 $H_j$ 为真时选择 $H_i$ 的概率。我们仍将观测空间 $\mathcal{Z}$ 分成互不相交的子空间 $\mathcal{Z}_0$ , $\mathcal{Z}_1$ , …, $\mathcal{Z}_{M-1}$ ，并且对每一子空间的点都赋予一个相应的假设。目的是求出使平均代价 $\overline{C}$ 最小的判决面。我们记

$\mathcal{Z} = \mathcal{Z}_0 + \mathcal{Z}_1 + \cdots + \mathcal{Z}_{M-1} \triangleq \mathcal{Z}_0 \cup \mathcal{Z}_1 \cup \cdots \cup \mathcal{Z}_{M-1}\tag{2}$

利用这些判决域，可把概率 $P(D_i|H_j)$ 写成

$P(D_i|H_j) = \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}z\tag{3}$

把式 (3) 代入式 (1)，得

$\begin{aligned} \overline{C} &= \sum_{i=0}^{M-1} \sum_{j=0}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}z \\ &= \sum_{i=0}^{M-1} C_{ii} P(H_i) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_i) {\rm d}z \\ &+ \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}z \end{aligned}\tag{4}$

考虑到第一个和式的 $\mathcal{Z}_i$ 可以写成 $\bigcup_{\substack{j=0 \\ j \neq i}}^{M-1} \mathcal{Z}_j$ ，又由于

$\int_Z p(\bm{z} \mid H_i) {\rm d}z = 1$

可以把此式写成更简洁的形式

$\begin{aligned} \overline{C} &= \sum_{i=0}^{M-1} C_{ii} P(H_i) \\ &+ \sum_{i=0}^{M-1} \int_{\mathcal{Z}_i} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} P(H_j) (C_{ij} - C_{jj}) p(\bm{z} \mid H_j) {\rm d}z \end{aligned}\tag{5}$

同以前一样，第一项代表固定代价，各个积分代表变化的代价，它随判决域的选择而变化。显然，我们应把各观测值 $z$ 分配给这样的区域，使得在该区域中积分值为最小。因此，若令

$I_i(z) = \sum_{\substack{j=0 \\ j \neq i}}^{M-1} P(H_j)(C_{ij} - C_{jj}) p(\bm{z} \mid H_j) \tag{6}$

则判决规则应是选择使 $I_i(z)$ 为最小的假设为正确的假设。

我们可根据如下定义，利用似然比表示判决规则

$\Lambda_i(z) = \frac{p(\bm{z} \mid H_i)}{p(\bm{z} \mid H_0)}, \quad i=1,\cdots,M-1$

和

$J_i(z) = \frac{I_i(z)}{p(\bm{z} \mid H_0)} = \sum_{\substack{j=0 \\ j \neq i}}^{M-1} P(H_j)(C_{ij}-C_{jj}) \Lambda_j(z)$

判决规则就是选择使 $J_i(z)$ 为最小的假设。可以看出，判决规则对应于由似然比 $\Lambda_1(z), \cdots, \Lambda_{M-1}(z)$ 构成的 $M - 1$ 维空间中的超平面。

我们最关心的是 $\neq j$ 时 $C_{ij}=1$ 而 $C_{ii}=0$ 的情况。这种情况下的准则就是最小错误概率准则。这时式 (6) 化为

$\begin{aligned} I_i(z) &= \sum_{\substack{j=0 \\ j \neq i}}^{M-1} P(H_j)p(\bm{z} \mid H_j) \\ &= \sum_{\substack{j=0 \\ j \neq i}}^{M-1} P(H_j|z)p(z) \\ &= [1-P(H_i|z)]p(z) \end{aligned}\tag{9}$

因此，对于这种特殊的代价分配而言，使 $I_i(z)$ 最小同使 $P(H_i|z)$ 最大是等价的（最大后验概率准则）， $P(H_i|z)$ 是给定观测值 $z$ 时假设 $H_i$ 的后验概率，故最小错误概率处理机也就是最大后验概率计算机。

上面结果最直接的推广就是所有假设为等可能的情况

$P(H_1) = P(H_2) = \cdots = P$

这时可把式 (9) 写成

$I_i(z) = \sum_{\substack{j=0 \\ j \neq i}}^{M-1} p(\bm{z} \mid H_j)P = p(z)-p(\bm{z} \mid H_i)P\tag{10}$
于是判决规则就是选择使 $p(\bm{z} \mid H_i)$ 最大的假设（极大似然准则）。数字通信系统中就有这种例子，该系统中利用 $M$ 个字母作信号，发射每个信号的概率相等。

Comments（To 廖老师）

1 极大似然估计的公式原著和译本都错了

公式 (10)的极大似然估计，原著中错了。
在这里插入图片描述

廖老师改的是对的，Srinath 译书中确实错了。我猜测译者应该是发现原著中错了（说明那个年代译者还纠错，现在的译者只管翻译，懂不懂都很难说，翻译完全不说人话），但是又改错了，去掉中括号就对了，利用全概率公式很容易推导出。
在这里插入图片描述

2 关于准则函数

首先，如果只是比较准则函数，没有必要将 $C_{ii}$ 有关项单独提取出来，用条件风险即可，不必 $I_i(z)$ ；而且作者在判决准则中提到了另一种解释。条件风险这样的解释更有物理意义，且计算直观、简单。

在这里插入图片描述

其次，我认为作者表示 $I_i(z)$ 的目的是为了 $J_i(z)$ （不知道廖老师是否看到这个 $J_i(z)$ ），与似然比建立联系，而不是单单为了 $I_i(z)$ 。但是，我认为表示这样的似然比没有意义，因为多类问题需要比较所有值，两个数的比值没有意义，还增加计算量。

在这里插入图片描述
所以，我想这就是现在的教材使用条件风险作为准则的原因。 $I_i(z)$ 、 $J_i(z)$ 都能作为准则，但是啰嗦。

3 从式 (4)到式 (5)的推导

这里的推导，我认为这样的逻辑更加好理解。
$\begin{aligned} \overline{C} &= \sum_{i=0}^{M-1} \sum_{j=0}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}z \\ &= \sum_{i=0}^{M-1} C_{ii} P(H_i) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_i) {\rm d}z \\ &+ \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}z \end{aligned}\tag{4}$
由于
$\mathcal{Z}_i = \mathcal{Z} - \bigcup_{\substack{j=0 \\ j \neq i}}^{M-1} \mathcal{Z}_j,\int_Z p(\bm{z} \mid H_i) {\rm d}z = 1$
式（4）可写为
$\overline{C}= \sum_{i=0}^{M-1} C_{ii} P(H_i) \left[1- \sum_{\substack{j=0 \\ j \neq i}}^{M-1} \int_{\mathcal{Z}_j} p(\bm{z} \mid H_i) \right]{\rm d}\bm{z}+ \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z}$
展开
$\overline{C}= \sum_{i=0}^{M-1} C_{ii} P(H_i) - \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1}C_{ii} P(H_i) \int_{\mathcal{Z}_j} p(\bm{z} \mid H_i) {\rm d}\bm{z} + \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z}$

交换第二项的求和下标号： $\rightarrow i$ ， $\rightarrow j$ ；
$\overline{C}= \sum_{i=0}^{M-1} C_{ii} P(H_i) - \sum_{j=0}^{M-1} \sum_{\substack{i=0 \\ i \neq j}}^{M-1} C_{jj} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z} + \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z}$

$\sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} a_{ij} = \sum_{j=0}^{M-1} \sum_{\substack{i=0 \\ i \neq j}}^{M-1} a_{ij}$ （ $a_{ij}$ 求和，除去对角项），改变第二项的求和次序。

$\overline{C}= \sum_{i=0}^{M-1} C_{ii} P(H_i) - \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{jj} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z} + \sum_{i=0}^{M-1} \sum_{\substack{j=0 \\ j \neq i}}^{M-1} C_{ij} P(H_j) \int_{\mathcal{Z}_i} p(\bm{z} \mid H_j) {\rm d}\bm{z}$

然后，将后两项合并。

$\overline{C} = \sum_{i=0}^{M-1} C_{ii} P(H_i) + \sum_{i=0}^{M-1} \int_{\mathcal{Z}_i} \left[ \sum_{\substack{j=0 \\ j \neq i}}^{M-1} (C_{ij} - C_{jj}) P(H_j) p(\bm{z} \mid H_j) \right] {\rm d}\bm{z} \tag{5}$

式中第一项为固定代价，而第二项随观测空间 $\mathcal{Z}$ 的划分而变化。

写在后面的话

这是很早的一本书，79年英文版，作者是1935年的，今年90了。82年中译本，那个年代的人比较弱，翻译中有些地方不说人话，好在认真，所以也能懂。

Introduction to statistical signal processing with applications November 1995
Authors:
M. D. Srinath,
P. K. Rajasekaran,
R. Viswanathan
Publisher:
Prentice-Hall, Inc.
Division of Simon and Schuster One Lake Street Upper Saddle River, NJ
United States
ISBN:978-0-13-125295-0
在这里插入图片描述