当前位置：首页 > news >正文

CrowdDiff: 使用扩散模型进行多假设人群密度估计

news 2025/11/14 5:44:06

论文信息

基本信息

标题: CrowdDiff: Multi-hypothesis Crowd Density Estimation using Diffusion Models
中文标题: CrowdDiff: 使用扩散模型进行多假设人群密度估计
作者:
- Yasiru Ranasinghe
- Nithin Gopalakrishnan Nair
- Wele Gedara Chaminda Bandara
- Vishal M Patel
机构: 约翰斯·霍普金斯大学，巴尔的摩，美国
邮箱: {dranasil, ngopala2, wbandarl, vpatel36}@jhu.edu
项目链接: https://dylran.github.io/crowddiff.github.io
论文链接: https://openaccess.thecvf.com/content/CVPR2024/papers/Ranasinghe_CrowdDiff_Multi-hypothesis_Crowd_Density_Estimation_using_Diffusion_Models_CVPR_2024_paper.pdf

核心贡献

首次将扩散模型应用于人群计数，将密度图生成建模为去噪扩散过程
提出使用窄高斯核来简化学习过程并提高密度图生成质量
利用扩散模型的随机性，通过融合多个密度图实现来提高计数性能
引入辅助回归分支在训练期间改善特征学习

摘要

人群计数是人群分析中的一个基本问题，通常通过估计人群密度图并对密度值求和来完成。然而，这种方法存在背景噪声积累和由于使用宽高斯核创建真实密度图而导致的密度损失问题。通过缩小高斯核可以克服这个问题。然而，当使用宽高斯核的真实密度图进行训练时，现有方法表现不佳。为了解决这个限制，我们提出使用条件扩散模型来预测密度图，因为扩散模型在生成过程中对训练数据具有高保真度。为此，我们提出了CrowdDiff，它通过反向扩散过程生成人群密度图。此外，由于扩散过程的中间时间步是嘈杂的，我们在训练期间引入了一个回归分支用于直接人群估计，以改善特征学习。另外，得益于扩散模型的随机性，我们引入了生成多个密度图来提高计数性能，这与现有的人群计数流程不同。我们在公开可用的数据集上进行了大量实验，以验证我们方法的有效性。CrowdDiff在几个人群分析基准上超过了现有的最先进人群计数方法，并有显著改进。CrowdDiff项目可在以下网址找到：https://dylran.github.io/crowddiff.github.io。

1. 引言

人群计数是监控、公共安全和人群控制中的一个基本问题。文献中提出了各种方法，包括直接预测计数[21,51,58]或使用代理任务，如密度估计[13,16,46,47,49,50]、目标检测[30,39]或点定位[9,22,45,56]。

基于密度的方法通过对估计的像素密度值求和进行计数[13]，而基于定位的方法对置信度高于阈值的提案进行计数[45]。因此，与基于定位的方法相比，基于密度的方法更容易将背景噪声引入最终计数。此外，基于密度的方法受到由于人群拥挤程度不同而产生的密度分布变化的影响[3]。这可能导致密度估计的准确性下降。相比之下，最近使用点查询的基于定位的方法没有基于密度的方法[41]中背景噪声积累的问题，因为相邻点提案之间没有干扰。然而，基于定位的方法需要人群密度启发式来设置提案[45]，而基于密度的方法则不需要。因此，如果将点监督的前提转化为基于密度的方法，就有可能避免对人群密度启发式的需求以及传统基于密度方法的缺陷，并且可以使用窄密度核来实现这一点。然而，Xu等人[56]证明了使用窄核与密度回归方法是无效的。

或者，可以使用生成模型来预测给定人群图像的密度图，该模型将学习密度图中值的分布。尽管基于生成对抗网络（GAN）的架构已用于密度图预测[8,40,57]，但这些方法仍然依赖于宽核大小，并忽略了点监督的好处。由于模型学习密度像素值的分布，因此保持密度像素值的样本空间是有利的，而使用宽核只会阻碍这一点。此外，点监督和生成模型的人群密度预测的结合使用尚未被深入研究。而且，上述基于GAN的方法类似于基于回归的方法，仅限于单个人群密度图实现，而放弃了生成模型产生多个密度图实现的随机性，这可能会提高计数性能。

我们提出使用去噪扩散概率模型（扩散模型）[12,36]来生成给定图像的人群密度图。尽管扩散模型已应用于分割[2,10]、超分辨率[18]、目标检测[4]等任务，但据我们所知，尚未有研究将扩散模型用于人群计数或密度图生成。此外，通过窄核，我们最小了相邻密度之间的干扰，这有助于保持密度像素值的边界和分布。这反过来简化了扩散模型的分布学习，并改进了密度预测，如图1所示，其中我们提出的方法即使在密集区域也再现了窄核，而其他两种最近的方法失败了。

此外，为了避免基于密度的人群计数方法可能出现的密度损失，我们通过阈值化像素密度值来计数预测密度图中观察到的斑块数量。因此，我们消除了背景噪声的影响，因为不需要对密度像素值求和。然后，我们引入了人群图融合机制，结合阈值化后构建的多个点图以提高计数性能。这只有生成模型才能实现，因为它们的随机性。另外，受[7]在扩散模型联合学习上的启发，我们在训练期间引入了一个辅助回归分支，该分支基于去噪网络的编码器-解码器特征来估计计数，以改善特征学习。

总之，我们的贡献是：

我们将人群密度图生成制定为一个去噪扩散过程。CrowdDiff是第一个使用扩散模型进行人群计数的研究。
我们提倡使用窄高斯核来简化学习过程，并促进生成更忠实于真实值的高质量密度图。
我们提出了一种机制来整合多个人群密度实现，以利用扩散模型的随机性来提高性能。
我们展示了所提出的方法在公共数据集上超越了最先进的性能。

2. 背景与相关工作

2.1. 人群计数

基于定位的方法通过预测头部的位置来执行计数，通常涉及为每个头部预测一个边界框[20,30,39,60]。文献中也提出了通过点[20]或斑块[28]进行定位。最近，为了消除后处理（如非极大值抑制）的必要性，点定位[22,45]被引入人群计数。

基于密度的方法[3,19,26,27,29,35,55]试图为给定的人群图像生成密度图。然而，基于密度的方法由于宽核而受到背景噪声和密集区域密度损失[31,33,37]的影响。但是，根据[56]，使用窄高斯核生成真实值对于回归网络是无效的。因此，我们将密度图的预测视为一个生成任务。

2.2. 用于人群密度生成的扩散模型

扩散模型[43]基于一个马尔可夫链定义，包括前向过程和反向过程。在前向过程中，逐渐向数据添加噪声；在反向过程中进行去噪。前向过程公式化为：

$q(xt∣xt−1)=N(xt∣1−βtxt−1,βtI),q(\mathbf{x_{t}}|\mathbf{x_{t-1}})=\mathcal{N}(\mathbf{x_{t}}|\sqrt{1-\beta_{t}}\mathbf{x_{t-1}},\beta_{t}\mathbf{I}),$

其中样本数据 $x0\mathbf{x_{0}}$ 根据噪声方差计划 $β1,…,βT\beta_{1},\ldots,\beta_{T}$ 逐渐转换为噪声样本 $xt\mathbf{x_{t}}$ ， ${1,…,T}t\:\in\:\{1,\ldots,T\}$ ，添加高斯噪声。这里， $I\mathbf{I}$ 是单位矩阵。然而， $xt\mathbf{x_{t}}$ 可以使用 $x0\mathbf{x_{0}}$ 和一个噪声向量 $ϵ∼N(0,I)\boldsymbol{\epsilon}\sim\mathcal{N}(\mathbf{0},\mathbf{I})$ 计算，通过前向变换：

$xt=αtˉx0+(1−αtˉ)ϵ,\mathbf{x_{t}}=\sqrt{\bar{\alpha_{t}}}\mathbf{x_{0}}+\sqrt{(1-\bar{\alpha_{t}})\epsilon},$

$αtˉ:=∏τ=1tατ=∏τ=1t(1−βτ)\begin{array}{r}{\bar{\alpha_{t}}:=\prod_{\tau=1}^{t}\alpha_{\tau}=\prod_{\tau=1}^{t}(1-\beta_{\tau})}\end{array}$

在这项工作中，我们的目标是通过扩散模型执行人群密度图生成。因此，我们的数据样本将是人群密度图 $x0∈RH×W\mathbf{x_{0}}\in\mathbb{R}^{H\times W}$ ，其中H和W是高度和宽度维度。然而，我们不是训练神经网络从 $xt\mathbf{x_{t}}$ 预测 $x0\mathbf{x_{0}}$ 对于不同的时间步，而是预测在 $xt\mathbf{x_{t}}$ 中的噪声量（ε），条件于人群图像（y），并应用反向扩散过程最终获得 $x0\mathbf{x_{0}}$ 。

为此，为了训练去噪扩散网络，我们使用[36]中提出的混合损失函数 $(Lhybrid)(\mathcal{L}_{h y b r i d})$ 。为了在低信噪比阶段促进学习粗糙特征，我们采用[6]中定义的加权方案：

$KaTeX parse error: Undefined control sequence: \SNR at position 150: …a}},\mathrm{其中~\̲S̲N̲R̲}\left(t\right)…$

其中 $k$ 和 $γ\gamma$ 是超参数。因此，去噪网络优化的最终损失如下：

$Lhybrid=Ex0,y,ϵ⌊λt∥ϵ^(x0,y,t)−ϵ∥22⌋+λvlb Lvlb,\mathcal{L}_{h y b r i d}=\mathbf{E_{x_{0},y,\epsilon}}\left\lfloor\lambda_{t}\|\hat{\mathbf{\epsilon}}_{(\mathbf{x_{0}},\mathbf{y},t)}-\mathbf{\epsilon}\|_{2}^{2}\right\rfloor+\lambda_{v l b}\:\mathcal{L}_{v l b},$

其中 $Lvlb\mathcal{L}_{v l b}$ 是[36]中定义的原始变分下界， $λvlb\lambda_{v l b}$ 是其权重因子。

图1. (a)密集人群的预测密度结果，(b)我们的方法，(c) Chfl [41]，和(d) SUA [34]。放大裁剪区域的计数在括号中给出。

3. CrowdDiff

在本节中，我们首先回顾选择合适核大小的动机。我们提出了将计数作为辅助任务进行联合学习以提高密度图生成性能。最后，我们介绍了一种结合不同密度图实现以提高人群计数性能的方法。整体人群计数流程如图2所示。

3.1. 窄核

扩散过程需要密度图来学习条件人群密度分布。人群密度图可以通过将点信息与预定义的高斯核卷积获得。为此，选择适当的核大小和方差很重要，因为它控制着人群密度图像素值的分布。

如图3所示，随着核大小和方差的增加，高斯核（值）的分布与结果密度图的分布之间的差异增加，尤其是在拥挤场景中。对于稀疏人群场景可能不是这样，因为密度核之间的干扰最小或没有。然而，这意味着密度像素值分布高度依赖于图像，阻碍了人群密度的学习。这可以通过缩小高斯核的分布来避免，如图3所示。这也有助于去噪网络将像素值保持在预定义的范围内。宽高斯核的概率质量与结果密度图之间的差异是显著的。这可能导致许多像素值被裁剪，导致拥挤场景中的信息丢失。

上述问题可以通过窄核解决。窄核为人群计数提供了另一种途径，而不需要对密度图值求和。如图1所示，可以通过简单计算可观察核的数量来获得人群计数。为此，我们对密度图执行阈值处理并获得每个核的位置。然后，人群计数计算为位置的总数。这提供了避免生成密度图中的背景噪声并通过检测人群密度图中的这些窄核来获得人群计数的方法。与[23]中提出的从人群密度图中检测头部位置的局部最大值检测策略不同，我们的方法不依赖于任何超参数调优进行检测。

3.2. 计数联合学习

直接从图像特征回归人群计数是一项困难的任务[21]，与使用代理任务进行计数相比。为了直接计算人群计数，我们考虑去噪U-Net编码器-解码器的中间特征。对于特定时间步t，将去噪网络的中间特征集合表示为 ${zt1,zt2,…,ztd}\mathcal{Z}_{t}\,=\,\{\mathbf{z}_{t}^{1},\mathbf{z}_{t}^{2},\ldots,\mathbf{z}_{t}^{d}\}$ ，其中 $z∗\mathbf{z}^{*}$ 是解码器相应特征级别的表示向量。由于不同深度级别的中间表示的空间维度不兼容，对每个 $zt∗\mathbf{z}_{t}^{*}$ 执行全局平均池化，然后将它们连接起来构建单个特征向量 $Zt\mathbf{Z}_{t}$ 。然后将其通过回归网络以估计不同噪声水平下的群计数。

然而，对于采样的配对 $(x0,y)(\mathbf{x_{0}},\mathbf{y})$ ，只有密度图 $x0\mathbf{x_{0}}$ 根据噪声计划被扩散添加噪声。因此，中间特征集合 $Zt\mathcal{Z}_{t}$ 中的噪声水平将随时间步变化，并且扩散过程后期阶段的信噪比将低于早期阶段。因此，我们利用第2.2节讨论的加权方案来训练计数回归网络。我们使用 $L1\mathcal{L}_{1}$ 损失如下：

$L1t=λt∥ctˉ−c∥1\mathcal{L}_{\mathtt{1}}^{t}=\lambda_{t}\|\bar{c_{t}}-c\|_{\mathtt{1}}$

来衡量给定时间步t和给定采样配对的预测 $(cˉt)(\bar{c}_{t})$ 与真实值©之间的差异，其中 $λt\lambda_{t}$ 是与公式(1)中使用的相同权重因子。由于去噪模型的训练损失是所有时间步求和的蒙特卡洛近似，训练损失可以写为：

$Lcount=Ex0,v,t[λt∥ctˉ−c∥1].\mathcal{L}_{c o u n t}=\mathbb{E}_{\mathbf{x_{0}},\mathbf{v},t}\left[\lambda_{t}\|\bar{c_{t}}-c\|_{\mathbb{1}}\right].$

整体训练包括对去噪网络和回归分支参数的优化。因此，整体训练目标如下：

$Loverall=Lhubrid+λcountLcount,\mathcal{L}_{o v e r a l l}=\mathcal{L}_{h u b r i d}+\lambda_{c o u n t}\mathcal{L}_{c o u n t},$

其中 $λcount\lambda_{c o u n t}$ 是计数任务的权重。

3.3. 随机人群图融合

扩散模型的随机性可以为同一人群图像生成不同的密度图实现。因此，与传统的群计数方法相比，扩散模型的计数性能可以通过多个实现来提高，这得到了基于扩散模型的其他任务的证据，如分割[10]和检测[4]。然而，与其平均不同实现的个体计数，不如将它们组合起来计算一个改进的计数，因为个体实现可能推断出其他实现中不存在的群密度。

为了组合密度图的不同实现，只有新信息应该转移到复合密度图中。为此，我们首先通过密度阈值计算密度核的位置。一旦找到这些位置，为每个密度图构建一个点图，称为“人群图”。然后，我们考虑来自不同实现的人群图之间的相异性，为了测量这一点，我们考虑结构相似性指数（SSIM）[53]。我们为每个人群图分配一个相似性分数，该分数 measured as the cumulative SSIM with the remaining crowd map realizations for each crowd map. Then, the maps will be arranged in the ascending order of the SSIM before combining. Further, we don’t require the ground truth locations to combine different realizations； they are combined depending on the similarity of the crowd maps.

考虑四个人群图。对于给定的人群图（源图），我们将测量与其余三个人群图的SSIM，并将这三个SSIM的总和分配为源图的相似性得分。如果某个图的相似性得分最高，那么它与其余图最相似，并且可能包含其余图中可用的大部分点位置。因此，可以从此最相似图添加和接收的新点是最少的。相反，具有最低相似性得分的人群图与其余图的差异最大；因此，可以从此图添加/接收的新点是最大的。因此，开始融合过程的最佳人群图是相似性得分最低的人群图。同样，我们按照相似性得分的升序对人群图进行排序以进行组合。

当融合两个人群图时，有必要拒绝重复的点位置。这是基于新点的位置与组合列表中的点进行比较来执行的。我们首先取人群图和该实现中的头部位置作为参考。接下来，我们为每个头部位置定义一个拒绝半径：

$rn=β∑i=1k~rni2k~r_{n}=\beta\frac{\sum_{i=1}^{\tilde{k}}r_{n i}}{2\tilde{k}}$

通过考虑固定范围内的k个最近邻。这里β是一个缩放因子，k是范围内的总最近邻数。接下来，我们移除下一个群点图中落在参考图中拒绝半径内的头部位置，如图4所示，其余位置被添加到参考图中。重复此过程直到所有实现都被处理完毕。

图2. 整体人群计数流程。人群密度图是从人群图像的去噪扩散过程生成的。接下来，对结果的人群密度实现执行阈值处理以创建人群图。然后将人群图融合成单个人群图。计数分支在训练期间使用去噪U-Net的编码器-解码器特征并行训练，并在推理期间丢弃。

图3. 高斯核（红色茎）和结果密度图（蓝色茎）的像素值变化，针对一个具有3,547人群计数的人群图像。核大小和方差从左到右增加。

图4. 人群图融合标准。拒绝半径是从邻居半径内的邻居（黑色）计算的。落在拒绝半径内的新点（彩色）被移除（红色），其余（绿色）被合并到复合图中。

4. 实验细节

CrowdDiff流程。在训练期间，我们使用第3.1节中描述的窄核创建真实密度图。接下来，我们随机采样一个时间步t。然后，我们根据t处的方差采样高斯噪声并将其添加到真实图中，得到噪声图(xt)。然后，我们将图像和xt输入去噪U-Net（网络）并预测添加到真实图中的噪声。因此，基于人群图像，网络被训练来预测 $xt\mathbf{x_{t}}$ 中的噪声。在推理期间，我们在时间T从 $N(0\mathcal{N}\left(\mathbf{0}\right.$ ,I)采样高斯噪声，用作初始噪声密度图XT。然后，网络将估计XT中存在的噪声，并通过去除该噪声，我们在时间 $T - 1$ 产生噪声密度图 $(xT−1)(\mathbf{x_{T-1}})$ 。同样，我们将重复这个过程，其中在时间t的噪声密度图 $xt\mathbf{x_{t}}$ 被用于估计在时间 $t - 1$ 的噪声密度图 $xt−1\mathbf{x_{t-1}}$ ，直到我们为图像生成密度图(xo)。除此之外，计数分支的输出在推理期间被丢弃。

扩散过程在推理时使用1,000个时间步和DDIM采样[44]。我们使用线性噪声计划，噪声方差范围从 $0.021\times10^{-3}\:\mathrm{到}\:0.02$ 。

超参数值 $λcount\lambda_{c o u n t}$ 设置为 $5×10−35\times10^{-3}$ 以匹配 $L_{h u b r i d}$ 的值范围。计算基于SNR的权重因子时，无和k值分别设置为0.5和1。我们采用原始缩放因子 $λvlb1\times^{\bar{\ }}10^{-\bar{3}}\ \mathrm{为}\ \lambda_{v l b}$ ，遵循[36]。对于人群图融合，我们将B设置为0.85，最大最近邻数为4。邻居搜索的半径限制为图像尺寸最小值的0.05。

去噪网络的训练使用ImageNet预训练权重进行初始化，用于超分辨率[38]任务，除了输入和输出层。网络针对 $256256\,\times\,256$ 图像训练 $105\mathrm{为}\ 2\ {\times}\ 10^{5}$ 次迭代，批次大小为。我们使用AdamW优化器，固定学习率 $1×10−41\times10^{-4}$ 和线性预热计划 $5×1035\times10^{3}$ 训练步数，遵循[54]。

在六个公共数据集上执行评估：JHU-Crowd++[42]、ShanghaiTech A[59]、ShanghaiTech B[59]、UCF-CC-50[14]、UCF-QNRF[15]和NWPU-Crowd[52]。我们使用MAE和MSE作为性能指标。

5. 结果

5.1. 人群计数性能

人群计数的定量结果在表1中给出，用于所提出的方法与其他现有方法。所提出的方法在公共人群计数数据集上实现了最先进的人群计数结果，两个因素可以解释这一改进。首先，提出的使用窄核通过减轻密集区域中密度值的损失来改进了计数结果，与传统的基于密度的方法相比。其次，我们通过用阈值处理 followed by summation 代替密度求和，消除了背景噪声对人群计数的影响，这种影响随图像尺寸缩放。在JHU-Crowd++、UCF-QNRF和NWPU-Crowd数据集上的性能解释了CrowdDiff的上述效果，因为这些数据集包含密集人群场景和大图像尺寸。这得益于扩散模型能够生成与真实图更相似的准确密度图的能力。在表2中，我们提供了NWPU-Crowd数据集测试集上的性能。除了整体MAE，CrowdDiff在负样本或稀疏人群中的性能也最好，类似于检测或基于定位的方法。这是由于密度阈值处理因为能够产生没有交叉的窄核。

密度图生成与扩散模型以及人群图生成与所提出流程的定性结果在图5中呈现。如图1所示，所提出的方法和窄核可以准确地在密集区域执行计数。相比之下，其他两种方法遭受了密度损失。此外，我们提出的流程准确识别了头部位置，这对于现有的基于密度的方法和没有数据启发式的基于定位的方法是不可能的。

5.2. 消融研究

扩散模型被认为比基于GAN的方法对训练数据具有更高的保真度。从图6中，我们可以看到扩散模型生成了高质量的密度图，具有更准确的群计数，而基于GAN的方法ASCSP [40]失败了。此外，如果无法在预测的密度图中产生窄核，基于GAN的方法必须使用密度求和作为计数操作，这重新引入了噪声积累和密度损失。这突出了使用扩散模型进行人群密度图生成并以检测作为计数操作的重要性。

随机人群图生成是基于扩散的生成模型的一个关键优势。在图7中，我们为每个人群图像提供了两个实现的定性结果。从图7中，我们可以看到不同的实现包含其他实现中不存在的信息。此外，值得注意的是，使用窄核有助于产生可以包含在最终预测中的新知识。否则，如果使用较大的核，不同实现捕获的新信息将通过平均密度图而被稀释。尽管这是一个生成模型，所提出的方法在某些情况下完美地重新分配了密度，并且在某些情况下，实现之间的位置有轻微偏移。这提出了对所提出的人群图融合方法的需求，因为简单地组合这些偏移点会导致重复计数并恶化性能。

计数分支被添加以提高人群密度图的计数性能。我们在表3中展示了有和没有回归网络时个体实现的计数结果。我们考虑来自不同实现的平均错误性能，以在将它们组合成单个人群图之前识别计数分支的特征效果。添加计数分支改进了平均计数结果，并且计数结果的变化减少了。计数分支还促进了具有噪声特征的中间时间步的特征学习。

此外，我们考虑了计数分支的性能，即使它不用于预测CrowdDiff的最终计数。计数分支的错误指标在表4中提供，与最先进的弱监督人群计数方法[17,21]一起。计数分支可以被视为一个子网络，它被去噪网络的特征弱监督，在这方面，CrowdDiff的计数分支优于现有的SOTA弱监督方法。

人群图融合利用了扩散过程产生的人群密度图的随机性，并且我们采用系统的方法来融合这些图。在表5中，我们展示了三种不同方法的错误指标：随机、降序-SSIM和升序-SSIM。在随机方法中，我们按照它们产生的顺序组合图。在降序-SSIM方法中，我们按照相似性降序组合图。在升序-SSIM方法中，我们按照如上所述的相似性升序组合图。随机生成和所提出的融合方法的迭代改进如图8所示。从表5中，计数性能通过升序方法得到了改进，其中更多局部不相似的实现首先被组合。这一观察通过降序-SSIM方法与升序-SSIM和随机方法相比性能下降得到验证。

此外，多个实现的融合容易引入误报。因此，我们考虑了在融合UCF-QNRF的不同实现后的定位和计数性能。我们为此消融研究生成了四个额外的实现，相应的结果在表6中提供，以及各自的推理时间。从表6中，我们看到定位和计数性能随着多个实现而提高，证明了使用生成模型和融合来自多个实现的信息的优势。然而，更多的实现增加了推理时间，并且从四个实现到八个实现的性能增益是微不足道的，而推理时间翻了一番。因此，我们选择产生四个实现作为考虑性能和推理时间权衡的最佳设置。

密度阈值被用作密度求和的替代计数操作。两种方法之间的性能比较在表8中列出，用于每个数据集的最佳实现。从表8中，我们看到密度求和产生比阈值处理更差的计数结果，尽管两种方法使用相同的密度图。这是因为求和操作中的背景噪声积累和阈值处理方法显示出更好的噪声免疫力。

用于生成真实密度图Xo的密度核的核大小影响CrowdDiff的生成能力和性能。我们在表7中列出了不同核大小的性能。我们观察到在1x1和3x3核处有类似的性能，并且对于更大的核大小，性能显著下降。这是因为核大小影响密度图的像素值分布，并且相邻核之间的干扰在局部最大值处引入真阳性。

拒绝半径（β）和最近邻（k）影响多个实现融合的性能。不同β和k值的结果在表9中列出。拒绝标准在β值从0.80到0.85附近是稳定的。因为低β值容易包括误报或重复，而高β值也可能拒绝真阳性。然而，不同k值的性能差异不显著，并选择了性能最佳的设置。

基于扩散的模型的推理过程是迭代的，因此需要更长的推理时间。然而，由于我们对密度图进行阈值处理以计算核的数量而不是对像素密度值求和，所提出的方法对背景中的残余噪声具有鲁棒性。除了上述例外，我们使用DDIM采样将推理过程改进20倍，而不是使用原始扩散步数而没有显著的性能下降。

更多结果和细节可以在补充材料中找到。

图5. 所提出方法与真实值的定性结果。预测是在组合多个实现后产生的。

表1. 在公共人群分析基准上与最先进方法的比较：JHU-Crowd++、ShanghaiTech、UCF和NWPU-Crowd。最佳结果以红色显示，次佳结果以蓝色显示。

方法	出处	JHU-Crowd++		ShanghaiTech A		ShanghaiTech B		UCF-CC-50		UCF-QNRF		NWPU-Crowd
方法	出处	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓
TopoCount [1]	AAAI'21	60.9	267.4	61.2	104.6	7.8	13.7	184.1	258.3	89.0	159.0	107.8	438.5
SUA[34]	ICCV'21	80.7	290.8	68.5	121.9	14.1	20.6			130.3	226.3	111.7	443.2
ChfL [41]	CVPR'22	57.0	235.7	57.5	94.3	6.9	11.0			80.3	137.6	76.8	343.0
MAN[24]	CVPR'22	53.4	209.9	56.8	90.3					77.3	131.5	76.5	323.0
GauNet [5]	CVPR'22	58.2	245.1	54.8	89.1	6.2	9.9	186.3	256.5	81.6	153.7
CLTR[22]	ECCV'22	59.5	240.6	56.9	95.2	6.5	10.6			85.8	141.3	74.3	333.8
CrwodHat [54]	CVPR'23	52.3	211.8	51.2	81.9	5.7	9.4			75.1	126.7	68.7	296.9
STEERER[11]	ICCV'23	54.3	238.3	54.5	86.9	5.8	8.5			74.3	128.3	63.7	309.8
PET[25]	ICCV'23	58.5	238.0	49.3	78.8	6.2	9.7			79.5	144.3	74.4	328.5
CrowdDiff		47.3	198.9	47.4	75.0	5.7	8.2	160.8	225.0	68.9	125.6	57.8	221.2

表2. 在NWPU-Crowd测试数据集上与最先进方法的比较，包括不同场景约束和光照条件下的性能。最佳结果以红色显示，次佳结果以蓝色显示。

方法	出处	整体			场景级别(MAE↓)						光照(MAE↓)
方法	出处	MAE↓	MSE↓	NAE↓	$\operatorname{Avg.}$	S0	S1	S2	S3	S4	$\operatorname{Avg.}$	LO	L1	L2
BL [32]	ICCV'19	105.4	454.2	0.203	750.5	66.5	8.7	41.2	249.9	3386.4	154.7	293.4	102.7	68.0
DM-Count[50]	NeurIPS'20	88.4	388.6	0.169	498.0	146.7	7.6	31.2	228.7	2075.8	117.6	203.6	88.1	61.2
UOT[33]	AAAI'21	87.8	387.5	0.185	566.5	80.7	7.9	36.3	212.0	2495.4	127.2	240.3	86.4	54.9
P2PNet[45]	ICCV'21	72.6	331.6	0.192	510.0	34.7	11.3	31.5	161.0	2311.6	107.8	203.8	69.6	50.1
MAN [24]	CVPR'22	76.5	323.0	0.170	464.6	43.3	8.5	35.3	190.9	2044.9	102.2	180.1	77.1	49.4
Chfl [41]	CVPR'22	76.8	343.0	0.171	470.1	56.7	8.4	32.1	195.1	2058.0	113.9	217.7	74.5	49.6
CLTR[22]	ECCV'22	74.4	333.8	0.165	532.4	4.2	7.3	30.3	185.5	2434.8	106.0	197.1	73.5	47.3
STEERER[11]	ICCV'23	63.7	309.8	0.133	410.6	48.2	6.0	25.8	158.3	1814.5	87.2	155.7	63.3	42.5
CrowdHat[11]	CVPR'23	68.7	296.9	0.182	371.7	5.3	6.9	37.8	183.3	1625.3	108.8	220.4	66.3	39.6
CrowdDiff		57.8	221.2	0.120	305.3	4.1	4.9	28.8	166.2	1322.4	79.7	131.8	53.1	54.3

图6. 在不同人群场景下，扩散模型与基于GAN的方法（ACSCP）[40]在窄核下的生成质量和人群性能比较。

表3. 有（下半部分）和没有（上半部分）计数解码器时个体实现的错误指标。

方法	JHU-Crowd++		ShanghaiTechB		UCF-QNRF
方法	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓
最佳	50.24	206.82	5.90	8.40	75.87	136.85
平均	52.29	212.22	5.97	8.50	78.35	140.87
方差	1.5854	4.1764	0.0926	0.1278	2.3092	3.7404
最佳	48.24	201.54	5.82	8.30	72.17	130.86
平均	48.56	202.38	5.85	8.33	73.08	132.33
方差	0.2546	0.6708	0.0209	0.0289	0.64	1.0366

表4. 计数分支与其他弱监督计数方法的性能比较。

方法	JHU-Crowd++		ShanghaiTech B		UCF-QNRF
方法	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓
计数	53.1	223.5	7.7	12.0	76.6	135.3
TransCrowd[21]	56.8	193.6	9.3	16.1	97.2	168.5
MATT[17]	71.5	210.4	11.7	17.5	122.3	183.2

表5. 人群图融合方法的比较。

方法	JHU-Crowd++		ShanghaiTech B		UCF-QNRF
方法	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓
随机	47.77	200.3	5.78	8.23	71.04	129.03
升序-SSIM	47.26	198.97	5.74	8.18	68.95	125.65
降序-SSIM	48.10	201.18	5.81	8.27	71.73	130.15

表6. 不同实现数量下的计数和定位结果。

#	时间 (ms)	计数		定位
		MAE↓	MSE↓	P (%)↑	R(%)↑	F(%)↑
1	210	74.59	134.78	68.45	67.34	67.89
2	430	71.94	130.49	77.24	75.94	76.58
4	770	68.95	125.65	82.18	80.79	81.48
8	1360	66.97	122.44	83.06	81.67	82.36

表7. 不同核大小的性能比较。

核大小	方差	MAE↓	MSE↓	P(%)↑	R(%)↑	F(%)↑
1×1	-	69.21	126.07	81.70	80.32	81.00
3×3	0.5	68.95	125.65	82.18	80.79	81.48
5×5	1	81.87	146.58	57.43	56.52	56.97
9×9	2	94.68	167.32	34.12	33.65	33.88

表8. 人群计数操作和噪声影响的比较。

方法	JHU-Crowd++		ShanghaiTech A		UCF-CC-50
方法	MAE↓	MSE↓	MAE↓	MSE↓	MAE↓	MSE↓
密度阈值处理	48.24	201.54	47.81	75.91	163.56	228.32
密度估计	215.40	515.63	156.96	243.70	180.58	254.91
噪声残差	200.94	502.31	186.04	294.44	70.68	99.38

表9. 不同拒绝半径（β）和最近邻（k）值的消融。

指标	拒绝半径 (β) k=4			最近邻 (k) $\beta=0.85$
指标	0.75	0.80	0.85	0.90	3	4	5
MAE↓	72.2	69.71	68.95	72.03	69.41	68.95	69.07
MSE↓	130.91	126.88	125.65	130.64	126.39	125.65	125.84
P(%)↑	79.58	81.67	82.18	81.64	81.83	82.18	82.01
R(%)↑	78.68	79.94	80.79	79.36	80.40	80.79	80.55
F(%)↑	79.13	80.80	81.48	80.48	81.11	81.48	81.27

图7. 两个实现的随机人群图生成的定性结果。绿框包括在不同实现中创建的新点，蓝框包括在两个实现中存在但略有偏移的点，粉框包括完美重新分配的点。（最好在最高缩放级别下查看）

图8. 人群密度图融合方法的定性结果。绿点表示合并到最终预测中的点，红点表示从每个实现中移除的点。

9 结论

我们提出了一个新颖的人群计数框架，其中密度图生成被视为一个去噪扩散过程。新框架允许使用极窄的密度核，从而可以更鲁棒地抑制人群密度图中的噪声。因此，我们在人群密度图上执行密度核检测，这比密度求和提供了更好的噪声免疫力。此外，由于生成模型的随机性，所提出的方法可以通过多个实现迭代地改进计数性能，这与其他人群计数框架不同。此外，与现有的基于密度的方法不同，我们提出的方法在头部位置分配密度核，而不需要基于定位的方法所需的数据启发式。

查看全文

http://www.dtcms.com/a/604848.html