当前位置：首页 > news >正文

Mixture of Experts Guided by Gaussian Splatters Matters

news 2025/8/23 18:01:05

Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection

ICCV2025
https://arxiv.org/pdf/2508.06318
https://github.com/snehashismajhi/GS-MoE
在这里插入图片描述

Abstract

视频异常检测（VAD）是一项具有挑战性的任务，这源于异常事件的多样性以及带标签数据的有限性。在弱监督视频异常检测（WSVAD）范式下，训练过程中仅提供视频级别的标签，而预测则需在帧级别进行。尽管最先进的模型在简单异常（如爆炸）检测上表现出色，但在处理复杂的现实世界事件（如入店行窃）时却存在困难。这种困境源于两个关键问题：（1）当前模型无法应对异常类型的多样性，它们使用一个共享模型处理所有类别，忽略了类别特异性特征；（2）弱监督信号缺乏精确的时间信息，限制了捕捉与正常事件混合在一起的细微异常模式的能力。为了应对这些挑战，我们提出了高斯喷涂引导的混合专家模型（GS-MoE），这是一种新颖的框架，它采用一组专家模型，每个专家模型专门用于捕捉特定的异常类型。这些专家模型由时间高斯喷涂损失引导，使模型能够利用时间一致性并增强弱监督。高斯喷涂方法通过聚焦最有可能包含异常事件的时间片段，促进了对异常更精确、更全面的表征。来自这些专门专家模型的预测通过混合专家机制进行整合，以建模不同异常模式之间的复杂关系。我们的方法取得了最先进的性能，在UCF-Crime数据集上的AUC为91.58%，并且在XD-Violence和MSAD数据集上也展示了优异的结果。通过利用类别特异性专业知识和时间引导，GS-MoE为弱监督下的视频异常检测设立了新的基准。

1. Introduction

监控视频中的视频异常检测（VAD）是计算机视觉领域最具挑战性的任务之一。随着深度学习模型能力的不断提升，已经出现了多种解决该任务的方法。近年来，视频异常检测领域的研究重点主要是对视频中的时空依赖关系进行建模，以获取场景中相关主体运动的有意义表征。在这方面，Transformer架构已被证明非常有效，成为多项研究工作的基础。尽管当前最先进的模型在公开可用的数据集上取得了不错的结果，但它们仍然无法捕捉到细微的异常，也难以检测出异常发生的时间窗口。
我们在弱监督视频异常检测（WSVAD）任务的公式化表述中找到了导致这些问题的一个主要原因[37, 42]。多实例学习（MIL）在全监督方法和无监督方法之间取得了平衡：全监督方法性能良好，但需要耗费大量成本进行数据标注；无监督方法不需要人工标注，但性能通常较差。多实例学习的核心思想是创建包含正样本和负样本（即正常视频和异常视频）的“包”，且这些样本仅带有视频级别的标签。在训练过程中，模型会为每个片段分配一个0到1之间的分数，0表示正常片段，1表示异常片段。正常包中得分最高的样本会被引导向0，这使得模型能够正确学习大多数正常场景；另一方面，负样本中得分最高的样本会被推向1。这导致模型仅在少数特定的异常事件实例上受到监督并进行学习，而忽略了相邻片段中包含的有用信息。随着时间的推移，这种方法已被证明是有效的，但不足以训练模型正确捕捉不同异常类别的次要属性和特定属性。在最近的研究[12, 44, 46]中，不同的辅助目标被确定为视频异常检测任务的先验知识，用于优化训练过程。
为解决这一问题，我们提出将视频中的异常建模为高斯分布，在异常视频的估计分数的时间维度上，根据检测到的峰值绘制多个高斯核。这种技术称为时间高斯喷涂（Temporal Gaussian Splatting，TGS），它能构建异常事件随时间变化的更完整表征，在训练目标中纳入异常分数较低的异常片段。图1展示了多实例学习（MIL）任务与TGS任务的对比。高斯核是从模型生成的异常分数中提取的。另一个挑战与异常类别之间的固有差异有关。在MIL范式下，模型被训练以学习正常视频和异常视频之间的差异，而忽略了异常类别之间的特定差异。因此，这些方法主要关注异常的粗粒度表征，这种表征虽能区分正常事件和异常事件，却忽略了细粒度的类别特异性线索。由此导致的结果是，较显著的异常（如爆炸）可能容易被检测到，而细微的异常（如入店行窃）则更可能与正常事件混淆。这是大多数基于弱监督视频异常检测（WSVAD）的最新方法存在的主要局限性。我们通过混合专家（Mixture-of-Expert，MoE）架构解决这一问题，其中每个专家模型都被训练以建模单个异常类别，从而强化每个异常类别中常被忽视的特定属性。为进一步利用异常之间的相关性和差异，一个门控模型在每个专家的预测与更粗粒度的异常特征之间进行协调，以学习异常之间潜在的相互作用。
在这里插入图片描述

图1. 尽管最先进的方法通过视频中最正常和最异常的片段来处理弱监督视频异常检测（WSVAD）任务，但本文提出的方法通过高斯核来学习异常事件更完整的表征。

本文的贡献具有互补性：学习异常类别的特定表征有助于生成更准确的高斯核，而高斯喷涂则使专家模型能够从那些原本可能被忽略的更细微的异常事件中学习。总之，本文的研究内容如下：
• 一种新的弱监督视频异常检测（WSVAD）任务公式化表述，该表述基于从估计的异常分数中提取的高斯核，以生成更具表达力和更完整的异常事件表征。沿着时间维度对核进行喷涂，使模型能够学习片段之间更精确的时间依赖关系，并突出更细微的异常；
• 一种混合专家（MoE）架构，该架构通过专用的类别专家模型关注单个异常类型，使门控模型能够利用这些异常类型之间的相似性和差异性；
• 通过在具有挑战性的UCF-Crime[36]、XD-Violence[41]和MSAD[57]数据集上进行大量实验，衡量了所提出贡献的影响，结果显示与之前的最先进方法相比，性能有显著提升。

2. Related Work

弱监督视频异常检测（WSVAD）：在弱监督视频异常检测任务中，异常事件包含多种类别，每种类别在空间和时间维度上都具有独特的特征。弱监督视频异常检测任务由文献[37]的开创性研究提出。在随后的几年里，出现了多种不同的方法，以解决数据收集的便捷性与经训练的模型所展现的性能之间的权衡问题。文献[54]通过使用图卷积网络纠正噪声标签并监督传统异常分类器，解决了弱标签的局限性。此外，文献[39]提出学习特征幅度函数，以改进正常片段的分类，进而提升异常事件的检测效果。该模型基于注意力模块和金字塔卷积构建而成。文献[23]也探索了提高弱标签质量的思路，其设计了一种基于Transformer的方法，通过训练来预测片段级和视频级的异常分数，然后利用视频级预测结果来提升模型在片段级的性能。最近，文献[49]设计了一种多头分类模型，该模型利用不确定性和完整性来生成并优化自身的伪标签。文献[30]提出了一种两阶段的基于Transformer的模型，该模型先生成感知异常的位置嵌入，再对异常事件的短程和长程关系进行建模。受点监督[2]的启发，文献[50]引入了“一瞥”（Glance）标注。这种标注通过定位异常事件发生的单个帧，对常见的弱标签进行增强。尽管这类标注能使模型取得很好的性能，但需要额外的人工标注步骤。最近，文献[31]提出了一种在异常检测过程中纳入额外数据模态的方法。
在多实例学习（MIL）范式下，这些差异使得模型难以有效区分它们。由于聚焦于视频中最异常的片段，模型被引导关注特定且明显的异常事件，却未能适当地考虑导致这些异常发生的一系列前置动作以及异常发生后的后续动作。事实上，有些异常发生在较短的时间窗口内，而另一些则会在较长时间内逐渐发展；此外，在这两种情况下，多实例学习范式选择的异常片段数量是相同的。
混合专家模型：这种架构由文献[9]提出，此后经过改进，被应用于从图像分类到动作识别等多种任务中[15]。最初的混合专家模型（MoE）设计包含一系列小型专家模型和一个独立的门控网络，它们都接收相同的输入数据。每个专家模型会预测一个输出，而门控网络则为这些输出分配重要性分数。从那以后，这一架构通过各类研究得到了改进。不同领域的一个共同思路是让路由网络选择输入数据的哪些部分或输入标记传递给每个专家模型[10, 19, 32, 35]。文献[33]的最新研究提出，针对每个专家模型，以不同方式对输入标记进行加权。
高斯喷涂（Gaussian Splatting）：近年来受到了广泛关注，在3D场景重建等领域被证明是非常高效的[17, 18]。高斯喷涂的核心思想是将场景中的每个三维点表示为多元正态分布，这样就可以将场景渲染为所有三维区域贡献的总和。此后，高斯喷涂被扩展到多个领域以纳入时间维度，例如动态场景渲染[20, 24]和医学成像[52]。
我们的方法对混合专家模型（MoE）加以利用，为每个专家模型分配特定的异常类别，从而实现细粒度、类别特异性的学习——这是传统设计中常被忽略的一点。门控模型连接类别特异性专家模型与粗粒度特征，在利用异常之间相关性的同时，确保各专家模型得到均衡使用。我们通过时间高斯喷涂（TGS）将高斯喷涂扩展到时间维度，捕捉细微的依赖关系，并将那些不明显、得分较低的片段纳入训练。以时间峰值为锚点，TGS能够减轻噪声影响、增强弱监督信号、保留急剧的过渡变化，在避免过度平滑的同时实现精准的异常检测。

3. Methodology

我们提出的新颖的高斯喷涂引导混合专家（GS-MoE）框架旨在利用弱标记的训练视频准确检测复杂异常。GS-MoE运用了两项关键技术：（I）时间高斯喷涂损失，以确保在弱监督下正常实例与异常实例之间具有更优的可分离性；（II）混合专家（MoE）架构，该架构学习类别特异性表征，并能以高置信度检测复杂异常。

3.1. Temporal Gaussian Splatting (TGS)

在这里插入图片描述

图2. 训练结束时从骨干模型在训练视频上获得的异常分数。多实例学习（MIL）范式中使用的top-k片段导致模型聚焦于视频中存在的三个异常事件中的第一个和最后一个，而忽略了第二个异常。不过，第二个异常虽然得分不如其他两个高，但仍能被检测到。

我们提出的时间高斯喷涂（Temporal Gaussian Splatting，TGS）技术通过利用高斯核，为多实例学习（MIL）优化范式提供了一种新颖的公式化表述。TGS的核心思想是减少对最异常片段的过度依赖，而这种过度依赖正是传统MIL方法常出现的问题。图2展示了这种过度依赖的一个示例。在MIL范式中，损失函数通常使用的是得分最高的k个异常分数：
$topk(S)={score1,score2,...,scorek}(1)top_{k}(S)=\left\{ score _{1}, score _{2}, ..., score _{k}\right\} (1)$
其损失函数为：
$Ltopk=−1N+∑i=1N+1k∑j∈topk(S+)logσ(scoreij)⏟Ltopk−als+−1N−∑i=1N−1k∑j∈topk(S−)log(1−σ(scoreij))⏟Ltopk−norm(2)\begin{aligned} L_{top_{k}}= & -\underbrace{\frac{1}{N^{+}} \sum_{i=1}^{N^{+}} \frac{1}{k} \sum_{j \in top _{k}\left(S^{+}\right)} log \sigma\left(score_{i j}\right)}_{L_{top _{k}- als }}+ \\ & \underbrace{-\frac{1}{N^{-}} \sum_{i=1}^{N^{-}} \frac{1}{k} \sum_{j \in top_{k}\left(S^{-}\right)} log \left(1-\sigma\left( score _{i j}\right)\right)}_{L_{top_{k}- norm }}(2) \end{aligned}$
其中， $\in S^{+}, S^{-}$ 且 $_{1} ≥ score _{2} ≥\cdots ≥ score _{k}$ 。这里， $S^{+}$ 和 $S^{-}$ 分别表示从异常视频和正常视频中得到的分数集合， $score _{i}$ （ $\in\{1, ..., k\}$ ）表示排名第i的片段的分数。类似地， $N^{+}$ 和 $N^{-}$ 分别是异常类和正常类中视频的数量， $σ\sigma$ 是sigmoid函数。
训练结束时，如图2 所示，任务编码器能够检测到视频中包含的三个异常中的两个，为第一个和第三个异常时间窗口内的大多数片段分配了非常高的异常分数。模型对属于第二个异常的片段信心不足，因为在训练过程中，从未针对这些片段进行专门的监督，但模型给它们分配的异常分数仍然高于视频中正常片段的分数。此外，异常之间的片段仍被视为部分异常。我们推测，可以利用这些情况来生成伪标签，使模型能够在更多信息上进行训练，同时不超出弱监督视频异常检测（WSVAD）范式的数据标注范围。借鉴文献[50]，我们提出了一种称为时间高斯喷涂（Temporal Gaussian Splatting，TGS）的技术，该技术利用模型预测的异常分数中的峰值来精确表示异常事件发生的时间窗口。
峰值检测：高斯核是根据模型预测的异常分数在时间轴上的局部最大值（称为“峰值”）提取的。通过对局部最大值进行阈值处理来检测峰值，只选择那些相对于前两个分数和后两个分数超过最小显著度阈值的峰值。每个峰值 $P_{i}$ 的宽度 $W_{i}$ 由 $min(v_{1}, v_{2})$ 确定，其中 $v_{1}$ 是分数单调递增的前序片段数量， $v_{2}$ 是分数单调递减的后序片段数量。
针对特定视频检测到的峰值集合P，包含了该视频中每个峰值所对应的异常分数最高的片段位置。这可能会导致伪峰值的检测，即视频异常分数中出现的那些不属于异常事件的峰值。为了缓解这一问题，可以使用标准多实例学习（MIL）训练目标中的 $L_{topk-norm}$ 组件对模型进行几轮训练。
这使我们能够识别那些通常不包含在公式2所述的top-k片段中的细微异常。从检测到的峰值中获得的核会在异常视频的时长范围内进行渲染，以在时间维度上获得对异常更准确的表征。
然后，对于与视频异常分数中检测到的每个峰值 $P_{i}$ 相对应的片段，高斯核 $G_{i}$ 被初始化为单位值。为了进一步表征异常的持续时间，如果相应峰值宽度 $W_{i}$ 内的片段的异常分数高于峰值分数与以该峰值为中心的正态分布的标准差之间的差值，则这些片段对应的核值也被设为1：
$Gi,t={1,ift=Pi,1,ifst≥sPi−σiΛt∈Wi,∀t∈[1,T]0,otherwiseG_{i, t}= \begin{cases}1, & if t=P_{i}, \\ 1, & if s_{t} \geq s_{P_{i}}-\sigma_{i} \Lambda t \in W_{i}, \forall t \in[1, T] \\ 0, & otherwise \end{cases}$
其中， $s_{t}$ 是分配给片段t的异常分数， $σi\sigma_{i}$ 是以峰值i为中心的正态分布的标准差。这使得可以分别处理每个异常，这对弱监督视频异常检测（WSVAD）任务很有帮助，因为不同的异常在时间维度上具有不同的特征。以这种方式计算高斯核是对top-k公式的改进，使模型能够从整个异常事件中学习，而不仅仅是从其最异常的片段中学习。每个核通过以下方式进行喷涂：
$fi(t)=Gi,t⋅exp(−∥t−Pi∥22σi2),∀t∈[1,T](4)f_{i}(t)=G_{i, t} \cdot exp \left(-\frac{\left\| t-P_{i}\right\| ^{2}}{2 \sigma_{i}^{2}}\right), \forall t \in[1, T] (4)$
其中，T是视频的长度， $σi\sigma_{i}$ 是在宽度 $W_{i}$ 内以 $P_{i}$ 为中心的峰值周围分数的标准差。最后，通过在视频长度上渲染K个提取的核中的每一个来生成伪标签 $y^\hat{y}$ ：
$y^=∥(∑i=1kfi(t))∥(5)\hat{y}=\left\| \left(\sum_{i=1}^{k} f_{i}(t)\right)\right\| \quad(5)$
这种伪标签（时间高斯喷涂）的示例如图3所示。生成的伪标签包含视频中每个片段0到1之间的目标异常分数，使模型能够学习每个异常片段的严重程度。这相对于标准的多实例学习（MIL）训练目标是一项重要改进，在标准MIL中，如公式2所示，只有top-k片段在训练目标中被推向1。相反，用于训练专家模型和混合专家模型（MoE）的时间高斯喷涂（TGS）损失函数公式为：
$LTGS=Ltopk−norm+BCE(y,y^)L_{T G S}=L_{t o p k-n o r m}+B C E(y, \hat{y})$
在这里插入图片描述

图3. 从图2所示的异常分数中提取的高斯核沿着检测到的峰值宽度进行喷涂。这使模型能够学习视频中异常事件更完整的表征。

3.2. Mixture of Experts (MoE)

我们提出的混合专家（Mixture-of-Experts，MoE）架构如图4所示，包含三个阶段。第一阶段是与任务无关及与任务相关的特征提取，第二阶段具备类别特异性专业能力，第三阶段提供一种新颖的门控机制。这种多阶段框架直接应对弱监督和异常多样性带来的挑战，通过丰富的表征和专用模型实现对复杂异常模式的精准检测。
在这里插入图片描述

图4. GS-MoE架构概述：首先，在特征提取阶段，视频编码器从视频中提取片段级特征，任务编码器在异常检测潜在空间中对这些特征进行优化。在第二阶段，每个类别专家模型仅基于属于其分配类别的优化特征以及正常类别的优化特征进行训练。在最后阶段，门控模型收集每个专家模型给出的分数，并将其与任务编码器的优化特征进行比较，从而生成最终的异常分数。

第一阶段：增强型时空特征提取。I3D模型与UR-DMU模型的协同作用构成了特征提取的基础。被广泛使用的I3D模型提供与任务无关的通用特征，能够捕捉基本的视频动态信息。然而，这些特征缺乏检测复杂的空间和时间异常所需的特异性。为解决这一问题，UR-DMU[56]作为一种面向异常检测的任务感知特征提取器发挥作用。UR-DMU最初使用标准的MIL损失[55]进行训练，随后利用我们提出的时间高斯喷涂（TGS）损失（公式7）进行微调，它通过利用时间一致性提取富含信息的特征。这些更丰富的特征筛选出对于区分正常事件和异常事件至关重要的运动动态信息和细粒度时间模式。尽管UR-DMU能够粗略区分正常事件和异常事件，但它无法完全应对不同异常类型的复杂性。
第二阶段：使用专家模型进行类别特异性异常检测。为克服粗略异常检测的局限性，我们的框架纳入了多个专家模型，这些模型通过我们提出的TGS损失（公式7）进行优化，每个模型专门用于识别特定类型的异常。这种设计引入了关键的专业化层级，使框架能够捕捉各个异常类别的独特属性。每个专家模型由一个具有四个自注意力头的Transformer块和一个带有GELU激活函数的MLP[14]组成，后者将提取的特征映射到其对应类别的异常分数。这些专家模型利用丰富的UR-DMU特征，扩展了潜在异常空间的边界。这些细粒度、专业化的专家模型使该模型能够检测到可能与正常事件无缝融合的细微或复杂异常，而这是通用模型无法实现的。
第三阶段：通过门控模型进行协同整合。在该框架的最后阶段，专家模型生成的分数被传递至门控模型，门控模型充当协同整合机制。这一步骤确保能充分利用各专家模型的个体优势，形成一个可实现稳健异常检测的统一表征。门控模型包含三个组件：（a）分数优化：将专家分数进行拼接并投射到更高维的空间中，以丰富类别特异性异常对数的表征。这种投射使门控模型能够有效处理不同异常类别间的复杂差异。（b）双向交叉注意力模块：为弥合细粒度的类别特异性对数与来自任务编码器的粗略异常对数之间的差距，门控模型融入了双向交叉注意力机制。该模块学习专家预测结果与粗略的异常感知特征之间的相关性和对比性，使门控模型既能利用详细的类别特异性见解，又能利用更通用的异常感知特征。（c）最终预测：经过优化和整合的特征先通过一个Transformer块处理，再经由一个四层的MLP（与专家模型的架构类似）处理，从而生成最终的异常分数。这一步骤确保潜在空间表征具有丰富的表达能力，能很好地捕捉各种异常模式。

4. Experiments

数据集：我们在两个广泛使用的弱监督视频异常检测（WSVAD）数据集上进行了实验，即UCF-Crime[36]和XD-Violence[41]。我们还在最新的MSAD数据集[57]上进行了实验。重要的是，所有数据集的训练视频都只标注了视频级标签，没有帧级标注。
评估指标：我们遵循先前研究[28, 36, 41, 43]中确立的评估协议。为确保评估的全面性，我们采用了多种指标，例如帧级平均精度（AP）、用于XD-Violence数据集的异常平均精度（(AP_{A})），以及用于UCF-Crime数据集的曲线下面积（AUC）、异常曲线下面积（(AUC_{A})）。AP和AUC指标反映了方法在正常视频和异常视频上的稳健性。然而，(AP_{A})和(AUC_{A})能够排除所有片段都被标记为正常的正常视频，仅保留同时包含正常片段和异常片段的异常视频。这对模型准确定位异常的能力提出了更有意义的挑战。

4.1. State-of-the-art Comparison

在我们的实验中，所提出的GS-MoE模型在多项指标上均优于现有的最先进（SoTA）方法，如表1所示。在具有挑战性的UCF-Crime数据集上，GS-MoE的AUC达到91.58%，超过了之前表现最佳的模型VadCLIP[43]3.56%。这一显著提升体现了我们的模型在检测真实世界数据集中复杂视频异常方面的有效性。此外，仅考虑在异常视频上的性能（(AUC_{A})）时，GS-MoE的得分达到83.86%，相较于排名第二的方法UR-DMU[55]的70.81%，有显著的13.63%的提升。这一结果支持了我们研究中的一个关键假设：不同类型的异常需要类别特异性的精细表征才能更有效地检测。UR-DMU的性能仍然受限，因为其基于特征幅度的优化忽略了细微线索，而强化了明显线索。然而，我们提出的TGS损失促进了细微线索和明显线索共同参与可分离性优化。此外，混合专家架构能够捕捉这些类别特异性表征，从而带来显著的性能提升，尤其是在复杂异常上。

在XD-Violence数据集上，GS-MoE模型的AP得分为82.89%，与表现最佳的TSA[16]模型（82.89%）相当。此外，仅关注异常视频时，GS-MoE模型的APₐ得分为85.74%，优于排名第二的UR-DMU[55]模型（其APₐ得分为83.94%）。由于AP指标在评估时同时考虑正常视频和异常视频，因此通过对大量正常视频做出准确预测，能够提升模型的性能表现。
因此，在AP指标上表现优异的方法在异常检测方面可能仍然存在不足。我们提出的方法在(AP_{A})指标上优于以往的最先进方法，这进一步凸显了其在实际场景中的实用性。在最近发布的MSAD数据集上，GS-MoE在AUC指标上超过现有基线模型高达2.74%，并在该数据集上确立了新的最先进水平。我们还报告了其他指标，以便为后续研究提供基线参考。
在这里插入图片描述
类别性能分析：为了更深入地分析模型在复杂异常上的表现，图5展示了在UCF-Crime数据集上，GS-MoE与基线方法UR-DMU在不同异常类别上的性能对比。值得注意的是，在“纵火”“袭击”“打斗”“偷窃”和“入室盗窃”等复杂类别上，模型性能显著提升，最高达24.3%。这些性能提升证实了GS-MoE在检测复杂视频异常方面的优势。图6展示了测试集中异常视频在GS-MoE第一阶段和第三阶段所获对数几率的t-SNE可视化图[40]。图6a为基线方法UR-DMU的结果，显示出较低的可分离度。而图6b中专家模型实现的类别分化，则体现了GS-MoE学习更优类别表征的能力。
在这里插入图片描述

4.2. Qualitative Results

在这里插入图片描述
如图7所示，从异常分数中提取的高斯核包含了UCF-Crime数据集中视频所存在异常事件的精确表征。核的时间激活（热力图）展示了该方法的能力。通过正确区分异常事件的峰值和伪峰值，模型经过训练后能够为相关的异常片段预测出较高的异常分数。在“Assault-010”视频样本中，异常分数中检测到两个峰值，时间高斯喷涂（TGS）发现这两个峰值的方差都很小，导致每个峰值都形成了陡峭的正态分布。另一方面，在“Arson-011”和“Explosion-033”样本中，时间高斯喷涂（TGS）通过让模型估计出较大的方差，生成了更长的分布，并为异常事件产生了较长的时间窗口。

4.3. Ablation Studies

组件影响：我们进行了大量消融实验，以评估每个组件对GS-MoE最终性能的影响，结果如表3所示。使用公式7中的TGS损失对基线模型UR-DMU进行微调后，在UCF-Crime数据集的AUC指标上性能提升了1.77%，在XD-Violence数据集的(AP_{A})指标上提升了0.48%。这些结果表明，这种新的弱监督视频异常检测（WSVAD）任务公式对现有方法同样有益。类别专家模型的性能优于微调后的基线模型，在UCF-Crime数据集上提升了0.79%。值得注意的是，两个数据集的(AP_{A})指标均有提升，UCF-Crime数据集提升了1.16%，XD-Violence数据集提升了0.76%，这进一步支持了不同类别异常应分开处理的观点。在框架中加入门控模型带来了最大的性能提升：在UCF-Crime数据集上，AUC提升了2.05%，(AP_{A})提升了4.46%；在XD-Violence数据集上，提升相对较小，AUC提升了0.23%，(AP_{A})提升了1.68%。
在这里插入图片描述

在这里插入图片描述
任务感知特征：为了进一步分析这一性能提升，我们分别在使用和不使用任务感知特征的情况下训练了门控模型。实验结果如表5所示。任务感知特征在XD-Violence数据集的(AP_{A})指标表现中似乎起到了关键作用。实际上，使用任务感知特征训练的门控模型在该设置下的性能比另一种配置高出4.29%，在UCF-Crime数据集上则高出0.6%。
类别专家的影响：通过在UCF-Crime数据集上对相应类别专家进行掩蔽后得到的类别级AUC分数，来衡量专家模型对门控模型性能的影响。该实验结果如表4所示。对专家模型进行掩蔽后，每个类别的实测AUC分数徘徊在50%左右。而当纳入相关专家分数时，门控模型的预测结果得到显著改善，性能大幅提升。
类别专家与聚类专家：在实际应用中，异常往往跨越多个类别，这使得训练一组预定义的专业专家模型具有挑战性。为解决这一问题，我们使用基于聚类的专家模型而非类别特异性专家模型来训练GS-MoE。为形成数据聚类，我们计算了UCF-Crime训练集中每个异常视频的平均任务感知特征，并应用K-Means算法[25]对其进行分组。随后，每个专家模型都使用来自单个聚类的视频和正常视频进行训练，从而得到k个专业专家模型。这种方法使我们能够评估模型在类别数量未定义的实际场景中的性能。结果如表6所示。在这种设置下，当将异常训练视频聚为7个聚类并使用7个专家模型时，GS-MoE能够以0.56%的优势优于当前最先进的模型；而使用更少专家模型时，其性能与其他最先进模型相当。这些结果凸显了GS-MoE在异常事件数量未预先定义的实际应用场景中的能力。
在这里插入图片描述

5. Conclusion

我们提出了GS-MoE模型，旨在通过利用时间高斯喷涂（Temporal Gaussian Splatting）克服以往方法的局限性，为弱监督视频异常检测提供一种新颖的解决方案。具体而言，我们解决了在可分离性优化中过度依赖最异常片段这一问题。我们的框架采用混合专家架构，学习类别特异性的细粒度表征，建立粗略异常线索与细粒度线索之间的关联，从而为每个类别学习更紧凑的表征。在具有挑战性的数据集上，通过多种指标进行的大量实验表明，GS-MoE模型在性能上持续优于最先进的方法，并取得了显著的性能提升。未来，我们计划利用大语言模型（LLMs）为异常类别提供更强的可解释性。

查看全文

http://www.dtcms.com/a/346410.html