当前位置：首页 > news >正文

Action-Agnostic Point-Level Supervision for Temporal Action Detection

news 2025/7/14 5:28:18

在这里插入图片描述

标题：用于时序动作检测的与动作无关的点级监督
原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/33037
完整版原文链接：https://arxiv.org/abs/2412.21205
源码链接：https://github.com/smy-nec/AAPL （null）
发表：AAAI-2025

摘要

我们提出了与动作无关的点级（AAPL）监督用于时序动作检测，旨在利用轻量标注的数据集实现准确的动作实例检测。在该方案中，通过无监督方式对一小部分视频帧进行采样，并呈现给人工标注者，由标注者为这些帧标注动作类别。与点级监督不同（点级监督要求标注者在未剪辑视频中查找每个动作实例），AAPL监督中待标注帧的选择无需人工干预。我们还提出了一种检测模型和学习方法，以有效利用AAPL标签。在多种数据集（THUMOS ’14、FineAction、GTEA、BEOID和ActivityNet 1.3）上的大量实验表明，所提出的方法在标注成本和检测性能的权衡方面，与基于视频级和点级监督的现有方法相比具有竞争力，甚至更优。

扩展版本——https://arxiv.org/abs/2412.21205

代码——https://github.com/smy-nec/AAPL

1 引言

时序动作检测是计算机视觉和机器学习领域的一个重要研究方向，主要侧重于在未剪辑的视频序列中识别和定位人类动作及事件（Xia和Zhan，2020；Vahdani和Tian，2022）。随着在线视频数据的快速增长，开发能够理解和解释这些海量信息的算法对于众多应用至关重要，包括监控视频中的异常事件检测（Vishwakarma和Agrawal，2013；Sultani、Chen和Shah，2018）以及体育活动分析（Giancola等，2018；Cioppa等，2020）。现有文献通常通过全监督方法解决动作检测问题（Lin等，2019；Xu等，2020；Zhang、Wu和Li，2022），这些方法需要带有完整动作标签及其精确时间边界的训练数据。尽管近年来取得了显著进展，但由于在复杂多样的视频环境中准确预测动作需要高昂的标注成本，这些方法面临着巨大挑战。为了降低时序动作检测的标注成本，研究者们对弱监督进行了研究，如视频级监督（Sun等，2015；Wang等，2017；Baraka和Mohd Noor，2022；Li、Zhang和Zhang，2024）和点级标签（Moltisanti、Fidler和Damen，2019；Ma等，2020）。然而，这些监督方式在实际应用中都存在各自的困难。

视频级监督仅使用视频中存在的动作类别作为标签。研究者们提出了多种方法，如基于多实例学习的方法（Wang等，2017；Paul、Roy和Roy-Chowdhury，2018）、基于特征擦除的方法（Singh和Lee，2017）以及基于注意力的方法（Nguyen等，2018；Lee、Uh和Byun，2020；Liu、Jiang和Wang，2019），但这些方法最终都将动作检测学习简化为视频分类。这种策略背后的假设是，有助于分类的判别性区间就是动作发生的区间，但这并不总是成立。此外，当视频包含多个动作类别时，这就变成了一个多标签分类问题，难度极大。这些局限性严重限制了视频级监督的应用范围。

点级监督为每个动作实例指定该实例中的一个任意时间点以及动作类别，近年来得到了积极研究（Ju等，2021；Lee和Byun，2021；Li、Cao和Ye，2023；Li、Abu Farha和Gall，2021）。虽然点级标签传达了动作实例位置的部分信息，但它们无法告知哪些地方没有动作。这是点级监督动作检测的一个根本性困难，因为定位需要区分动作和非动作。此外，要求对每个动作实例进行 exhaustive 标注使得标注过程成本高昂。
在这里插入图片描述

图1：真值（全监督）、点级监督和AAPL监督的示意图。红色方框和线条代表标记为“排球扣球”的帧，黑色线条代表标记为“背景”的帧。这些图像来自THUMOS ’14（Jiang等，2014）中的一个视频。

为了在标注成本和检测精度之间取得更好的平衡，我们提出了与动作无关的点级（AAPL）监督，这是一种用于时序动作检测的新型弱监督形式（图1）。在生成AAPL标签时，对一小部分视频帧进行采样并呈现给人工标注者，由标注者为这些帧标注动作类别。与点级监督不同，AAPL监督中待标注帧的选择无需人工干预。我们还提出了一种基线学习协议来利用AAPL标签。为了证明AAPL监督在各种场景中的实用性，我们在五个具有不同特征的数据集上对我们的方法进行了实证评估，包括BEOID（Damen等，2014）、GTEA（Fathi、Ren和Rehg，2011）、THUMOS ’14（Jiang等，2014）、FineAction（Liu等，2022）和ActivityNet 1.3（Heilbron等，2015）。结果表明，所提出的方法与基于视频级或点级监督的现有方法相比具有竞争力，甚至更优。我们还发现，即使仅使用标注帧进行训练，也能取得与先前研究相当的结果。这表明AAPL监督具有内在的有效性。

本文的贡献如下：

我们提出了AAPL监督，一种用于时序动作检测的新型弱监督形式，能够实现良好的成本-精度权衡。
我们设计了一种动作检测模型和损失函数，能够利用AAPL标注数据集。
在广泛的动作检测基准上的综合实验表明，所提出的方法在标注成本和检测性能的权衡方面，与使用视频级或点级监督的先前方法相比具有竞争力，甚至更优

2 与动作无关的点级监督

我们首先解释AAPL监督的标注流程（2.1节）。然后，从定性角度（2.2节）和标注时间角度（2.3节）将AAPL监督与其他弱监督形式进行比较。还将介绍一些AAPL标签的符号（2.4节）。

2.1 标注流程

AAPL监督的特点是两步标注流程，包括与动作无关的帧采样和人工标注。与动作无关的帧采样确定训练视频中哪些帧需要标注。这可以是任何无需人工干预即可选择待标注视频帧的方法。然后，人工标注者为采样的帧标注动作类别。

与动作无关的帧采样是AAPL监督区别于传统点级监督的关键。先前的方案要求视频中的每个动作实例都用一个时间点进行标注。这是一项具有挑战性的任务，因为人工标注者需要在视频中查找每个动作实例。相比之下，在AAPL监督中，标注者只需为采样的帧标注动作类别，而无需查找动作实例。

与动作无关的帧采样的简单示例是等间隔采样和随机采样。前者按固定间隔选取帧，后者随机选择帧。这些方法的优势在于易于实现、计算量小，并且不需要对视频做任何假设。正如我们将在4.4节中看到的，等间隔采样比随机采样更可取，因为后者可能导致选择时间上接近的多个帧，从而产生冗余标注。我们还可以考虑更复杂的采样策略，这些策略会考虑视频内容。例如，我们可以使用预训练的特征提取器计算帧的特征表示，然后基于这些特征对帧进行聚类。可以选择每个聚类的代表性帧进行标注。详见4.4节的性能比较。

由于等间隔采样计算成本低，它可能适合作为初始选择。此外，它只涉及一个超参数，即间隔长度，这可以利用关于数据集的先验知识来合理确定，例如动作实例的持续时间和频率。如果有计算资源，像基于聚类的采样这样更复杂的方法可能是一个不错的选择，因为它可以适应数据集特征并可能提供更好的性能。

2.2 定性比较

在这里，我们将AAPL监督与其他类型的监督进行对比。表1比较了四种用于时序动作检测的监督方案：全监督、视频级监督、点级监督和AAPL监督。

AAPL标签中包含部分实例级定位信息，虽然没有给出动作实例的确切开始和结束时间，但包含了时间戳。这一点与点级监督类似，但AAPL监督可以在单个动作实例上有多个标签，从而传达更完整的动作位置信息。它还包含背景帧的标签，这对于时序定位至关重要，因为定位动作需要找到动作与背景之间的边界。传统的点级监督只包含前景帧的时间戳，先前的工作依靠自训练策略来挖掘背景帧，假设两个点级标签之间至少有一个背景帧（Lee和Byun，2021）。这个假设在理论上是合理的，但对于稀有动作来说实际意义不大，因为在这种情况下，点级标签分布非常稀疏，两个点级标签无法有效缩小动作边界的位置范围。

与动作无关的帧采样无法保证找到视频中的所有动作实例，有些动作实例可能没有标签。这是AAPL监督的一个潜在弱点。即使在视频级别也是如此；与动作无关的帧采样可能会遗漏视频中确实存在的某个动作类别的所有实例。这使得应用诸如视频级损失函数之类的常用方法变得具有挑战性，而视频级损失函数已知在视频级（Paul、Roy和Roy-Chowdhury，2018）和点级监督（Ma等，2020；Lee和Byun，2021）中都很有效。然而，这个问题可以通过对3.2节中介绍的视频级损失进行简单修改来缓解。

2.3 标注时间测量

我们使用改进版的VGG图像标注工具（VIA）（Dutta、Gupta和Zissermann，2016；Dutta和Zisserman，2019）测量了全监督、视频级监督、点级监督和AAPL监督的标注时间。对于AAPL监督，我们按3秒、5秒、10秒和30秒的固定间隔采样待标注帧。我们让8名工作人员标注BEOID（Damen等，2014）、GTEA（Fathi、Ren和Rehg，2011）和THUMOS ’14（Jiang等，2014）中的视频。有关此测量的更多细节，请参见扩展版本（Yoshida等，2024）。

表2显示了相对于视频时长的测量标注时间，即一名标注者标注1分钟视频所需的分钟数。先前的方法（“全监督”、“视频级”和“点级”）呈现出预期的排序：全监督成本最高，视频级监督成本最低。另一方面，AAPL监督的标注时间随间隔变化，并且可以很好地用标注帧数的线性函数来近似。该模型假设每帧的标注时间是恒定的，这是合理的，因为每帧的标注时间主要取决于选择动作类别的时间，并且对要标注的帧数不敏感。

标注时间取决于数据集的特征，例如动作实例的密度（即视频单位长度内的数量）和一个视频中出现的动作类别数量。实际上，BEOID和GTEA中的这些数值远大于THUMOS ’14。因此，对于全监督、视频级监督和点级监督，标注BEOID和GTEA中的视频所需的时间是标注THUMOS ’14中的视频的两倍多。相比之下，AAPL监督的标注时间变化相对较小，因为AAPL标注涉及要标注的帧周围的局部片段，对视频密度等全局特征不敏感。这一特性使得AAPL监督很容易应用于各种数据集。

2.4 符号

我们介绍AAPL标签的符号。令v为一组视频。视频 $\in V$ 的AAPL标签是一组 $LV={(ti,yi)}i∈[Nv]L^{V}=\{(t_{i}, y_{i})\}_{i \in[N^{v}]}$ ，其中每个元素是时间戳 $t_{i}$ 和动作标签 $yi∈{0,1}Cy_{i} \in\{0,1\}^{C}$ 的配对。这里， $N^{V}$ 是标注帧的数量，C是动作类别的数量，动作标签 $y_{i}$ 是一个0/1值向量，其中第c个分量表示在时间 $t_{i}$ 是否存在第c类动作， $[K]$ 是集合 ${1,2, ..., K\}$ 。一个标注帧可能不属于任何动作实例。这样的帧被称为背景，标记为 $y = 0$ 。此外，如果不同类别的多个动作实例重叠，则重叠部分的帧用表示所有存在的动作类别的多热向量标注。

3 AAPL监督学习方法

本节介绍我们在AAPL监督下进行时序动作检测的方法。包括从输入视频预测动作实例的动作检测流程（3.1节）、预测模型的训练目标（3.2节）以及为更有效地利用训练数据而采用的伪标签策略（3.3节）。
在这里插入图片描述

3.1 动作检测模型

我们的动作检测流程包括预处理、片段评分和动作实例生成，遵循先前的研究（Li、Zhang和Zhang，2024）。在预处理阶段，我们将输入视频分成 $T^{V}$ 个不重叠的片段，每个片段包含T帧，称为 snippet，并对其进行转换，使其适合片段评分模型。片段评分模型将输入视频V处理成预测得分序列 $PV∈RC×TVP^{V} \in \mathbb{R}^{C \times T^{V}}$ 。预测得分 $P_{c t}^{V}$ 表示在时间t发生第c类动作的可能性。然后，动作实例生成器将得分序列转换为视频中的一组带评分的动作实例 ${(si,ei,ci,pi)}i∈[Mv]\{(s_{i}, e_{i}, c_{i}, p_{i})\}_{i \in[M^{v}]}$ 。这里， $M^{V}$ 是视频中的动作预测数量， $s_{i}$ 是开始时间， $e_{i}$ 是结束时间， $c_{i}$ 是动作类别， $p_{i}$ 是第i个预测的置信度得分。

如图2所示，片段评分模型包括特征提取器、特征嵌入器和两个评分头。特征提取器是一个预训练的3D CNN，将每个预处理的片段转换为D维片段特征。我们将片段特征序列表示为 $XV∈RD×TVX^{V} \in \mathbb{R}^{D \times T^{V}}$ 。特征序列进一步输入到特征嵌入器，这是一个核大小为3的时间卷积层，后跟整流线性单元激活函数，输出嵌入特征序列 $ZV=(z1V,...,zTV)∈RD×TVZ^{V}=(z_{1}^{V}, ..., z_{T}^{V}) \in \mathbb{R}^{D \times T^{V}}$ 。嵌入特征被分成 $ZSV∈RD/2×TVZ_{S}^{V} \in \mathbb{R}^{D / 2 \times T^{V}}$ 和 $ZAV∈RD/2×TVZ_{A}^{V} \in \mathbb{R}^{D / 2 \times T^{V}}$ ，然后输入到两个评分头。分类头对每个片段进行分类，并输出特定类别的分类得分 $SV∈RC×TVS^{V} \in \mathbb{R}^{C \times T^{V}}$ ，称为时序类激活序列（T-CAS）。动作性头计算与类别无关的得分，称为动作性序列 $AV∈RTVA^{V} \in \mathbb{R}^{T^{V}}$ ，表示一个片段属于动作实例的可能性。两个头都结合了逐点时间卷积层和sigmoid函数。最终的预测得分是两个得分序列的乘积： $P_{c t}^{V}=A_{t}^{V} S_{c t}^{V}$

给定动作类别的预测得分，动作实例生成器首先对得分序列进行上采样，以匹配输入视频的帧率。然后，通过收集预测得分高于阈值 $θpred\theta_{pred}$ 的区间来生成一组动作候选。这个过程会使用几个不同的阈值重复进行。然后，对于每个动作候选，计算外-内对比得分（Shou等，2018）作为初始置信度得分。最后，使用软非极大值抑制（Bodla等，2017）去除重复预测，并计算最终的置信度得分。

3.2 评分模型的训练目标

我们的训练目标是三个项的加权和：
$L_{pt}+\lambda_{vid} L_{vid}+\lambda_{pascl} L_{pascl} \quad (1)$

其中 $L_{pt}$ 是点级分类损失， $L_{vid}$ 是视频级分类损失， $L_{pascl}$ 是原型锚定的监督对比损失（见图2）。为简洁起见，我们也将它们分别称为点损失、视频损失和对比损失。除非另有说明，否则下面的损失函数表达式均隐含对视频小批量的平均。

点级分类损失量化标注片段的分类误差。为此，我们采用焦损失（Lin等，2020）。我们将前景和背景片段的贡献分开， $L_{pt}=L_{pt, fg}+L_{pt, bg}$ ，以处理它们之间的类别不平衡：

$Lpt,fg=−1∣LfgV∣∑(t,y)∈LfgV{(1−AtV)2log⁡AtV+∑c=1C[yc(1−SctV)2log⁡SctV+(1−yc)(SctV)2log⁡(1−SctV)]},\begin{aligned} L_{pt, fg} &= \frac{-1}{|\mathcal{L}_{fg}^{V}|} \sum_{(t, y) \in \mathcal{L}_{fg}^{V}} \left\{ \left(1 - A_{t}^{V}\right)^{2} \log A_{t}^{V} \right. \\ & \left. + \sum_{c = 1}^{C} \left[ y_{c} \left(1 - S_{c t}^{V}\right)^{2} \log S_{c t}^{V} + \left(1 - y_{c}\right) \left(S_{c t}^{V}\right)^{2} \log \left(1 - S_{c t}^{V}\right) \right] \right\}, \end{aligned}$

$Lpt,bg=−1∣Lbgv∣∑(t,y)∈Lbgv[(AtV)2log⁡(1−AtV)+∑c=1c(sctv)2log⁡(1−sctv)].\begin{aligned} L_{pt, bg} &= \frac{-1}{|\mathcal{L}_{bg}^{v}|} \sum_{(t, y) \in \mathcal{L}_{bg}^{v}} \left[ \left(A_{t}^{V}\right)^{2} \log \left(1 - A_{t}^{V}\right) \right. \\ & \left. + \sum_{c = 1}^{c} \left(s_{c t}^{v}\right)^{2} \log \left(1 - s_{c t}^{v}\right) \right]. \end{aligned}$

这里， $LfgV\mathcal{L}_{fg}^{V}$ 和 $LbgV\mathcal{L}_{bg}^{V}$ 分别表示属于前景（ $\neq 0$ ）和背景（ $y = 0$ ）的AAPL标签子集。重要的是，我们只需使用人工生成的AAPL标签就可以计算 $L_{pt, fg}$ 和 $L_{pt, bg}$ ，因为AAPL标签包含背景片段的标签。相比之下，先前的点级方法（Ma等，2020；Lee和Byun，2021）需要伪标签来计算背景点损失。这是AAPL监督相对于先前点级方法的一个显著优势，因为动作定位需要区分前景动作和背景，而拥有可靠的背景片段标签对于学习这项任务至关重要。

视频级分类损失衡量视频级标签和预测之间的一致性。然而，在AAPL监督设置中，视频级标签可能是不完整的。换句话说，某个动作类别的AAPL标签不存在并不一定意味着该类别在视频中不存在。因此，我们不能简单地应用在视频级（Wang等，2017；Paul、Roy和Roy-Chowdhury，2018）和点级（Ma等，2020；Lee和Byun，2021）场景中使用的视频损失。

为了处理这种不完整性，我们引入视频损失的正部分和负部分。视频损失的正部分表示为
$Lvid,pos=−∑c∈[C]ycVlog⁡p‾cV,L_{vid, pos}=-\sum_{c \in[C]} y_{c}^{V} \log \overline{p}_{c}^{V},$

其中 $pˉcV\bar{p}_{c}^{V}$ 是视频级预测得分，
$p‾cV=σ(1kposmax⁡τ⊂[TV],∣T∣=kpos∑t∈Tσ−1(PctV)),(5)\overline{p}_{c}^{V}=\sigma\left( \frac{1}{k_{pos}} \max_{\tau \subset [T^{V}], |\mathcal{T}| = k_{pos}} \sum_{t \in \mathcal{T}} \sigma^{-1} \left( P_{c t}^{V} \right) \right), \quad (5)$

$y_{c}^{V}$ 是视频级标签，
$ycV=max⁡(t,y)∈LVyc,y_{c}^{V} = \max_{(t, y) \in \mathcal{L}^{V}} y_{c},$

视频损失的总部分是两部分的简单总和：
$L_{vid}=L_{vid, pos}+L_{vid, neg}$

近年来的研究（Huang等，2020；Liu等，2023；Lee和Byun，2021；Li、Cao和Ye，2023）表明，增强嵌入特征的判别能力可以提高动作检测性能，因此我们还引入了原型锚定的监督对比损失。这种损失受到SupCon损失（Khosla等，2020）的启发，并利用AAPL标签来增强嵌入特征。SupCon损失中的锚点被替换为原型。这种修改使我们的损失在计算上更高效。

为了构建原型锚定的监督对比损失，我们首先为第c类动作引入原型 $q_{c}$ 。原型是属于第c类动作实例的片段的平均嵌入特征的滚动估计。原型 $q_{c}$ 初始化为
$qc=1∣Lc∣∑(v,t,y)∈LcztV,q_{c}=\frac{1}{|\mathcal{L}_{c}|} \sum_{(v, t, y) \in \mathcal{L}_{c}} z_{t}^{V},$

其中 $Lc={(V,t,y)∣∀V∈V,(t,y)∈LV,yc=1}\mathcal{L}_{c}=\{(V, t, y) | \forall V \in V, (t, y) \in \mathcal{L}^{V}, y_{c}=1\}$ 是训练数据集中附加到第c类动作片段的所有AAPL标签的集合。在训练过程中， $q_{c}$ 在每次迭代时更新为
$qc←(1−μ)qc+μ∣LcB∣∑(V,t,y)∈LcsztV,(10)q_{c} \leftarrow (1 - \mu) q_{c}+\frac{\mu}{|\mathcal{L}_{c}^{\mathcal{B}}|} \sum_{(V, t, y) \in \mathcal{L}_{c}^{s}} z_{t}^{V}, \quad (10)$

其中 $LcB\mathcal{L}_{c}^{B}$ 是该迭代的小批量视频中 $Lc\mathcal{L}_{c}$ 的子集。

使用这些原型，小批量B的原型锚定的监督对比损失表示为
$Lpascl=∑c∈[C]−1∣LcB∣∑(V,t,y)∈LcBlog⁡[eqc⋅ztV/τ∑(V′,t′,y′)∈LBeqc⋅zt′V′/τ]L_{pascl}=\sum_{c \in[C]} \frac{-1}{|\mathcal{L}_{c}^{\mathcal{B}}|} \sum_{(V, t, y) \in \mathcal{L}_{c}^{\mathcal{B}}} \log \left[ \frac{e^{q_{c} \cdot z_{t}^{V} / \tau}}{\sum_{(V', t', y') \in \mathcal{L}^{B}} e^{q_{c} \cdot z_{t'}^{V' / \tau}}} \right]$

其中 $LB=∪c∈[C]LcB\mathcal{L}^{B}=\cup_{c \in[C]} \mathcal{L}_{c}^{B}$ 。由于 $L_{pascl}$ 是使用小批量中的所有视频计算的，我们不对 $L_{pascl}$ 应用小批量平均。这个损失函数将第c类动作的嵌入特征拉向 $q_{c}$ ，同时将其他类别的嵌入特征推离 $q_{c}$ 。我们不为背景特征使用原型，因此背景特征会被所有原型向量推离。

3.3 真值锚定的伪标签

在前面章节的损失函数中，点损失 $L_{pt}$ 和对比损失 $L_{pascl}$ 不涉及未标注的片段，而未标注的片段构成了训练数据集中的大部分片段。伪标签通过从预测生成伪标签并将其用于计算损失，提供了一种利用这些未充分利用的数据的便捷方法。为了获得更好的结果，伪标签的质量至关重要。

在这里，我们采用真值锚定的伪标签策略，该策略受到Ma等（2020）和Li、Cao和Ye（2023）的启发。在这种策略下，如果（i）区间上的预测得分 $P_{c}^{V}$ 高于阈值 $θfg\theta_{fg}$ ，（ii）至少有一个片段用AAPL标签标注，并且（iii）区间上的每个AAPL标签 $(t, y)$ 都满足 $y_{c}=1$ ，则将第c类动作的伪标签分配给该区间上的片段。换句话说，伪标签被赋予预测置信度高且与AAPL标签一致的区间。类似地，如果（a）区间上的动作性得分低于阈值 $θbg\theta_{bg}$ ，并且（b）区间上至少有一个背景标签且没有前景动作标签，则将伪背景标签分配给该区间。在计算点损失和对比损失时，我们用伪标签替换AAPL标签。

4 实验

在本节中，我们通过实证评估AAPL监督在时序动作检测中的有效性。除了4.4节中比较不同采样方案的部分外，我们使用等间隔采样作为与动作无关的帧采样方法。我们还分析了我们设计选择的效果。实现细节和超参数详见扩展版本（Yoshida等，2024）。
在这里插入图片描述

4.1 数据集

为了证明其在各种场景中的实用性，我们使用了五个具有不同特征的基准数据集。这里我们简要概述这些数据集。更多数据集统计信息详见扩展版本（Yoshida等，2024）。

BEOID（Damen等，2014）是一个以第一视角活动视频为内容的数据集，包含从烹饪到锻炼的各种活动。我们采用Ma等（2020）的训练-验证拆分。

GTEA（Fathi、Ren和Rehg，2011）也由第一视角视频组成，但专注于厨房中的细粒度日常活动。每个视频中动作实例的中位数数量在约60秒的视频中为18个。这个数字是本文使用的数据集中最大的。

THUMOS ’14（Jiang等，2014）在动作实例的长度和出现次数上有很大差异。按照惯例（Wang等，2017；Nguyen等，2018），我们使用验证集进行训练，测试集进行评估。

FineAction（Liu等，2022）是一个用于细粒度动作检测的大规模数据集。动作类别的细粒度特性和动作实例的稀疏性使得该数据集对动作检测极具挑战性。

ActivityNet 1.3（Heilbron等，2015）是一个大规模视频数据集，用于200种不同动作类别的动作识别和检测。该数据集中的大多数视频只有一个动作实例，每个动作实例的持续时间比其他数据集长得多。

4.2 评估指标

作为评估指标，我们报告在不同时间交并比（IoU）阈值下的平均精度均值（mAP）（详见Jiang等（2014）的正式定义）。按照惯例（Lee和Byun，2021；Li、He和Xu，2022），在计算平均mAP（Avg mAP）时，对于BEOID、GTEA和THUMOS ’14，我们对0.1到0.7之间的阈值以0.1为步长取平均；对于FineAction和ActivityNet 1.3，我们对0.5到0.95之间的阈值以0.05为步长取平均。我们方法的所有报告结果都是8次不同随机种子运行的平均值。

4.3 主要结果

表3提供了在BEOID和GTEA上的实验结果，表明我们的方法在平均mAP方面优于点级方法。AAPL标签的间隔为3秒，如2.3节所示，其标注成本低于点级标签。因此，表3中的结果不仅显示了所提出方法的更高精度，还表明了我们的方法在检测性能和标注时间的权衡方面的优越性。

图3显示了在THUMOS ’14上AAPL监督学习的检测性能和标注时间之间的权衡，包括使用我们的完整目标函数和仅使用 $L_{pt}$ 的结果。AAPL标签之间的间隔为3秒、5秒、10秒和30秒，使用表2将其转换为标注时间。为了进行比较，图中还显示了先前用于视频级和点级监督的单阶段训练方法的结果。对于固定的标注时间预算，我们用于AAPL监督的完整目标函数与其他类型监督的最先进方法具有竞争力。此外，我们仅使用 $L_{pt}$ 的基线已经优于许多先前的方法。即使是具有30秒间隔的AAPL标签的基线，其平均mAP也与Ma等（2020）相当，尽管这种稀疏的AAPL标签的生成时间仅为点级标签的三分之一。这个简单基线的优势说明了AAPL监督的内在有效性。

表4显示了在FineAction上的结果。结果表明，即使我们提出的方法使用最稀疏的标签，也优于所有先前的方法，这证明了AAPL监督在细粒度和稀疏动作上的优势。有趣的是，在THUMOS ’14上优于所有视频级方法的点级方法LACP（Lee和Byun，2021）在FineAction上表现不佳，且不如点级方法HAAN（Li、He和Xu，2022）。我们推测这是由于FineAction视频中动作实例的稀疏性。非常稀疏的点级标签可以使模型定位动作中可能的帧，但可能不足以帮助检测模型定位动作边界。这一假设与以下事实一致：LACP在mAP@0.5方面优于HAAN，但在更大的IoU阈值下落后于HAAN；LACP成功找到了动作，但未能对其进行定位。

表5显示了在ActivityNet 1.3上的结果。对于我们实验的所有间隔，我们的方法都达到了与最先进的点级方法Lee和Byun（2021）相当或更好的检测精度。

4.4 分析

在本节中，我们分析并证明我们方法中的一些设计选择。

与动作无关的帧采样

与动作无关的帧采样设计会影响检测性能。为了说明这一点，我们使用三种不同的采样方案进行了实验：随机采样、等间隔采样和基于聚类的采样。基于聚类的采样首先使用预训练的特征提取器计算帧的特征表示，然后基于这些特征对帧进行聚类。选择每个聚类的代表性帧进行标注（详见扩展版本（Yoshida等，2024））。如表6所示，等间隔采样和基于聚类的采样始终优于随机采样。

这表明标注多样化的帧对于实现良好的检测性能至关重要。实际上，等间隔采样和基于聚类的采样都倾向于提高标注帧的多样性：前者通过减少标注帧之间的时间相关性来实现，后者通过选择在嵌入空间中分离的帧来实现。如表6所示，这两种方法中哪种更好取决于数据集。

各组件的有效性

所提出的损失函数由三个组件组成： $L_{pt}$ 、 $L_{vid}$ 和 $L_{pascl}$ 。我们还采用了真值锚定的伪标签（PL）策略。为了评估每个组件的有效性，我们进行了消融研究，结果如表7所示。

对于THUMOS ’14和BEOID，添加每个组件都提高了检测精度，并且完整的目标函数取得了最佳性能。视频损失的贡献特别大，表明基于top-/bottom-k池化的自训练策略与AAPL监督结合使用是有效的，与传统的弱监督情况相同。

视频损失的形式

所提出的视频损失经过专门调整，以适应AAPL监督，处理视频级标签的不完整性。为了证明我们设计的视频损失的有效性，我们将其与二进制交叉熵（BCE损失）进行了比较，BCE损失是该领域的事实标准（Lee和Byun，2021；Li、Cao和Ye，2023）。如表8所示，视频损失的形式会影响检测性能。特别是，如扩展版本（Yoshida等，2024）所示，较低IoU阈值下的mAP比较高阈值下的mAP受影响更大。这是合理的，因为视频损失作为一种伪标签策略，并不涉及动作实例的精确定位，但有助于挖掘未标注的实例。

5 结论

我们提出了用于时序动作检测的与动作无关的点级（AAPL）监督，以在动作检测性能和标注成本之间取得更好的权衡。我们还提出了一种动作检测模型和训练方法来利用AAPL标注数据。广泛的实证研究表明，AAPL监督在各种动作检测基准上，在成本-性能权衡方面与先前的监督方案具有竞争力或更优。进一步的分析证明了我们的设计选择的合理性，例如等间隔帧采样和视频损失的形式。

查看全文

http://www.dtcms.com/a/276860.html