当前位置：首页 > news >正文

《Span-based Localizing Network for Natural Language Video Localization》

news 2025/10/2 9:29:25

一、跨度 QA 框架（Span-based QA Framework）

1. 核心定义

跨度 QA 框架是一种原本用于文本问答任务的技术框架，核心目标是从给定的文本 “段落”（Context）中，定位与文本 “问题”（Question）语义匹配的连续文本片段（答案跨度，Answer Span），通过预测该跨度的起止边界完成问答。在本文中，作者将该框架适配到自然语言视频定位（NLVL）任务：把未剪辑视频视为 “文本段落”，视频的视觉特征序列类比文本的词嵌入序列；把待定位的视频目标时刻视为 “答案跨度”，从而将 NLVL 转化为 “从视频中定位与文本查询匹配的时刻跨度” 问题。

2. 本文中的适配实现（以 VSLBase 为例）

作为标准跨度 QA 框架在 NLVL 的适配版本，VSLBase 包含三大核心模块，实现 “视频 - 查询交互→边界预测” 的完整流程：

特征编码：将视频视觉特征（3D ConvNet 提取）与查询词嵌入（GloVe 初始化）投影到同一维度，通过共享参数的编码器（卷积 + 多头注意力）生成统一特征表示；
上下文 - 查询注意力（CQA）：计算视频与查询特征的相似度，捕捉跨模态交互，生成 “查询感知的视频特征”，为后续边界预测提供语义关联依据；
条件跨度预测器：用两个堆叠的单向 LSTM（端边界依赖始边界）预测目标时刻的起止边界，通过交叉熵损失优化预测精度。

二、QGH（Query-Guided Highlighting，查询引导高亮）

1. 核心定义

QGH 是本文为解决 “传统跨度 QA 与 NLVL 的模态差异” 而提出的关键策略，核心思路是：基于文本查询的语义，在视频特征序列中 “高亮” 出可能包含目标时刻的区域（前景），引导模型仅在该区域内搜索目标时刻，从而适配视频与文本的本质差异。

2. 设计目的：解决两大模态差异

传统跨度 QA（文本）与 NLVL（视频 - 文本）存在两大核心差异，QGH 通过 “区域高亮” 针对性解决：

差异 1：连续性与因果性：视频是连续的（相邻帧变化小、事件存在因果邻接性），文本是非连续的（相邻词语义可能无关）——QGH 将目标时刻扩展为 “目标时刻 + 相邻上下文” 的前景区域，提供更多连续上下文信息，辅助定位；
差异 2：感知敏感度：人对视频帧的小偏移不敏感，但文本中 1-2 个词的差异会改变语义 ——QGH 缩小模型的搜索空间（从全视频到高亮区域），帮助模型聚焦视频帧的细微差异，提升边界预测精度。

Query-Guided Highlighting（QGH，查询引导高亮）详解

一、QGH 的设计目的

QGH 是 VSLNet 中为解决传统文本跨度 QA 与 NLVL 任务核心差异而提出的关键策略。这两类任务的核心差异（文档引言中提及）包括：

模态连续性差异：视频具有连续性（相邻帧变化小、事件存在因果邻接性），而文本具有非连续性（相邻词语义可能无关）；
感知敏感度差异：人对视频帧的小偏移不敏感，但文本中 1-2 个词的差异会显著改变语义。QGH 通过 “高亮视频中与查询相关的区域”，针对性缓解上述差异，引导模型高效定位目标时刻。

二、QGH 的核心定义与前景扩展逻辑

1. 前景与背景划分

QGH 将视频特征序列划分为 “前景” 与 “背景”：

前景：与文本查询语义对齐的 “目标时刻” 及其相邻上下文（图 3 所示）。其中，目标时刻的真实起止边界为\(a^s\)（始）和\(a^e\)（端），长度为\(L = a^e - a^s\)；
背景：视频中除前景外的其余区域（与查询语义无关的部分）。

2. 前景扩展机制

为覆盖目标时刻的关联上下文（适配视频连续性特点），QGH 通过超参数\(\alpha\) 控制前景扩展比例：将前景边界从\([a^s, a^e]\)扩展为\([a^s - \alpha L, a^e + \alpha L]\)。扩展后的前景既能提供目标时刻的额外关联信息，又能避免引入过多无关背景噪声（后续实验显示\(\alpha=0.05\sim0.2\)时性能最优）。

三、QGH 的实现流程（结合图 4 与公式）

QGH 本质是一个二分类模块：预测每个视频特征属于 “前景” 的置信度（高亮分数），并基于该分数优化视频特征表示。具体流程如下：

1. 步骤 1：生成查询的句子级表示\(h_Q\)

首先对编码后的查询特征\(\tilde{Q}\)（由 VSLBase 的特征编码器生成）进行处理：通过自注意力机制（Bahdanau et al., 2015）将查询的词级特征聚合为句子级表示\(h_Q\)，捕捉查询的整体语义（如 “用工具逐个取下螺母” 的完整含义），为后续 “判断视频特征是否与查询相关” 提供依据。

2. 步骤 2：拼接查询语义与视频特征

将句子级表示\(h_Q\)与 “查询感知的视频特征\(V^q\)”（VSLBase 中上下文 - 查询注意力模块的输出）的每个特征向量拼接，得到新的特征序列\(\overline{V}^q\)：\(\overline{V}^q = [\overline{v}_1^q, \overline{v}_2^q, ..., \overline{v}_n^q]\)，其中\(\overline{v}_i^q = [v_i^q; h_Q]\)（\(v_i^q\)是\(V^q\)的第i个特征，分号表示向量拼接）。该操作让每个视频特征都融入查询的整体语义，为后续 “高亮与查询相关的视频区域” 奠定基础。

3. 步骤 3：计算高亮分数\(S_h\)

通过 1D 卷积层与 Sigmoid 激活函数，对\(\overline{V}^q\)进行处理，输出每个视频特征属于前景的置信度（高亮分数）：\(S_h = \sigma\left(Conv1D\left(\overline{V}^q\right)\right)\)其中，\(\sigma\)表示 Sigmoid 激活函数（将输出映射到\([0,1]\)区间，1 表示 “完全属于前景”，0 表示 “完全属于背景”），\(S_h \in \mathbb{R}^n\)（n为视频特征总数，即\(S_h\)的每个元素对应一个视频特征的前景置信度）。

4. 步骤 4：生成高亮视频特征\(\tilde{V}^q\)

用高亮分数\(S_h\)对\(\overline{V}^q\)进行元素 - wise 加权，突出前景区域的特征重要性，抑制背景区域干扰：\(\tilde{V}^q = S_h \cdot \overline{V}^q \quad(6)\)该高亮特征\(\tilde{V}^q\)将替代 VSLBase 中的\(V^q\)，用于后续条件跨度预测器的边界分数计算（即公式 3 中的\(v_t^q\)替换为\(\tilde{v}_t^q\)）。

四、QGH 的损失函数与训练方式

1. QGH 的二分类损失\(\mathcal{L}_{QGH}\)

为优化 QGH 对前景 / 背景的分类精度，定义交叉熵损失（\(f_{CE}\)），衡量预测的高亮分数\(S_h\)与真实前景标签\(Y_h\)的差异：\(\mathcal{L}_{QGH}=f_{CE}\left(S_h, Y_h\right) \quad(7)\)其中，\(Y_h\)是视频特征的真实前景标签序列（0-1 序列）：若第i个视频特征属于前景，\(Y_{h,i}=1\)；否则\(Y_{h,i}=0\)。

2. VSLNet 的总损失与端到端训练

VSLNet 将 QGH 的损失与 VSLBase 的跨度预测损失（\(\mathcal{L}_{span}\)）结合，形成总损失，通过端到端方式训练：\(\mathcal{L}=\mathcal{L}_{span }+\mathcal{L}_{QGH}\)这种联合训练确保 QGH 的 “高亮逻辑” 与后续 “边界预测逻辑” 协同优化，最终提升 NLVL 任务的定位精度。

编辑分享

QGH 并非单纯 “增大前景上下文”，而是基于查询语义，通过 “前景扩展 + 查询引导高亮 + 损失优化” 的组合逻辑，让模型聚焦与查询相关的视频区域，进而适配 NLVL 与文本 QA 的模态差异。

具体结合文档内容来看：

“增大前景上下文” 是 QGH 的手段之一：文档明确提到，QGH 将与查询对齐的目标时刻（原始前景）扩展，通过超参数 α 控制扩展比例，覆盖其 “前后文内容”（antecedent and consequent video contents），目的是适配视频的连续性特点（相邻帧变化小、事件有因果邻接性），这与你提到的 “增大前景的上下文” 一致，是解决 “视频 - 文本连续性差异” 的关键动作。
QGH 更核心的是 “查询引导的前景定位与特征增强”：文档指出，QGH 是 “基于查询语义的高亮策略”—— 首先通过自注意力将查询特征编码为句子级表示\(h_Q\)（捕捉查询整体语义），再将\(h_Q\)与视频特征拼接，通过 1D 卷积和 Sigmoid 生成 “高亮分数\(S_h\)”（预测每个视频特征属于前景的置信度），最终用\(S_h\)对视频特征加权，得到 “高亮特征\(\tilde{V}^q\)”。这一步的核心是让 “前景扩展” 的区域与查询语义强关联，避免无差别增大上下文（若仅增大上下文而无查询引导，可能引入无关背景噪声），对应解决 “视频 - 文本感知敏感度差异”（引导模型聚焦前景内的细微差异）。

查看全文

http://www.dtcms.com/a/431628.html