当前位置：首页 > news >正文

《Seq2Time: Sequential Knowledge Transfer for Video LLMTemporal Grounding》

news 2025/10/12 19:51:03

Seq2Time 中图像序列数据（IS） 和短片段序列数据（CS） 两类自监督训练数据的构建过程与创新点，需从 “数据来源→监督信号自生成→任务设计→序列适配” 全流程拆解，核心是通过 “无人工时间标注” 实现 “序列位置→时间感知” 的知识迁移，以下是详细解析：

一、两类自监督训练数据的构建过程

Seq2Time 的核心思路是：利用静态图像的 “索引 - 字幕关联” 和短视频片段的 “位置 - 事件关联”，构建模拟长视频时间结构的训练数据，让模型从 “学习序列位置” 迁移到 “理解视频时间”。两类数据的构建过程各有侧重，但均遵循 “自监督信号自动生成” 的原则（无需人工标注时间戳或事件边界）。

（一）第一类：图像序列数据（IS）—— 用静态图像的 “索引 - 字幕” 模拟时间定位

图像序列数据的核心是：从高质量图像 - 字幕数据集中抽取图像组成序列，通过设计三类互补的 pretext 任务，强制模型学习 “图像在序列中的索引” 与 “图像字幕内容” 的强关联，从而间接掌握 “位置→内容” 的映射逻辑（对应长视频中 “时间戳→事件内容” 的逻辑）。

1. 数据来源：依托高质量图像 - 文本对齐数据集

选择 LLaVA-ReCap 系列的 3 个公开数据集作为原始数据源，总规模约 370 万张图像，核心优势是图像与字幕的对齐精度高、字幕细节丰富（如物体位置、动作描述明确），为后续 “索引 - 内容关联” 提供可靠基础：

COCO118K：包含 11.8 万张日常场景图像，字幕覆盖物体、动作、场景关系；
BLIP558K：55.8 万张多领域图像（风景、人文、科技），字幕侧重语义完整性；
CC3M：300 万张互联网图像，字幕多样性强，覆盖罕见场景与细粒度动作。

2. 序列构建：固定长度的图像序列，模拟长视频帧序列

为适配视频 LLM 的输入维度（论文中每视频采样 96 帧），将原始图像随机采样为固定长度 96 张的序列（即每个训练样本是 “96 张图像 + 对应 96 条字幕” 的组合）。

采样逻辑：无类别限制（保证场景多样性），但同一序列内避免重复图像（防止模型学习冗余特征）；
序列作用：将静态图像的 “索引”（如第 7 张、第 69 张）模拟为长视频的 “时间戳”（如 7 秒、69 秒），让模型将 “索引定位” 理解为 “时间定位”。

3. 核心：三类 pretext 任务 —— 自生成监督信号

这是图像序列数据构建的关键：通过任务设计，让模型从 “被动学习图像内容” 转为 “主动关联索引与内容”，监督信号来自 “图像索引与已有字幕的对应关系”（无需额外标注）。三类任务分别对应长视频理解的核心能力（时间定位、密集字幕、序列推理）：

任务名称	任务逻辑（输入→输出）	模拟的长视频任务	示例（以 96 张图像序列为例）
图像索引定位（IIG）	输入 “1~5 条图像字幕”，输出 “对应图像在序列中的索引”（单目标 / 多目标）	时间视频定位（TVG）	输入：“描述‘足球运动员围圈庆祝’的字幕”→输出：“图像索引是 < 0><8><3><3>”（对应第 8 张图像）；多目标：输入 2 条字幕→输出 2 个索引
索引图像字幕生成（IIC）	输入 “1~5 个图像索引”，输出 “对应图像的详细字幕”	密集视频字幕（DVC）	输入：“描述索引 < 0><9><3><8 > 的图像”→输出：“该图像显示一只棕色小狗在草地上追逐飞盘，背景有红色花丛”
相邻位置推理（ALR）	输入 “1 条图像字幕”，先定位其索引，再输出 “前 / 后相邻图像的索引 + 字幕”	长视频事件连贯性推理	输入：“找出描述‘倒煮熟的面条’的图像，输出其下一张图像的索引和内容”→输出：“索引 < 8><7><2><9>，描述为‘面条落入碗中，汤汁溅起’”

4. 样本规模与平衡

最终生成 300K 个训练实例，三类任务各占 100K，确保：

任务多样性：避免模型偏向单一能力（如只擅长定位不擅长生成）；
样本均衡性：每个序列最多选择 5 个目标图像（防止单序列内任务过载），且 10 种不同的问答模板（如 “IIG 的提问方式有‘哪张图像匹配描述？’‘找出对应图像的索引’”），提升模型对指令的泛化性。

（二）第二类：短片段序列数据（CS）—— 用短视频片段的 “位置 - 事件” 模拟长视频多事件

短片段序列数据的核心是：将10 秒左右的短视频片段（自带动作标签）组合成 “模拟长视频”，通过 “片段位置→事件内容” 的关联，让模型学习 “多事件在序列中的时序关系”（对应长视频中 “多事件在时间轴上的分布”）。

1. 数据来源：依托动作标注明确的短视频数据集

选择 Kinetics-700 作为原始数据源，该数据集包含 700 个动作类别（如 “投掷标枪”“组装乐高”“雪地摩托”），每个类别有数千个 10 秒左右的短视频片段，核心优势是片段的 “动作标签明确”（为生成高质量字幕提供依据），且片段时长统一（便于后续位置映射）。

2. 关键前置：用 LongVA 生成高质量片段字幕

Kinetics-700 仅提供动作标签（如 “javelin throw”），缺乏详细事件描述，无法直接用于 “内容 - 位置关联”。因此，先通过LongVA（一种长上下文视频字幕模型） 为每个片段生成细粒度字幕，生成逻辑是：

输入：短视频片段 + 动作标签（如 “组装乐高”）；
输出：包含动作细节、场景、物体的字幕（如 “视频展示一双手在白色桌面上组装彩色乐高火车，先拼接车身，再安装车轮和人偶，背景有蓝色收纳盒”）；
作用：将片段的 “动作标签” 升级为 “事件描述”，为后续 “位置 - 内容关联” 提供文本基础，避免字幕质量低导致的学习偏差。

3. 序列构建：非均匀间隔组合片段，模拟真实长视频

将生成字幕的短片段组合成 “模拟长视频”，核心是打破均匀时间间隔（避免模型学习刻板的 “固定间隔事件”，更贴近真实长视频中事件时长不一的特点）：

片段数量：随机选择 2~10 个不同动作类别的片段（如 “组装乐高”“投掷标枪”“雪地摩托”），模拟长视频中的 “多事件场景”；
时间间隔设计：通过调整片段的采样帧率实现非均匀时长，例如：
- 片段 1：采样 16 帧（对应时长≈0~16 秒）；
- 片段 2：采样 28 帧（对应时长≈17~44 秒）；
- 片段 3：采样 41 帧（对应时长≈45~85 秒）；
- 总帧长固定为 96 帧（与图像序列、视频 LLM 输入一致），片段的 “起始 / 结束帧位置” 即模拟长视频的 “起始 / 结束时间戳”。

4. 任务映射：直接对齐长视频下游任务

短片段序列数据的任务设计无需额外 pretext 任务，直接复用长视频的核心任务（密集视频字幕 DVC、时间视频定位 TVG），监督信号来自 “片段的位置（帧范围）” 与 “片段字幕” 的对应关系：

密集视频字幕（DVC）：输入模拟长视频，输出 “每个片段的起始 - 结束位置 + 字幕”（如 “<0><0><0><0>-<1><5><6><2>：组装乐高；<1><6><6><7>-<4><4><7><9>：投掷标枪”）；
时间视频定位（TVG）：输入 “事件描述（如‘雪地摩托’）”，输出 “对应片段的起始 - 结束位置”（如 “<4><5><8><3>-<8><7><5><0>”）；
样本规模：100K 个模拟长视频实例，覆盖 700 个动作类别，确保事件多样性。

二、两类自监督数据构建的核心创新点

Seq2Time 的两类数据构建并非简单 “堆叠图像 / 片段”，而是针对 “长视频时间感知” 的痛点（人工标注稀缺、时间信号难学习），在 “数据利用、监督信号生成、任务适配” 三方面实现突破，具体创新点如下：

（一）图像序列数据（IS）的创新：用静态数据解决动态时间的 “冷启动” 问题

传统视频 LLM 的时间感知依赖 “长视频 + 人工时间戳”，而图像序列数据的创新在于用静态图像的 “索引 - 字幕” 关联，低成本构建 “时间感知的预训练数据”，核心突破 3 点：

1. 创新 1：将 “静态索引” 转化为 “动态时间的代理”

首次提出 “静态图像序列的索引 = 长视频时间戳的代理” 的思路：

长视频的核心是 “时间戳→事件内容” 的映射，而图像序列的核心是 “索引→图像内容” 的映射，二者逻辑一致；
图像序列的优势是 “索引可无限生成”（370 万张图像可生成数百万个 96 帧序列），且 “字幕质量远高于传统视频数据集”（如 LLaVA-ReCap 的字幕比 TimeIT 的视频字幕详细 3 倍以上），解决了 “时间标注稀缺 + 字幕质量低” 的双重痛点。

2. 创新 2：三类 pretext 任务覆盖 “时间感知的全能力维度”

传统自监督图像任务（如旋转预测、掩码重建）仅学习图像特征，而 Seq2Time 设计的三类任务直接对齐长视频的核心能力，实现 “精准迁移”：

IIG 任务：对应 “时间定位”（找事件的时间戳），训练模型 “根据内容找位置”；
IIC 任务：对应 “密集字幕”（给时间戳写事件），训练模型 “根据位置写内容”；
ALR 任务：对应 “事件连贯性”（时间上的前后关联），训练模型 “理解时序逻辑”；
实验验证：仅用图像序列数据训练的 VideoLLaMA（无任何时间预训练），时间定位 F1 score 从 0.2 提升至 3.3，证明 “索引 - 内容关联” 可有效迁移为 “时间感知”。

3. 创新 3：零人工标注，复用现有高质量数据

无需为图像序列标注任何时间信息或事件标签，监督信号完全来自 “图像自带的字幕” 与 “序列随机分配的索引”：

原始图像的字幕是现成资源（如 COCO 的字幕），索引是序列生成时自动分配的（如第 7 张图像索引为 7）；
相比 TimeIT（12.5K 视频需人工标注时间戳，成本极高），图像序列数据可生成 300K 实例，成本降低 99% 以上，且数据规模提升 24 倍。

（二）短片段序列数据（CS）的创新：用 “短片段组合” 模拟长视频的 “多事件时序结构”

短片段序列数据的创新在于填补 “图像序列（静态）” 与 “真实长视频（动态多事件）” 的 gap，让模型学习更贴近实际的时间结构，核心突破 2 点：

1. 创新 1：非均匀间隔组合，还原真实长视频的时间特性

传统短片段拼接（如均匀 10 秒间隔）会让模型学习 “固定时长事件” 的偏见（如认为所有事件都是 10 秒），而 Seq2Time 通过 “可变帧率采样” 实现非均匀间隔：

片段时长从 11 帧（≈0.37 秒）到 41 帧（≈1.37 秒）动态变化，模拟真实长视频中 “短事件（如‘加盐’）” 和 “长事件（如‘煮面’）” 的差异；
实验验证：用非均匀间隔数据训练的模型，在 YouCook2（真实长视频）的 F1 score 比均匀间隔高 12.3%，证明其更适应真实时间结构。

2. 创新 2：LongVA 驱动的 “片段字幕增强”，提升监督信号质量

短视频片段（如 Kinetics-700）仅含动作标签（如 “javelin throw”），无法支撑 “事件 - 时间” 的关联学习，Seq2Time 引入 LongVA 生成细粒度字幕：

生成的字幕包含 “动作细节 + 场景 + 物体”（如 “运动员在红色跑道上投掷标枪，手臂后摆，标枪在空中飞行”），比原始动作标签的信息密度提升 5 倍以上；
对比实验：用 LongVA 字幕训练的模型，CIDEr（字幕质量指标）比用原始动作标签训练高 38.7%，证明高质量文本监督是 “时间 - 内容关联” 的关键。

（三）两类数据的互补创新：从 “静态学习” 到 “动态适配” 的阶梯式迁移

两类数据并非独立，而是形成 “阶梯式训练” 的互补关系，这是 Seq2Time 的核心设计创新：

图像序列数据（IS）：难度更高（定位单张图像 vs 定位多个片段）、字幕质量更高，负责 “打基础”—— 让模型掌握 “位置→内容” 的核心逻辑；
短片段序列数据（CS）：更贴近真实长视频（动态片段 vs 静态图像）、任务更直接（DVC/TVG），负责 “练应用”—— 让模型将 “索引位置” 迁移为 “时间戳”；
实验验证：同时使用两类数据的模型，比单独使用 IS 或 CS 的模型在 YouCook2 F1 score 高 8.9%、Charades-STA R@1 高 6.5%，证明互补性带来的性能增益。

三、总结：两类自监督数据的核心价值

Seq2Time 通过两类自监督数据的构建，彻底解决了传统视频 LLM “依赖人工时间标注” 的痛点：

从 “数据利用” 上：将静态图像（370 万张）和短片段（Kinetics-700）转化为 “模拟长视频数据”，数据规模提升 2 个数量级；
从 “监督信号” 上：无需人工标注时间戳，通过 “索引 - 字幕”“位置 - 事件” 自动生成监督信号，成本降低 99%；
从 “能力迁移” 上：实现 “静态序列位置→动态视频时间” 的知识迁移，最终在 YouCook2（F1+27.6%）、Charades-STA（R@1+17.1%）上实现显著性能提升。

这种 “用现有数据模拟目标场景” 的自监督思路，也为其他需要 “时间 / 空间感知” 的任务（如视频分割、动作检测）提供了可复用的范式。

查看全文

http://www.dtcms.com/a/461473.html