当前位置: 首页 > news >正文

《Seq2Time: Sequential Knowledge Transfer for Video LLMTemporal Grounding》

Seq2Time 中图像序列数据(IS) 和短片段序列数据(CS) 两类自监督训练数据的构建过程与创新点,需从 “数据来源→监督信号自生成→任务设计→序列适配” 全流程拆解,核心是通过 “无人工时间标注” 实现 “序列位置→时间感知” 的知识迁移,以下是详细解析:

一、两类自监督训练数据的构建过程

Seq2Time 的核心思路是:利用静态图像的 “索引 - 字幕关联” 和短视频片段的 “位置 - 事件关联”,构建模拟长视频时间结构的训练数据,让模型从 “学习序列位置” 迁移到 “理解视频时间”。两类数据的构建过程各有侧重,但均遵循 “自监督信号自动生成” 的原则(无需人工标注时间戳或事件边界)。

(一)第一类:图像序列数据(IS)—— 用静态图像的 “索引 - 字幕” 模拟时间定位

图像序列数据的核心是:从高质量图像 - 字幕数据集中抽取图像组成序列,通过设计三类互补的 pretext 任务,强制模型学习 “图像在序列中的索引” 与 “图像字幕内容” 的强关联,从而间接掌握 “位置→内容” 的映射逻辑(对应长视频中 “时间戳→事件内容” 的逻辑)。

1. 数据来源:依托高质量图像 - 文本对齐数据集

选择 LLaVA-ReCap 系列的 3 个公开数据集作为原始数据源,总规模约 370 万张图像,核心优势是图像与字幕的对齐精度高、字幕细节丰富(如物体位置、动作描述明确),为后续 “索引 - 内容关联” 提供可靠基础:

  • COCO118K:包含 11.8 万张日常场景图像,字幕覆盖物体、动作、场景关系;
  • BLIP558K:55.8 万张多领域图像(风景、人文、科技),字幕侧重语义完整性;
  • CC3M:300 万张互联网图像,字幕多样性强,覆盖罕见场景与细粒度动作。
2. 序列构建:固定长度的图像序列,模拟长视频帧序列

为适配视频 LLM 的输入维度(论文中每视频采样 96 帧),将原始图像随机采样为固定长度 96 张的序列(即每个训练样本是 “96 张图像 + 对应 96 条字幕” 的组合)。

  • 采样逻辑:无类别限制(保证场景多样性),但同一序列内避免重复图像(防止模型学习冗余特征);
  • 序列作用:将静态图像的 “索引”(如第 7 张、第 69 张)模拟为长视频的 “时间戳”(如 7 秒、69 秒),让模型将 “索引定位” 理解为 “时间定位”。
3. 核心:三类 pretext 任务 —— 自生成监督信号

这是图像序列数据构建的关键:通过任务设计,让模型从 “被动学习图像内容” 转为 “主动关联索引与内容”,监督信号来自 “图像索引与已有字幕的对应关系”(无需额外标注)。三类任务分别对应长视频理解的核心能力(时间定位、密集字幕、序列推理):

任务名称任务逻辑(输入→输出)模拟的长视频任务示例(以 96 张图像序列为例)
图像索引定位(IIG)输入 “1~5 条图像字幕”,输出 “对应图像在序列中的索引”(单目标 / 多目标)时间视频定位(TVG)输入:“描述‘足球运动员围圈庆祝’的字幕”→输出:“图像索引是 < 0><8><3><3>”(对应第 8 张图像);多目标:输入 2 条字幕→输出 2 个索引
索引图像字幕生成(IIC)输入 “1~5 个图像索引”,输出 “对应图像的详细字幕”密集视频字幕(DVC)输入:“描述索引 < 0><9><3><8 > 的图像”→输出:“该图像显示一只棕色小狗在草地上追逐飞盘,背景有红色花丛”
相邻位置推理(ALR)输入 “1 条图像字幕”,先定位其索引,再输出 “前 / 后相邻图像的索引 + 字幕”长视频事件连贯性推理输入:“找出描述‘倒煮熟的面条’的图像,输出其下一张图像的索引和内容”→输出:“索引 < 8><7><2><9>,描述为‘面条落入碗中,汤汁溅起’”
4. 样本规模与平衡

最终生成 300K 个训练实例,三类任务各占 100K,确保:

  • 任务多样性:避免模型偏向单一能力(如只擅长定位不擅长生成);
  • 样本均衡性:每个序列最多选择 5 个目标图像(防止单序列内任务过载),且 10 种不同的问答模板(如 “IIG 的提问方式有‘哪张图像匹配描述?’‘找出对应图像的索引’”),提升模型对指令的泛化性。

(二)第二类:短片段序列数据(CS)—— 用短视频片段的 “位置 - 事件” 模拟长视频多事件

短片段序列数据的核心是:将10 秒左右的短视频片段(自带动作标签)组合成 “模拟长视频”,通过 “片段位置→事件内容” 的关联,让模型学习 “多事件在序列中的时序关系”(对应长视频中 “多事件在时间轴上的分布”)。

1. 数据来源:依托动作标注明确的短视频数据集

选择 Kinetics-700 作为原始数据源,该数据集包含 700 个动作类别(如 “投掷标枪”“组装乐高”“雪地摩托”),每个类别有数千个 10 秒左右的短视频片段,核心优势是片段的 “动作标签明确”(为生成高质量字幕提供依据),且片段时长统一(便于后续位置映射)。

2. 关键前置:用 LongVA 生成高质量片段字幕

Kinetics-700 仅提供动作标签(如 “javelin throw”),缺乏详细事件描述,无法直接用于 “内容 - 位置关联”。因此,先通过LongVA(一种长上下文视频字幕模型) 为每个片段生成细粒度字幕,生成逻辑是:

  • 输入:短视频片段 + 动作标签(如 “组装乐高”);
  • 输出:包含动作细节、场景、物体的字幕(如 “视频展示一双手在白色桌面上组装彩色乐高火车,先拼接车身,再安装车轮和人偶,背景有蓝色收纳盒”);
  • 作用:将片段的 “动作标签” 升级为 “事件描述”,为后续 “位置 - 内容关联” 提供文本基础,避免字幕质量低导致的学习偏差。
3. 序列构建:非均匀间隔组合片段,模拟真实长视频

将生成字幕的短片段组合成 “模拟长视频”,核心是打破均匀时间间隔(避免模型学习刻板的 “固定间隔事件”,更贴近真实长视频中事件时长不一的特点):

  • 片段数量:随机选择 2~10 个不同动作类别的片段(如 “组装乐高”“投掷标枪”“雪地摩托”),模拟长视频中的 “多事件场景”;
  • 时间间隔设计:通过调整片段的采样帧率实现非均匀时长,例如:
    • 片段 1:采样 16 帧(对应时长≈0~16 秒);
    • 片段 2:采样 28 帧(对应时长≈17~44 秒);
    • 片段 3:采样 41 帧(对应时长≈45~85 秒);
    • 总帧长固定为 96 帧(与图像序列、视频 LLM 输入一致),片段的 “起始 / 结束帧位置” 即模拟长视频的 “起始 / 结束时间戳”。
4. 任务映射:直接对齐长视频下游任务

短片段序列数据的任务设计无需额外 pretext 任务,直接复用长视频的核心任务(密集视频字幕 DVC、时间视频定位 TVG),监督信号来自 “片段的位置(帧范围)” 与 “片段字幕” 的对应关系:

  • 密集视频字幕(DVC):输入模拟长视频,输出 “每个片段的起始 - 结束位置 + 字幕”(如 “<0><0><0><0>-<1><5><6><2>:组装乐高;<1><6><6><7>-<4><4><7><9>:投掷标枪”);
  • 时间视频定位(TVG):输入 “事件描述(如‘雪地摩托’)”,输出 “对应片段的起始 - 结束位置”(如 “<4><5><8><3>-<8><7><5><0>”);
  • 样本规模:100K 个模拟长视频实例,覆盖 700 个动作类别,确保事件多样性。

二、两类自监督数据构建的核心创新点

Seq2Time 的两类数据构建并非简单 “堆叠图像 / 片段”,而是针对 “长视频时间感知” 的痛点(人工标注稀缺、时间信号难学习),在 “数据利用、监督信号生成、任务适配” 三方面实现突破,具体创新点如下:

(一)图像序列数据(IS)的创新:用静态数据解决动态时间的 “冷启动” 问题

传统视频 LLM 的时间感知依赖 “长视频 + 人工时间戳”,而图像序列数据的创新在于用静态图像的 “索引 - 字幕” 关联,低成本构建 “时间感知的预训练数据”,核心突破 3 点:

1. 创新 1:将 “静态索引” 转化为 “动态时间的代理”

首次提出 “静态图像序列的索引 = 长视频时间戳的代理” 的思路:

  • 长视频的核心是 “时间戳→事件内容” 的映射,而图像序列的核心是 “索引→图像内容” 的映射,二者逻辑一致;
  • 图像序列的优势是 “索引可无限生成”(370 万张图像可生成数百万个 96 帧序列),且 “字幕质量远高于传统视频数据集”(如 LLaVA-ReCap 的字幕比 TimeIT 的视频字幕详细 3 倍以上),解决了 “时间标注稀缺 + 字幕质量低” 的双重痛点。
2. 创新 2:三类 pretext 任务覆盖 “时间感知的全能力维度”

传统自监督图像任务(如旋转预测、掩码重建)仅学习图像特征,而 Seq2Time 设计的三类任务直接对齐长视频的核心能力,实现 “精准迁移”:

  • IIG 任务:对应 “时间定位”(找事件的时间戳),训练模型 “根据内容找位置”;
  • IIC 任务:对应 “密集字幕”(给时间戳写事件),训练模型 “根据位置写内容”;
  • ALR 任务:对应 “事件连贯性”(时间上的前后关联),训练模型 “理解时序逻辑”;
  • 实验验证:仅用图像序列数据训练的 VideoLLaMA(无任何时间预训练),时间定位 F1 score 从 0.2 提升至 3.3,证明 “索引 - 内容关联” 可有效迁移为 “时间感知”。
3. 创新 3:零人工标注,复用现有高质量数据

无需为图像序列标注任何时间信息或事件标签,监督信号完全来自 “图像自带的字幕” 与 “序列随机分配的索引”:

  • 原始图像的字幕是现成资源(如 COCO 的字幕),索引是序列生成时自动分配的(如第 7 张图像索引为 7);
  • 相比 TimeIT(12.5K 视频需人工标注时间戳,成本极高),图像序列数据可生成 300K 实例,成本降低 99% 以上,且数据规模提升 24 倍。

(二)短片段序列数据(CS)的创新:用 “短片段组合” 模拟长视频的 “多事件时序结构”

短片段序列数据的创新在于填补 “图像序列(静态)” 与 “真实长视频(动态多事件)” 的 gap,让模型学习更贴近实际的时间结构,核心突破 2 点:

1. 创新 1:非均匀间隔组合,还原真实长视频的时间特性

传统短片段拼接(如均匀 10 秒间隔)会让模型学习 “固定时长事件” 的偏见(如认为所有事件都是 10 秒),而 Seq2Time 通过 “可变帧率采样” 实现非均匀间隔:

  • 片段时长从 11 帧(≈0.37 秒)到 41 帧(≈1.37 秒)动态变化,模拟真实长视频中 “短事件(如‘加盐’)” 和 “长事件(如‘煮面’)” 的差异;
  • 实验验证:用非均匀间隔数据训练的模型,在 YouCook2(真实长视频)的 F1 score 比均匀间隔高 12.3%,证明其更适应真实时间结构。
2. 创新 2:LongVA 驱动的 “片段字幕增强”,提升监督信号质量

短视频片段(如 Kinetics-700)仅含动作标签(如 “javelin throw”),无法支撑 “事件 - 时间” 的关联学习,Seq2Time 引入 LongVA 生成细粒度字幕:

  • 生成的字幕包含 “动作细节 + 场景 + 物体”(如 “运动员在红色跑道上投掷标枪,手臂后摆,标枪在空中飞行”),比原始动作标签的信息密度提升 5 倍以上;
  • 对比实验:用 LongVA 字幕训练的模型,CIDEr(字幕质量指标)比用原始动作标签训练高 38.7%,证明高质量文本监督是 “时间 - 内容关联” 的关键。

(三)两类数据的互补创新:从 “静态学习” 到 “动态适配” 的阶梯式迁移

两类数据并非独立,而是形成 “阶梯式训练” 的互补关系,这是 Seq2Time 的核心设计创新:

  1. 图像序列数据(IS):难度更高(定位单张图像 vs 定位多个片段)、字幕质量更高,负责 “打基础”—— 让模型掌握 “位置→内容” 的核心逻辑;
  2. 短片段序列数据(CS):更贴近真实长视频(动态片段 vs 静态图像)、任务更直接(DVC/TVG),负责 “练应用”—— 让模型将 “索引位置” 迁移为 “时间戳”;
  3. 实验验证:同时使用两类数据的模型,比单独使用 IS 或 CS 的模型在 YouCook2 F1 score 高 8.9%、Charades-STA R@1 高 6.5%,证明互补性带来的性能增益。

三、总结:两类自监督数据的核心价值

Seq2Time 通过两类自监督数据的构建,彻底解决了传统视频 LLM “依赖人工时间标注” 的痛点:

  • 从 “数据利用” 上:将静态图像(370 万张)和短片段(Kinetics-700)转化为 “模拟长视频数据”,数据规模提升 2 个数量级;
  • 从 “监督信号” 上:无需人工标注时间戳,通过 “索引 - 字幕”“位置 - 事件” 自动生成监督信号,成本降低 99%;
  • 从 “能力迁移” 上:实现 “静态序列位置→动态视频时间” 的知识迁移,最终在 YouCook2(F1+27.6%)、Charades-STA(R@1+17.1%)上实现显著性能提升。

这种 “用现有数据模拟目标场景” 的自监督思路,也为其他需要 “时间 / 空间感知” 的任务(如视频分割、动作检测)提供了可复用的范式。

http://www.dtcms.com/a/461473.html

相关文章:

  • 山东省建设部网站官网网站备案审核通过后
  • 浏览器兼容性问题处理
  • Day 09(下) B2a实例解说----exampleB2a.cc+ActionInitialization+PrimaryGeneratorAction
  • 分布式锁:Redisson的可重入锁
  • 计算机硬件相关(AI回答)
  • 网站设计中的用户体验大型网站需要什么样的团队
  • 淘宝网站开发方式网站托管 济南
  • 重庆网站seo案例网站推广用什么方法最好
  • sql报错:java.sql.SQLSyntaxErrorException: Unknown column ‘as0‘ in ‘where clause‘
  • 做网站是什么公司做陶瓷公司网站
  • CentOS 7上安装SonarQube8.9
  • 遗留系统微服务改造(二):数据迁移实战攻略与一致性保证
  • IO操作(Num22)
  • 领码方案|微服务与SOA的世纪对话(6):组织跃迁——智能架构下的团队与文化变革
  • 怎么什么软件可以吧做网站网站被百度收录很重要
  • C++ 单例模式(Singleton)详解
  • 面向未来的数据平台
  • C++5d
  • Transformer实战(21)——文本表示(Text Representation)
  • 网站空间商 权限梵克雅宝
  • 【Vue 3 】——setup、ref、watch
  • 做期货网站违法的吗淄博市住房和城乡建设局网站
  • 使用feign进行远程调用出现的问题(文件服务参数接收为null)
  • 国自然·医工交叉热点|通用医学影像分割基础模型与数据库
  • React Native:关于react自定义css属性的位置
  • 对于el-table中自定义表头中添加el-popover会弹出两个的解决方案,分别针对固定列和非固定列来隐藏最后一个浮框。
  • 电子商务公司简介系统清理优化工具
  • 内网渗透实战:红队作战全解析
  • Verilog和FPGA的自学笔记4——多路选择器1(always语句)
  • 前端架构师,是架构什么