当前位置: 首页 > wzjs >正文

网站在线留言婚庆摄影网站模板

网站在线留言,婚庆摄影网站模板,企业展示网站源码,wordpress电话注册文章目录 ALPRO:一种新的视频 - 语言预训练框架一、研究背景与问题现有方法的不足 二、方法介绍ALPRO 框架概述关键技术细节 算法模型三、实验结果数据集下游任务评估 四、结论与未来工作贡献未来方向 ALPRO:一种新的视频 - 语言预训练框架 提出了一种新…

文章目录

  • ALPRO:一种新的视频 - 语言预训练框架
    • 一、研究背景与问题
      • 现有方法的不足
    • 二、方法介绍
      • ALPRO 框架概述
      • 关键技术细节
    • 算法模型
    • 三、实验结果
      • 数据集
      • 下游任务评估
    • 四、结论与未来工作
      • 贡献
      • 未来方向

ALPRO:一种新的视频 - 语言预训练框架

提出了一种新的视频 - 语言预训练框架 ALPRO,该框架对稀疏采样的视频帧进行操作,无需显式的对象检测器即可实现更有效的跨模态对齐,并在文本 - 视频检索和视频问答任务上取得了最先进的性能。

论文链接:https://arxiv.org/pdf/2112.09583

一、研究背景与问题

现有方法的不足

  • 大多数先前方法使用基于 Transformer 的多模态编码器捕获跨模态交互,但未充分解决单模态视频和文本特征之间的错位问题。
  • 学习细粒度的视觉 - 语言对齐通常需要现成的对象检测器来提供对象信息,但受限于检测器有限的词汇量和昂贵的计算成本。
  • 视频特性带来的挑战:视频中连续帧通常包含更多冗余信息,这对模型的容量和计算效率都提出了挑战。

二、方法介绍

ALPRO 框架概述

  • 架构:由视频 - 语言预训练模型和提示器组成。预训练模型包含时空视频编码器、文本编码器和多模态编码器;提示器用于生成软实体标签,以监督视频 - 语言模型的预训练。
  • 核心创新:引入视频 - 文本对比损失(VTC)和提示实体建模(PEM)任务,以加强实例级和细粒度区域 - 实体级的跨模态对齐。

关键技术细节

  • 视频 - 文本对比损失(VTC):在实例级别对齐单模态视频 - 文本特征,通过优化视频和文本 [CLS] 标记的embedding 相似度,使配对的视频 - 文本实例具有相似的表示。
  • 提示实体建模(PEM):通过提示器模块以自监督方式学习视觉区域和文本实体之间的细粒度对齐。提示器使用 VTC 损失预训练后冻结参数,通过计算视频作物与文本提示的相似度生成软实体标签,用于监督预训练。
  • 预训练目标:包括 VTC 损失、PEM 损失、掩码语言建模(MLM)和视频 - 文本匹配(VTM)损失。

算法模型

在这里插入图片描述
1)Video Encoder
先在帧内的patch之间进行self-attenion,然后再进行时序融合,输出特征为
在这里插入图片描述
2) Text Encoder
类似ALBEF,将bert的bottom-6层作为text encoder(top-6层作为fusion encoder),输出特征为
在这里插入图片描述
3) PEM 结构
尽管MLM已经证明了其在学习token级文本表示方面的有效性,但设计visually-grounded的任务仍然是一个挑战。因此,视觉推理的有限能力对以前在下游任务上的工作产生了不利影响,尤其是那些需要区域级视觉信息的任务。这对于现有的视频语言预训练模型来说尤其是一个问题,它通常在pooling只保留粗粒度的空间信息,从而丢失细粒度的视觉线索。

ActBERT使用现成的目标校检测器来获取区域特征。除了效率低下之外,使用图像训练的检测器往往会在视频输入上产生不可靠的检测结果。此外,检测器通常使用受限的目标类别(例如,小于 100)进行训练,限制模型的性能。

作者引入了提示实体建模(PEM),用一句话来解释就是参考CLIP,获取视频中出现的视觉元素,作为一个额外的分类监督信号。视觉元素的语料规模主要由名词数目来决定。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、实验结果

数据集

  • 使用 WebVid-2M 和 CC-3M 进行预训练,共 550 万视频 - 文本对。

下游任务评估

  • 文本 - 视频检索:在 MSRVTT 和 DiDeMo 数据集上,ALPRO 在微调和零样本设置下均显著优于先前方法。例如,在 MSRVTT 微调检索中,R1 得分达到 33.9%,比之前的 SOTA 提高了约 3%。
  • 视频问答:在 MSRVTT-QA 和 MSVD-QA 数据集上,ALPRO 的准确率分别为 42.1% 和 45.9%,超过了许多现有方法。
  • 消融实验:验证了 VTC 和 PEM 的有效性,以及提示工程、实体数量和输入帧数等因素对模型性能的影响。
    -在这里插入图片描述

四、结论与未来工作

贡献

  • 提出 ALPRO 框架,首次从稀疏视频帧和文本中学习有效的跨模态表示。
  • 引入 VTC 损失以更好地对齐实例级单模态表示,提出 PEM 任务以捕获细粒度区域 - 实体对齐。
  • 在多个下游任务上取得了最先进的性能。

未来方向

  • 更好的提示工程。
  • 考虑时间信息的提示引导区域选择。
  • 将 ALPRO 扩展到图像 - 文本表示学习等。
http://www.dtcms.com/wzjs/827943.html

相关文章:

  • 商城设计app网站建设梅州网站建
  • 侗族网站建设优化网站及商品排名怎么做
  • 做企业平台的网站有哪些有人看免费的视频吗
  • 网站尺寸建筑行业的公司有哪些
  • 网站商城维护怎么做网页美工课程
  • 网站备案怎么取消wordpress会员积分
  • 单位门户网站怎么做宿迁房价下跌最惨小区
  • 网站开发公司创业策划网站的数据库空间价格
  • 房产网站运营方案网站编辑怎么做内容分类
  • 公司建网站要多少钱钓鱼网站网址
  • 用php做网站的书籍左侧 导航 网站
  • 南充建设机械网站无锡专业网站制作的公司
  • 网上有哪些网站做兼职四川省住建厅官方网站
  • 本地网站建设流程交易类网站建设功能表
  • 潼南国外免费自助建站好的制造公司站制作
  • 网站制作产品优化自己做网站卖机器设备
  • 网站后台什么语汕头门户网站
  • 深圳网站建设机构wordpress获得当前文章的相关文章
  • 漳州建网站建设网站企业排行
  • 怎样在网站图片做超级链接洛谷网站中小玉文具怎么做
  • 学校资源网站建设方案wordpress 定制搜索
  • 医疗网站建设信息网站建设项目的网络图
  • 学校网站需求建站之星模板好吗
  • 建设网站西安香格里拉网站建设
  • 住房和城乡建设厅网站青海省215做网站
  • 手机网站价格仪征做网站
  • 怎么样才能自己做网站打广告手机建立网站的软件
  • 要建设一个网站网站建设与维护 技能
  • 西安免费网站搭建制作引擎搜索入口
  • 保定网站推广怎么做网站设