当前位置：首页 > news >正文

VAPO：视觉-语言对齐预训练（对象级语义）详解

news 2025/10/16 12:58:32

简介

多模态预训练模型（Vision-Language Pre-training, VLP）近年来取得了飞跃发展。在视觉-语言模型中，模型需要同时理解图像和文本，这要求模型学习二者之间的语义对应关系。早期方法如 VisualBERT、LXMERT 等往往使用预先提取的图像区域特征和文本词嵌入拼接输入，通过 Transformer 融合后在下游任务上微调。这类方法虽然有效，但对跨模态对齐依赖隐式的注意力机制，模型需要从零学习图像区域与文本片段的关联。随着数据和模型规模增长，如何充分利用大规模图文数据进行自监督预训练成为研究热点。

对象级语义对齐被认为是提升多模态模型性能的关键之一。例如，微软研究院提出的 OSCAR 模型通过在图像中引入检测到的对象标签（如图像中有“dog”、文本中有“dog”）作为锚点，大大简化了跨模态语义对齐的学习。这些对象标签将视觉区域和文本单词显式对应起来，使模型更容易地将图像中的具体物体与文本语义对上号。OSCAR 等方法在图文检索、问答等任务上刷新了当时的最佳成绩。随后，CLIP等对比学习框架利用上亿对图文数据对齐全局图像和整句文本表示，获得了出色的零样本能力，但由于只对齐全局信息，缺乏细粒度的对象级对应&#x

查看全文

http://www.dtcms.com/a/200070.html