AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.25-2024.11.30
文章目录~
- 1.Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
- 2.ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models
- 3.Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training
- 4.MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks
- 5.Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
- 6.Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs
- 7.ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering?
- 8.TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability
- 9.From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects
- 10.DHCP: Detecting Hallucinations by Cross-modal Attention Pattern in Large Vision-Language Models
- 11.Verbalized Representation Learning for Interpretable Few-Shot Generalization
- 12.Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting
- 13.SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation
- 14.HyperSeg: Towards Universal Visual Segmentation with Large Language Model
- 15.Efficient Multi-modal Large Language Models via Visual Token Grouping
- 16.Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation
- 17.Free 2 ^2 2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
- 18.Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation
1.Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
标题:通过多模态链接破解大型视觉语言模型
author:Yu Wang, Xiaofei Zhou, Yichen Wang, Geyuan Zhang, Tianxing He
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00473v3
摘要:
随着大型视觉语言模型(VLM)的长足发展,人们对其潜在误用和滥用的担忧也迅速增加。以前的研究已经强调了 VLM 易受越狱攻击的问题,在越狱攻击中,精心设计的输入会导致模型生成违反道德和法律标准的内容。然而,由于有害内容的过度曝光和缺乏隐蔽的恶意引导,现有的方法在与 GPT-4o 等最先进的 VLMs 的对抗中举步维艰。在这项工作中,我们提出了一种新型越狱攻击框架:多模式链接(MML)攻击。MML 从密码学中汲取灵感,利用跨文本和图像模式的加密-解密过程来减少恶意信息的过度曝光。为了使模型的输出与恶意意图隐蔽地保持一致,MML 采用了一种称为 "邪恶对齐 "的技术,将攻击定格在视频游戏制作场景中。综合实验证明了 MML 的有效性。具体来说,MML越狱了GPT-4o,在SafeBench上的攻击成功率为97.80%,在MM-SafeBench上的攻击成功率为98.81%,在HADES-Dataset上的攻击成功率为99.07%。我们的代码见 https://github.com/wangyu-ovo/MML
2.ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models
标题:ATP-LaVA:大型视觉语言模型的自适应标记修剪
author:Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang
publish:11 pages, 4 figures
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00447v1
摘要:
大型视觉语言模型(LVLM)在多模态任务中取得了巨大成功。然而,在资源有限的设备上,处理长视觉标记的计算成本可能过于昂贵。以前的方法已经在大型语言模型(LLM)解码器层中识别出了视觉标记的冗余,并通过使用预定义或固定比例修剪标记来缓解这一问题,从而降低了计算开销。然而,我们发现剪枝比例对不同 LLM 层和实例(图像-提示对)的影响各不相同。因此,有必要开发一种分层和分实例的视觉标记剪枝策略,以有效平衡计算成本和模型性能。我们提出的 ATP-LLaVA 是一种新颖的方法,可为每个 LLM 层自适应地确定特定实例的标记剪枝比率。具体来说,我们引入了自适应标记剪枝(ATP)模块,该模块根据输入实例自适应地计算重要性得分和剪枝阈值。ATP 模块可在任意两个 LLM 层之间无缝集成,计算开销可忽略不计。此外,我们还开发了一种空间增强剪枝(Space Augmented Pruning,SAP)策略,从标记冗余和空间建模两个角度剪枝视觉标记。在保持性能的同时,我们的方法将平均标记数减少了 75%,在七个广泛使用的基准测试中,性能仅下降了 1.9%。项目页面可通过 https://yxxxb.github.io/ATP-LLaVA-page/ 访问。
3.Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training
标题:从 "近视 "到 “整体”:完全对比的语言-图像预培训
author:Haicheng Wang, Chen Ju, Weixiong Lin, Shuai Xiao, Mengting Chen, Yixuan Huang, Chang Liu, Mingshuai Yao, Jinsong Lan, Ying Chen, Qingwen Liu, Yanfeng Wang
date Time:2024-11-30
paper pdf:http://arxiv.org/pdf/2412.00440v1
摘要:
在快速发展的视觉语言模型(VLMs)领域,对比语言图像预训练(CLIP)取得了长足进步,成为各种下游任务的基础。然而,依靠一对一(图像、文本)对比范式从大规模杂乱无章的网络数据中学习配准,CLIP 面临着严重的近视困境,导致其偏向于单调的短文和浅层的视觉表达。为了克服这些问题,本文通过更新多样化数据和对齐优化,将 CLIP 提升为一种新型的整体范式。为了以较低的成本获得丰富多彩的数据,我们使用图像到文本的标题,从多个角度、粒度和层次为每张图像生成多文本。为鼓励文本多样性,我们提出了两个小工具。为了匹配这些(图像、多文本)对,我们将 CLIP 图像编码器修改为多分支,并为图像-文本部分-部分匹配提出了多对多对比优化。因此,每幅图像都能学习到不同的视觉嵌入,从而带来良好的可解释性和通用性。在十多项基准测试中进行的大量实验和分析表明,我们的整体CLIP在图像-文本检索、开放词汇分类和密集视觉任务等方面明显优于现有的近视CLIP。
4.MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks
标题:MoTe:为多代任务学习运动-文本扩散模型
author:Yiming Wu, Wei Ji, Kecheng Zheng, Zicheng Wang, Dong Xu
publish:Five figures, six tables
date Time:2024-11-29
paper pdf:http://arxiv.org/pdf/2411.19786v1
摘要:
最近,由于去噪扩散模型和大语言模型等启发性生成模型的出现,人类运动分析得到了极大的改进。而现有的方法主要集中在根据文本描述生成动作,忽略了对等任务。在本文中,我们提出了一种统一的多模态模型–MoTe,它可以通过同时学习运动和文本的边际分布、条件分布和联合分布来处理不同的任务。只需修改输入上下文,MoTe 就能让我们处理成对的文本-动作生成、动作字幕和文本驱动的动作生成。具体来说,MoTe 由三个部分组成:运动编码解码器(MED)、文本编码解码器(TED)和文本运动扩散模型(MTDM)。其中,MED 和 TED 经过训练后可提取潜在的嵌入,然后分别从提取的嵌入中重建运动序列和文本描述。另一方面,MTDM 对输入上下文执行迭代去噪过程,以处理各种任务。在基准数据集上的实验结果表明,我们提出的方法在文本到运动生成方面性能优越,在运动字幕方面也具有竞争力。
5.Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
标题:与 DINO 对话:将自监督视觉骨干与语言连接起来,实现开放式词汇分割
author:Luca Barsellotti, Lorenzo Bianchi, Nicola Messina, Fabio Carrara, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Rita Cucchiara
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.19331v1
摘要:
开放式词汇分割(OVS)旨在从自由形式的文本概念中分割图像,而无需预定义的训练类别。虽然现有的视觉语言模型(如 CLIP)可以利用视觉转换器(Vision Transformers)提供的粗略空间信息生成分割掩码,但由于它们对图像和文本特征进行了全局对齐,因此在空间定位方面面临挑战。相反,像 DINO 这样的自监督视觉模型在细粒度视觉编码方面表现出色,但缺乏与语言的整合。为了弥合这一差距,我们提出了 Talk2DINO,这是一种新颖的混合方法,将 DINOv2 的空间准确性与 CLIP 的语言理解能力相结合。我们的方法通过学习到的映射函数,将 CLIP 的文本嵌入与 DINOv2 的片段级特征相匹配,而无需对底层骨架进行微调。在训练时,我们利用 DINOv2 的注意力图谱,有选择性地将局部视觉斑块与文本嵌入对齐。我们的研究表明,Talk2DINO 强大的语义和定位能力可以增强分割过程,使分割结果更自然、噪声更小,而且我们的方法还能有效地区分前景物体和背景。实验结果表明,Talk2DINO 在多个无监督 OVS 基准测试中取得了最先进的性能。源代码和模型可在以下网址公开获取:https://lorebianchi98.github.io/Talk2DINO/。
6.Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs
标题:超越对数透镜:用于 VLM 中鲁棒性幻觉检测和接地的上下文嵌入
author:Anirudh Phukan, Divyansh, Harshit Kumar Morj, Vaishnavi, Apoorv Saxena, Koustava Goswami
date Time:2024-11-28
paper pdf:http://arxiv.org/pdf/2411.19187v1
摘要:
通过利用大型语言模型(LLM)的语言能力并整合特定模态编码器,大型多模态模型(LMM)的快速发展极大地推动了多模态理解。然而,LMM 受到幻觉的困扰,限制了其可靠性和应用。检测和减少这些幻觉的传统方法往往涉及昂贵的训练或严重依赖外部模型,而最近利用内部模型特征的方法则是一种很有前途的替代方法。在本文中,我们严格评估了最先进的免训练技术–Logit 透镜–在处理广义视幻觉方面的局限性。我们介绍了一种利用 LMM 中间层的上下文标记嵌入的改进方法。这种方法大大提高了包括动作和 OCR 在内的各种类别的幻觉检测和接地能力,同时在空间关系和属性比较等需要上下文理解的任务中也表现出色。我们新颖的接地技术产生了高度精确的边界框,促进了从 "零镜头物体分割 "到 "接地视觉问题解答 "的过渡。我们的贡献为建立更可靠、更可解释的多模态模型铺平了道路。
7.ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering?
标题:ElectroVizQA:多模态 LLM 在电子视觉问题解答中的表现如何?
author:Pragati Shuddhodhan Meshram, Swetha Karthikeyan, Bhavya, Suma Bhat
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2412.00102v1
摘要:
多模态大型语言模型(MLLMs)因其处理多模态数据的能力而备受关注,它们能够增强对复杂问题的上下文理解。多模态大语言模型在视觉问题解答(VQA)等任务中表现出了非凡的能力;然而,它们在处理基本工程问题时往往力不从心,而且在数字电子学等主题方面,用于训练的专业数据集非常稀缺。为了填补这一空白,我们提出了一个名为 ElectroVizQA 的基准数据集,专门用于评估 MLLM 在本科生课程中常见的数字电子电路问题上的表现。该数据集是首个专为数字电子学 VQA 任务定制的数据集,包含约 626 个可视化问题,全面概述了数字电子学主题。本文对 MLLMs 理解和解决数字电子电路问题的能力进行了严格评估,深入探讨了 MLLMs 在这一专业领域的能力和局限性。通过介绍这个基准数据集,我们旨在激励在工程教育中应用 MLLM 的进一步研究和开发,最终缩小性能差距,提高这些模型在技术领域的功效。
8.TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability
标题:TimeMarker:用于理解长视频和短视频的多功能视频 LLM,具有卓越的时间定位能力
author:Shimin Chen, Xiaohan Lan, Yitian Yuan, Zequn Jie, Lin Ma
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18211v1
摘要:
大型语言模型(LLM)的快速发展极大地推动了多模态大型语言模型(LMM)的发展,尤其是在视觉语言任务方面。然而,现有的视频语言模型往往忽略了精确的时间定位,在处理不同长度的视频时也很吃力。我们介绍的 TimeMarker 是一种多功能视频语言模型,专为基于视频内容的高质量对话而设计,强调时间定位。TimeMarker 集成了时间分隔标记,以增强时间意识,准确标记视频中的特定时刻。它采用 AnyLength 机制进行动态帧采样和自适应标记合并,能有效处理长短视频。此外,TimeMarker 还利用各种数据集,包括进一步转换的与时间相关的视频质量保证数据集,来增强其时间理解能力。此外,还采用了图像和交错数据来进一步增强模型的语义感知能力。评估结果表明,TimeMarker 在多个基准测试中取得了最先进的性能,在短视频和长视频类别中均表现出色。我们的项目页面是 \url{https://github.com/TimeMarker-LLM/TimeMarker/}。
9.From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects
标题:从开放词汇到开放世界:教视觉语言模型检测新奇物体
author:Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18207v2
摘要:
传统的物体检测方法是在封闭集假设下运行的,即模型只能检测训练集中预定义的固定数量的物体。最近关于开放词汇对象检测(OVD)的研究成果实现了对无限制词汇定义的对象的检测,从而降低了针对特定任务训练模型的成本。然而,OVD 严重依赖于 "oracle "提供的准确提示,这限制了其在驾驶场景感知等关键应用中的使用。OVD 模型往往会误分与已知类别语义相似的近距离分布(NOOD)对象,而忽略远距离分布(FOOD)对象。为了解决这些局限性,我们提出了一个框架,通过识别和逐步学习新对象,使 OVD 模型能够在开放世界环境中运行。为了检测 FOOD 对象,我们提出了开放世界嵌入式学习(Open World Embedding Learning,OWEL),并引入了伪未知嵌入(Pseudo Unknown Embedding)的概念,即根据已知类别的信息推断未知类别在连续语义空间中的位置。我们还提出了多尺度对比锚点学习(MSCAL),通过促进不同尺度对象嵌入的类内一致性来识别分类错误的未知对象。所提出的方法在常见的开放世界物体检测和自动驾驶基准测试中取得了一流的性能。
10.DHCP: Detecting Hallucinations by Cross-modal Attention Pattern in Large Vision-Language Models
标题:DHCP:在大型视觉语言模型中通过跨模态注意模式检测幻觉
author:Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Zhanhui kang, Yu Wang
publish:18 pages, 5 figures
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18659v1
摘要:
大型视觉语言模型(LVLM)在复杂的多模态任务中表现出了卓越的性能。然而,它们仍然存在严重的幻觉问题,包括物体、属性和关系幻觉。为了准确检测这些幻觉,我们研究了幻觉和非幻觉状态下跨模态注意力模式的变化。利用这些区别,我们开发了一种能够识别幻觉的轻量级检测器。我们提出的方法–通过跨模态注意模式检测幻觉(DHCP)–简单明了,不需要额外的 LVLM 训练或额外的 LVLM 推断步骤。实验结果表明,DHCP 在幻觉检测方面表现出色。通过对 LVLM 中幻觉的识别和分析提供新的见解,DHCP 为提高这些模型的可靠性和可信度做出了贡献。
11.Verbalized Representation Learning for Interpretable Few-Shot Generalization
标题:为可解释的少数几次泛化进行语言表征学习
author:Cheng-Fu Yang, Da Yin, Wenbo Hu, Nanyun Peng, Bolei Zhou, Kai-Wei Chang
date Time:2024-11-27
paper pdf:http://arxiv.org/pdf/2411.18651v1
摘要:
人类只需观察几个例子就能识别物体,这种非凡的能力得益于他们对现实世界环境固有的语言理解能力。开发语言化和可解释的表征可以显著提高低数据环境下的模型泛化能力。在这项工作中,我们提出了口语化表征学习(VRL),这是一种利用少量数据自动提取人类可解释的物体识别特征的新方法。我们的方法采用视觉语言模型(VLM)来识别不同类别之间的关键识别特征和同一类别内的共享特征,从而以自然语言的形式独特地捕捉类别间的差异和类别内的共性。然后通过视觉语言模型将这些语言特征映射为数字向量。由此产生的特征向量可进一步用于下游分类器的训练和推断。实验结果表明,在相同的模型规模下,VRL 比之前最先进的方法实现了 24% 的绝对改进,同时使用的数据减少了 95%,模式也更小。此外,与人类标记的属性相比,VRL 学习到的特征在用于下游分类任务时有 20% 的绝对增益。代码见:https://github.com/joeyy5588/VRL/tree/main。
12.Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting
标题:用感知场注意加权法提示 LLM,突破多模态情感识别的极限
author:Liyun Zhang, Dian Ding, Yu Lu, Yi-Chao Chen, Guangtao Xue
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17674v1
摘要:
理解对话中的情感通常需要外部知识来准确理解对话内容。随着 LLM 的功能越来越强大,我们不想满足于预先训练好的语言模型的有限能力。然而,LLM 要么只能处理文本模式,要么处理多媒体信息的成本太高。我们的目标是既利用 LLM 的能力,又利用多媒体模式的补充特征。在本文中,我们提出了一个框架–Lantern,它可以通过提示具有感受场感知注意力加权的大型语言模型来提高某个虚构模型的性能。该框架训练了一个多任务 vanilla 模型,以生成情感类别的概率和维度分数。这些预测结果将作为参考输入 LLM,以根据其外部知识和语境理解调整每个情感类别的预测概率。我们将对话划分为不同的感受野,每个样本都包含在恰好 t 个感受野中。最后,LLM 的预测结果与感受野感知的注意力驱动加权模块进行合并。在实验中,虚构模型 CORECT 和 SDT 被部署在带有 GPT-4 或 Llama-3.1-405B 的 Lantern 中。在 IEMOCAP 中进行的 4 路和 6 路设置实验表明,Lantern 可显著提高当前 vanilla 模型的性能,最高可达 1.23% 和 1.80%。
13.SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation
标题:SAMWISE:在 SAM2 中注入智慧,实现文本驱动的视频分割
author:Claudia Cuttano, Gabriele Trivigno, Gabriele Rosi, Carlo Masone, Giuseppe Averta
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17646v1
摘要:
参考视频对象分割(RVOS)依靠自然语言表达来分割视频片段中的对象。现有的方法要么将推理局限于独立的短片段,从而丢失了全局上下文;要么离线处理整个视频,从而影响了它们在流媒体中的应用。在这项工作中,我们的目标是超越这些限制,设计出一种 RVOS 方法,能够在类似流媒体的场景中有效运行,同时保留过去帧的上下文信息。我们以 Segment-Anything 2(SAM2)模型为基础,该模型具有强大的分割和跟踪能力,非常适合流式处理。我们在特征提取阶段赋予 SAM2 自然语言理解能力和明确的时间建模能力,无需微调权重,也无需将模态交互外包给外部模型,从而使 SAM2 变得更加明智。为此,我们引入了一个新颖的适配器模块,在特征提取过程中注入时间信息和多模态线索。我们进一步揭示了 SAM2 中的跟踪偏差现象,并提出了一个可学习的模块,当当前帧特征提示一个与标题更一致的新对象时,该模块就会调整其跟踪焦点。我们提出的方法 SAMWISE 在各种基准测试中都达到了最先进水平,只增加了 4.2 M 个参数,开销微乎其微。代码见 https://github.com/ClaudiaCuttano/SAMWISE
14.HyperSeg: Towards Universal Visual Segmentation with Large Language Model
标题:HyperSeg:利用大型语言模型实现通用视觉分割
author:Cong Wei, Yujie Zhong, Haoxian Tan, Yong Liu, Zheng Zhao, Jie Hu, Yujiu Yang
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17606v2
摘要:
本文旨在利用视觉大语言模型(VLLM)的强大推理能力,解决图像和视频感知的通用分割问题。尽管目前的统一分割方法取得了重大进展,但由于在适应图像和视频场景以及复杂的推理分割方面存在局限性,因此很难处理各种具有挑战性的指令,也很难实现对细粒度视觉语言关联的准确理解。我们提出的 HyperSeg 是首个基于 VLLM 的通用分割模型,适用于像素级图像和视频感知,既包括通用分割任务,也包括需要强大推理能力和世界知识的复杂推理感知任务。此外,为了充分利用 VLLM 的识别能力和细粒度视觉信息,HyperSeg 还为各种分割任务集成了混合实体识别和细粒度视觉感知器模块。结合时间适配器,HyperSeg 实现了对时间信息的全面理解。实验结果验证了我们的见解在解决通用图像和视频分割任务(包括更复杂的推理感知任务)方面的有效性。我们的代码已发布。
15.Efficient Multi-modal Large Language Models via Visual Token Grouping
标题:通过视觉标记分组建立高效的多模态大型语言模型
author:Minbin Huang, Runhui Huang, Han Shi, Yimeng Chen, Chuanyang Zheng, Xiangguo Sun, Xin Jiang, Zhenguo Li, Hong Cheng
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17773v2
摘要:
多模态大型语言模型(MLLMs)的开发增强了大型语言模型(LLMs)感知文本以外数据格式的能力,极大地推动了视觉问题解答和图像字幕等一系列下游应用的发展。然而,处理高分辨率图像和视频所需的大量计算成本阻碍了它们的广泛应用。为了应对这一挑战,压缩 MLLM 中的视觉标记已成为降低推理成本的一种可行方法。现有的方法都是在特征对齐阶段进行标记缩减。在本文中,我们介绍了 VisToG,这是一种新颖的分组机制,它利用预先训练好的视觉编码器的能力,将相似的图像片段分组,而无需使用分割掩码。具体来说,我们在线性投影层之后连接语义标记来表示图像语义片段,然后再输入视觉编码器。此外,VisToG 还采用了隔离注意力的方法,可以利用预先训练好的视觉编码器中的先验知识来识别和消除多余的视觉标记,从而有效降低了计算需求。广泛的实验证明了VisToG的有效性,它在保持原有性能98.1%的同时,推理时间减少了27%以上。
16.Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation
标题:为对象-上下文感知开放词汇语义分割提炼谱图
author:Chanyoung Kim, Dayun Ju, Woojung Han, Ming-Hsuan Yang, Seong Jae Hwang
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17150v1
摘要:
开放式词汇语义分割(OVSS)随着最新的视觉语言模型(VLM)的发展而不断进步,通过各种学习方案实现了超越预定义类别的分割。值得注意的是,免训练方法为处理未见数据提供了可扩展、易部署的解决方案,这也是 OVSS 的关键目标。然而,一个关键问题依然存在:在具有挑战性的 OVSS 环境中,根据任意查询提示分割复杂对象时,缺乏对象级上下文考虑。这一疏忽限制了模型将语义一致的元素归类到对象中并将其精确映射到用户定义的任意类的能力。在这项工作中,我们引入了一种新方法,通过在图像中纳入对象级上下文知识来克服这一限制。具体来说,我们的模型通过将视觉基础模型中的光谱驱动特征提炼到视觉编码器的注意机制中,增强了对象内部的一致性,从而使语义一致的成分形成单一的对象掩码。此外,我们还利用零镜头对象存在可能性来完善文本嵌入,以确保与图像中的特定对象准确对齐。通过利用对象级上下文知识,我们提出的方法实现了最先进的性能,并在各种数据集上具有很强的通用性。
17.Free 2 ^2 2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
标题:Free 2 ^2 2Guide:利用大型视觉语言模型增强文本到视频生成的无梯度路径积分控制
author:Jaemin Kim, Bryan S Kim, Jong Chul Ye
publish:15 pages
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17041v1
摘要:
扩散模型在文本到图像(T2I)和文本到视频(T2V)合成等生成任务中取得了令人瞩目的成果。然而,由于各帧之间存在复杂的时间依赖关系,在 T2V 生成过程中实现准确的文本对齐仍然具有挑战性。现有的基于强化学习(RL)的增强文本对齐方法通常需要可微分的奖励函数,或受限于有限的提示,这阻碍了它们的可扩展性和适用性。在本文中,我们提出了 Free 2 ^2 2Guide,这是一种新颖的无梯度框架,用于将生成的视频与文本提示对齐,而无需额外的模型训练。利用路径积分控制原理,Free 2 ^2 2Guide 利用无差别奖励函数近似地引导扩散模型,从而实现了将强大的黑盒大型视觉语言模型(LVLM)整合为奖励模型。此外,我们的框架还支持多种奖励模型(包括基于图像的大规模模型)的灵活组合,从而在不产生大量计算开销的情况下协同增强配准。我们证明,Free 2 ^2 2Guide 能显著改善不同维度的文本配准,并提高生成视频的整体质量。
18.Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation
标题:文字很重要:在 CLIP 测试时间适应中利用单个文本嵌入进行代码生成
author:Shambhavi Mishra, Julio Silva-Rodrıguez, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz
date Time:2024-11-26
paper pdf:http://arxiv.org/pdf/2411.17002v1
摘要:
视觉语言基础模型(如 CLIP)在各种任务中都表现出了前所未有的零误差性能。然而,这些模型在分布偏移的情况下可能并不可靠,因为它们的性能会显著下降。在这项工作中,我们探讨了如何有效利用类文本信息来减轻大型预训练视觉语言模型(VLM)在测试推理过程中遇到的分布偏移。特别是,我们提出利用通用类文本嵌入作为标签分配问题的固定中心,为测试时样本生成伪标签,并通过优化传输(Optimal Transport)高效解决该问题。此外,所提出的适应方法(CLIP-OT)集成了多模板知识提炼方法,它复制了无监督表征学习中的多视图对比学习策略,但不会产生额外的计算复杂度。在具有不同复杂性的多个流行测试时间适应基准上进行的广泛实验表明,CLIP-OT 具有优越性,与近期最先进的方法相比,其性能最多可提高 7%,同时还具有计算和内存效率高的特点。