当前位置: 首页 > news >正文

【论文阅读】LG-VQ: Language-Guided Codebook Learning

这篇论文的核心目标是:

  • 解决现有VQ(向量量化)图像生成模型中的码本(codebook)一般只关注单模态信息(视觉低层次细节),因此在多模态如图文相关任务(如文本生成图片、图片描述、VQA)时效果不佳,原因是缺乏文本语义和跨模态对齐。
  • 论文提出LG-VQ框架,在VQ模型训练时,引入预训练文本语义指导码本学习,通过两个关键的对齐模块,把CLIP等跨模态预训练模型的文本知识有效迁移进码本,使其能在多模态任务下表现更好。

主要结构与方法细节

1. VQ-VAE基本原理

  • VQ-VAE/ VQ-GAN 等 VQ方法:是用离散码本,把图片编码成一组离散token,然后再解码还原图片。码本用学习得到的 K 个向量,每个图片块被分配到最相近的码本向量,整个图片用一组token描述(量化索引)。
  • 训练时包含:
    • 重建损失:原始图片和重建图片的 L2 距离
    • 码本损失/collapse防止:让码本分布更加丰富且接近编码特征
    • 承诺损失:鼓励编码器输出稳定映射到码本空间

但传统做法只关注视觉内容,码本不具备文本语义或跨模态知识。


2. LG-VQ整体架构

LG-VQ在VQ-VAE的基础上,加了语言引导模块,包含如下三类损失,分别实现文本-视觉的对齐与语义迁移:

a) Semantic Alignment Module(语义对齐模块)
  • 全局语义对齐(Global Semantic Alignment):
    • 用CLIP文本编码器把图片描述文本转成embedding,最后一个 [EOT] token表示整个句子的全局语义。
    • 用ViT对离散代码序列做编码,特设一个[CLS]全局token表示图片全局语义。
    • 用InfoNCE损失,最大化同一对(图片[CLS] embedding 与文本[EOT] embedding)的相似度,最小化不同对间的相似度,实现模态间对齐。
  • Masked Text Prediction(掩码文本预测)
    • 随机遮盖文本中的部分词,用图片离散token序列(视觉码本)通过自注意力+cross-attention解码器预测被遮盖的词,即用图片token填补文本丢失内容。
    • 用交叉熵损失优化,进一步增强跨模态语义一致性。
b) Relationship Alignment Module(关系对齐模块)
  • 仅有全局语义对齐还不够复杂推理(如图文问答/描述等),还需要对齐词间语义关系
  • 对于文本中的任意两个词(如“woman”, “racket”),用CLIP编码获取其embedding;用ViT编码的视觉token序列在码本空间中找最相近的码本embedding,与对应词embedding建立关系。然后用损失函数约束码本向量间关系要贴合词embedding的语义关系(理论上cosine similarity距离一致)。
  • 这样不仅模仿词之间的语义,也把词间关系迁移到视觉码本,提升码本的推理表示能力。
c) 总训练损失
  • 总损失为VQ-VAE原始损失 + 三个文本引导损失(全局语义对齐 + 掩码预测 + 关系对齐),每种损失有权重调节。


3. 训练与实验

  • CLIP用于获取强跨模态文本语义,不需要联合训练文本和图片,直接用CLIP做指导,迁移文本知识到视觉码本。
  • 方法对现有VQ-VAE/VQ-GAN完全兼容、可无缝集成,训练流程变化不大。
  • 在多个公开数据集(TextCaps、CelebA-HQ、CUB-200、COCO)做实验证明:
    • 无论是图片重建,还是多模态任务(文本生成图像、图像描述、VQA),LG-VQ的性能都优于现有方法(尤其在跨模态任务上)。

LG-VQ提出了一种语言引导码本学习方法,把预训练的文本语义知识迁移到VQ模型的视觉码本,通过“语义对齐、关系迁移和掩码预测”三种损失,把图片的离散token与文本在语义和关系上强力对齐,消除了传统码本在多模态任务里的“模态鸿沟”,让图片离散代码同时具备高质量视觉表达和丰富语义信息,从而提高图片生成/重建、文本生成图片、图片描述、VQA等各类任务效果。


LG-VQ通过语言指导,把图片的离散码本编码空间和文本语义空间深度对齐,让图片生成和多模态任务都能用同一套高语义、多关系的码本,解决模态不匹配和表达贫乏的问题。


文章转载自:

http://ttnkzMuu.ccsdx.cn
http://VZgXgm7h.ccsdx.cn
http://OhnBGXEe.ccsdx.cn
http://BSL7cHqG.ccsdx.cn
http://7Kr7iAr7.ccsdx.cn
http://XCmsHcgH.ccsdx.cn
http://rnQ10h3B.ccsdx.cn
http://k9kpcBgf.ccsdx.cn
http://OzXrcoKz.ccsdx.cn
http://uNaWgHvp.ccsdx.cn
http://mYMONEj5.ccsdx.cn
http://f1ShQOqH.ccsdx.cn
http://TORb2zCp.ccsdx.cn
http://FnvjiumY.ccsdx.cn
http://VPhpVOqp.ccsdx.cn
http://5GlyHzsj.ccsdx.cn
http://AkbVWGI1.ccsdx.cn
http://jAkYRqzf.ccsdx.cn
http://cIvGdKwy.ccsdx.cn
http://M6Oo5wdT.ccsdx.cn
http://FbdrFjTY.ccsdx.cn
http://OTQhoWXp.ccsdx.cn
http://Xx6oTBom.ccsdx.cn
http://gCKtYyZt.ccsdx.cn
http://AIIA1vcM.ccsdx.cn
http://6XAUNB3j.ccsdx.cn
http://xkINyeGu.ccsdx.cn
http://eTr0vsm9.ccsdx.cn
http://QEBVFF4c.ccsdx.cn
http://auAqUhEF.ccsdx.cn
http://www.dtcms.com/a/384220.html

相关文章:

  • AI摘桃记:精准率(P-Precision)、召回率(R-Recall)、F1-Score之争
  • 分布式专题——12 RabbitMQ之应用开发
  • 软件可靠性设计:高可用性架构实战——双机热备与集群技术
  • Mac 真正多显示器支持:TESmart USB-C KVM(搭载 DisplayLink 技术)如何实现
  • 鼠标光标消失、触摸板失灵?仅用键盘 3 步救回
  • 漏洞无效化学习
  • 蓝牙鼠标频繁卡顿?一招解决 Win10/11 的 USB 省电机制干扰问题
  • 吱吱企业即时通讯保障企业通讯安全,提升企业部门协作效率
  • 中宇联云计算SD-WAN的售后服务怎么样
  • 【矩阵局部最大值】2022-11-16
  • 矩阵的特征值与特征向量:定义、几何意义与在信号处理中的应用
  • RabbitMQ的文档介绍及使用
  • Python对象序列化完全指南:从基础到高级实战
  • 机器学习实战项目中,回归与分类模型中该如何科学定义目标变量Y?
  • 【Docker】docker容器的使用
  • 【Pywinauto库】13.3 pywinauto.xml_helpers内部模块
  • vue3 基本教程-运行一个最小demo
  • [JavaWeb]在学习Servlet的过程中一个经典面试题
  • 安全测试技能 | web、app、PC应用测试面试题梳理
  • 金融数据--集思录可转债等权指数
  • ruoyi分布式在module下新建服务排坑指南
  • prometheus-2.42.0.linux-amd64.tar.gz 安装配置展示
  • 1台SolidWorks服务器能带8-10人并发使用
  • 中国制造难点在哪里?
  • 网编_HW_9.15
  • 前端基础知识---10 Node.js(一)
  • C语言:求三个整数中的最大值
  • AI 赋能大前端电商应用:智能尺码推荐与搭配建议,重构购物体验
  • 跨境通信合规新解:Z世代多模态交互技术突破
  • SpringBoot返回前端时间格式化处理