当前位置：首页 > news >正文

CVPR2 2025丨大模型创新技巧：文档+语音+视频“大模型三件套”

news 2025/8/18 5:47:32

关注gongzhonghao【CVPR顶会精选】

近两年，大模型在计算机视觉领域的应用热度持续攀升，相关研究成果在CVPR不断涌现。其核心的自注意力机制，能更为灵活地捕捉图像中的全局信息和长距离依赖关系，突破了传统卷积神经网络局部感受野的限制，为解决复杂的视觉问题提供了全新的思路与方法。这些前沿研究成果极具研读价值，为推动CV领域发展注入新动力。

今天小图给大家精选3篇CVPR有关大模型方向的论文，请注意查收！

论文一：Relation-Rich Visual Document Generator for Visual Information Extraction

方法：

文章首先通过内容生成阶段，利用LLM生成具有实体类别和关系的层次结构文本。然后在布局生成阶段，采用自监督学习方法，仅使用OCR结果作为输入，训练模型生成与内容匹配的多样化布局。最后，通过层次结构学习训练范式，将生成的文档用于训练文档理解模型，显著提升了模型在多个VIE基准测试上的性能。

创新点：

提出了首个能够自动合成关系丰富且带有注释的视觉文档的方法，有效解决了现有数据集规模小、标注成本高以及布局多样性不足的问题。
采用两阶段方法：内容生成阶段利用LLM生成包含实体类别和关系的层次结构文本，布局生成阶段通过自监督学习仅依赖OCR结果生成合理布局，无需人工标注。
引入HSL训练范式，通过解析文档的层次结构来增强模型对文档布局和内容关系的理解，进一步提升模型在VIE任务上的性能。

论文链接：

https://arxiv.org/abs/2504.10659

图灵学术论文辅导

论文二：SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

方法：

文章首先通过语音编码器提取语音特征，结合医学图像编码器和大型语言模型，构建了SilVar-Med模型，使其能够处理语音和图像输入并生成推理文本响应。接着，采用两阶段训练方法以增强模型的异常检测和推理能力。最后，通过传统的文本生成评估指标和提出的LLM评估框架，全面评估了SilVar-Med的性能，验证了其在推理和准确性方面的优势。

创新点：

提出首个语音驱动的医学视觉语言模型，能够通过语音指令与用户进行交互，显著提升了医疗领域人机交互的便捷性和实用性。
引入了一个针对语音指令医学异常检测的推理数据集，专门用于训练和测试模型的推理能力，填补了该领域的数据空白。
提出了一个基于LLM的推理评估框架，更全面地评估了模型的推理能力，超越了传统的文本相似性评估方法。

论文链接：

https://arxiv.org/abs/2504.10642

图灵学术论文辅导

论文三：GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

方法：

文章首先将视频帧分为上下文帧和查询帧，上下文帧提供全局信息，查询帧用于局部对象跟踪，从而统一了全局和局部推理。接着，通过端到端训练将预训练的VOS记忆模块与多模态大型语言模型结合，增强了对长期时间信息的处理能力。最后，引入对象对比学习来区分不同对象，并通过自精炼框架识别关键帧，进一步优化了模型的推理能力。