当前位置：首页 > news >正文

MLLM常见概念通俗解析（一）

news 2025/10/15 10:16:43

ParGo: Bridging Vision-Language with Partial and Global Views

ParGo，一种新颖的部分-全局（Partial-Global）投影器，旨在连接视觉与语言模态，用于多模态大语言模型（MLLMs）。与以往依赖全局注意力投影器的方法不同，ParGo 通过融合全局视角与局部视角来弥合预训练视觉编码器与大语言模型之间的表示差距，从而缓解对显著区域的过度关注问题。为了有效训练 ParGo，我们构建了一个大规模的细节描述图文数据集 ParGoCap-1M-PT，包含100万张图像及其高质量描述文本对。在多个多模态大模型基准测试中的大量实验表明，ParGo 能够更有效地对齐视觉与语言模态，展现出其优越性。与传统的 Q-Former 投影器相比，ParGo 在 MME 基准测试中提升了 259.96 分。此外，我们的实验还发现，ParGo 在注重细节感知能力的任务中表现尤为出色，显著优于其他类型的投影器。

依赖基于全局注意力的投影器 (Relying on global attention-based projectors)

在多模态大型语言模型（MLLMs）中，模型需要同时理解图像和文字。这里的投影器 (projector) 就像是一个“翻译官”，它的工作是把模型从图像里“看”到的视觉信息（视觉特征），转换成文字模型能够理解和处理的“语言”。

而注意力机制 (Attention mechanism) 是一种让模型在处理大量信息时，能够把重点放在最重要部分的技术，有点像人类看东西时会聚焦到关键区域。全局注意力 (Global attention) 特指这种注意力机制在处理图像时，会一下子扫视整张图的所有信息或者主要特征，然后提炼出一个代表整张图大概内容的整体性描述。

所以，“依赖基于全局注意力的投影器”就是说，在以前的一些MLLM模型里，负责连接图像和文字的那个“翻译官”（投影器），主要就是靠这种“全局扫描”的方式来理解图像的。它们擅长抓住图像的整体感觉和最醒目的部分，但可能对图像里那些不那么突出、但可能包含重要细节的地方关注不够。

整合全局和局部视图 (Integrating global and partial views)

这个概念是前一个的改进。

全局视图 (Global view) 指的是模型对整幅图像的一个整体感知和理解，比如知道这张图的大致场景、主要有什么物体、它们的整体布局是怎样的。
局部视图 (Partial views) 指的是模型对图像中某些特定区域、某个具体物体或者一些细微细节的关注和理解。

而“整合 (Integrating)”就是把这两种不同层面的信息巧妙地结合起来。这意味着模型在“看”一张图片时，它不仅仅是笼统地理解整张图说了啥，同时也会或者额外地去处理图像里某些特定小区域或者细节的信息。这样做的好处是能够让模型对图像有一个更全面、更细致的理解——既能把握“全貌”，也能看清“细节”，避免“只见树木不见森林”或“只见森林不见树木”。

减轻了对显著区域的过度强调 (Alleviates the overemphasis on prominent regions)

显著区域 (Prominent regions) 是指图像中最容易吸引人眼球、最突出的部分，比如画面中的主体人物、文字、或者颜色最鲜艳的物体。
过度强调 (Overemphasis) 则是指模型在处理图像信息时，把绝大部分的注意力都集中在了这些最醒目的地方，而可能忽略了图像里其他部分的信息，即便那些地方可能也包含着重要的上下文或细节。

传统的、只依赖全局注意力的方法往往会给这些显著区域非常高的权重，导致模型对它们“过度强调”。而“减轻了对显著区域的过度强调”意味着通过整合局部视图等技术，模型被引导着去关注图像中那些可能不那么起眼，但依然含有重要细节的区域。这样一来，模型就不会仅仅被图像中最突出的部分牵着鼻子走，而是能够更均衡地处理图像中的各种信息。

MLLM 基准测试 (MLLM benchmarks)

MLLM 就是我们前面一直在说的多模态大型语言模型（Multimodal Large Language Models），它们能同时处理文字和图像（或者视频、音频等）信息。
基准测试 (Benchmarks) 在人工智能领域就像是给不同模型或算法准备的一系列标准化考试。这些考试包含特定的任务、使用统一的数据集，并且有明确的评分标准或评估指标。研究人员用这些“考试”来客观地衡量和比较自己提出的新模型到底有多好，性能怎么样。

所以，“MLLM 基准测试”就是专门用来给多模态大型语言模型进行“标准化考试”的集合。这些考试里的题目都需要模型既理解图片又理解文字，比如：给你一张图，问你图里有什么（视觉问答）；让你根据图片写一段描述文字（图像描述生成）；或者根据图片和文字进行推理判断。研究人员通过让自己的MLLM模型在这些标准测试上跑分，并把结果和现有模型的成绩进行对比，来证明自己提出的方法是有效的、甚至更优秀的。MME benchmark 就是其中一个具体的例子。

查看全文

http://www.dtcms.com/a/198060.html