当前位置：首页 > news >正文

【IQA技术专题】基于多模态大模型的IQA Benchmark：Q-BENCH

news 2025/11/13 6:49:51

在这里插入图片描述

基于多模态大模型的IQA Benchmark：Q-BENCH（2024 ICLR）

专题介绍
一、研究背景
二、Q-Bench 三大评估任务设计
- 2.1 低层次视觉感知任务（A1：Perception）
- 2.2 低层次视觉描述任务（A2：Description）
- 2.3 视觉质量评估任务（A3：Assessment）
三、实验
- 3.1 低层次感知能力（A1）：整体准确率
- 3.2 低层次描述能力（A2）：总分（3 维度之和）
- 3.3 质量评估能力（A3）：平均 SRCC/PLCC
四、总结

本文将围绕《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE
FOUNDATION MODELS ON LOW-LEVEL VISION》展开完整解析。
为填补多模态大型语言模型（MLLMs）在低层次视觉感知与理解能力评估上的空白，研究团队提出Q-Bench 基准，从低层次视觉感知、低层次视觉描述、整体视觉质量评估三大维度系统评估 MLLMs 能力：构建含 2,990 张图像的LLVisionQA 数据集评估感知能力（通过问答正确性衡量），创建含 499 张图像及专家标注黄金描述的LLDescribe 数据集并结合 GPT 对比 pipeline 评估描述能力（从完整性、精确性、相关性维度），还设计基于 softmax 的策略让 MLLMs 预测可量化质量分数以评估质量评估能力；实验显示 MLLMs 具备初步低层次视觉技能，但稳定性和精确性不足，其中InternLM-XComposer-VL在多项任务中表现最优，GPT-4V接近初级人类水平但仍落后于资深人类，该基准旨在推动 MLLMs 低层次视觉能力的研究与提升。参考资料如下：
[1]. 项目地址

论文整体结构思维导图如下：
在这里插入图片描述

专题介绍

图像质量评价（Image Quality Assessment, IQA）是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究，更在影像相关行业内实现了完整的商业化应用，涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形，其重要程度可见一斑。

但随着算法侧的能力不断突破，AIGC技术发展火热，早期的IQA或已无法准确评估新技术的能力。另一方面，千行百业中各类应用对图像质量的需求也存在差异和变化，旧标准也面临着适应性不足的挑战。

本专题旨在梳理和跟进IQA技术发展内容和趋势，为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。

系列文章如下：
【1】🔥IQA综述
【2】PSNR&SSIM
【3】Q-Insight
【4】VSI
【5】LPIPS
【6】DISTS
【7】Q-align
【8】GMSD
【9】NIQE
【10】MUSIQ
【11】CDI

一、研究背景

多模态大型语言模型（MLLMs，如 LLaVA、MiniGPT4）在高层次视觉任务（图像 captioning、VQA）中表现突出，但低层次视觉感知与理解能力的评估存在空白，而该能力对图像质量评估（IQA）、视觉失真检测、美学分析等关键应用至关重要。
为了填补这部分空白，Q-bench首个针对 MLLMs 低层次视觉能力的系统性基准，围绕核心问题 ——“MLLMs 如何模拟人类低层次视觉感知与理解能力” 展开，聚焦三大能力维度，且遵循两大设计原则：

任务需涉及图像低层次属性的感知 / 理解，例如清晰度、噪声、亮度等；
不依赖推理能力或外部知识。

二、Q-Bench 三大评估任务设计

分为3大块，并基于每一块提出一个数据集，整体如下图所示。
在这里插入图片描述
感知、描述和评估三大块。

2.1 低层次视觉感知任务（A1：Perception）

提出一个数据集LLVisionQA，共 2,990 张图像，涵盖 10 类来源（含野外采集如 KONiQ-10K、生成图像如 AGIQA-3K、人工扭曲图像如 KADID-10K），确保多样性，如下表所示：
在这里插入图片描述
每张图像对应 1 个（问题 Q + 正确答案 C+1-3 个错误答案 F）元组，支持多选择问答评估。
作者针对这个数据集，设计了3类不同的问题：

Yes-or-No（判断类，如 “图像清晰吗？”）：平衡 40% 答案为 “No” 以减少模型偏向性；
What（分类类，如 “图像存在哪种失真？”）：考察多属性理解；
How（程度类，如 “图像清晰度如何？”）：覆盖非极端属性，支持细粒度评估。

评估基于两大维度划分，确保评估全面性，如下图所示：
在这里插入图片描述

属性类型（Axis 1）：包含第一个扭曲（模糊、噪声等）以及第二个其他属性（颜色、光照等）。
感知范围（Axis 2）：包含全局感知（整体清晰度）以及局部上下文感知（花朵是否对焦），例如上图的左右侧，分别代表了整体和局部一个评估。

最后是评估方法：向 MLLM 输入 “问题 + 图像 + 选项”（选项随机打乱），如下图所示。
在这里插入图片描述
但是MLLM的输出可能不一致，因此作者后续采用GPT 辅助 5 轮投票机制，解决 MLLM 输出格式不统一问题（如 “High”“A. High” 均视为正确），评估准确率提升至 98.4%。

2.2 低层次视觉描述任务（A2：Description）

提出了一个数据集LLDescribe，共 499 张图像，与 LLVisionQA 共享 10 类图像来源，确保任务一致性。它的生成是由摄影专家标注，平均58 词 / 条（远长于传统图像 caption 的 10-11 词），需覆盖图像所有低层次关注点（如失真、颜色、光照）。如下图所示：
在这里插入图片描述
评估方法，从 3 个核心维度对 MLLM 输出的描述打分（0-2 分 / 维度），具体定义如下：

完整性：2 分（完全覆盖黄金描述信息）、1 分（部分覆盖）、0 分（未覆盖）。
精确性：2 分（无争议信息）、1 分（争议信息少于匹配信息）、0 分（争议信息更多）。
相关性：2 分（完全围绕低层次属性）、1 分（部分相关）、0 分（完全无关）。

作者采用单模态 GPT 进行 5 轮平均评分，降低评估随机性，确保结果可复现。

2.3 视觉质量评估任务（A3：Assessment）

采用 7 个现有 IQA 数据集，覆盖 3 类图像场景，总规模81,284 张图像，具体可参见2.1节中表的第三列。为了完成这个操作，作者设计了以下的策略：
在这里插入图片描述
具体来说是运用了softmax-based 质量预测策略，但MLLM 直接输出存在 “正向偏向”（78% 输出 “good”）和 “极端偏向”（84% 输出 “5” 分），可测量性弱，因此考虑取 MLLM 输出中 “good” 和 “poor” 两个高频 token 的 logits，通过 softmax 计算概率并映射为可量化分数，公式如下所示： $q_{pred} = \frac{e^{x_{SCORE\_TOKEN}^{good}}}{e^{x_{SCORE\_TOKEN}^{good}} + e^{x_{SCORE\_TOKEN}^{poor}}}$

该策略与人类评分的相关性显著优于 argmax 策略（如 LLaVA-v1 在 KONiQ-10K 上 SRCC 从 0.038 提升至 0.462）。

三、实验

实验同样也分为3块。

3.1 低层次感知能力（A1）：整体准确率

如下图所示：

在这里插入图片描述
其中：资深人类（Senior-level）整体准确率81.74%，所有维度均最优；GPT-4V（闭源）整体准确率 73.36%排名第一，What 类问题（79.18% 准确率）；InternLM-XComposer-VL整体准确率64.35%排名第二，In-context Other 属性（77.19%）；随机猜测整体准确率37.94%。

3.2 低层次描述能力（A2）：总分（3 维度之和）

如下图所示：
在这里插入图片描述

其中：InternLM-XComposer-VL整体得分4.21排名第一，最大优势为相关性（1.87 分）；Kosmos-2整体得分4.03排名第二，最大优势为完整性（1.12 分）；平均水平（所有模型）整体得分~3.5，相关性普遍高于完整性 / 精确性。

3.3 质量评估能力（A3）：平均 SRCC/PLCC

如下图所示：

在这里插入图片描述

其中：InternLM-XComposer-VL 平均 SRCC/PLCC为0.541/0.581排名第一，NIQE（传统 IQA 方法）平均 SRCC/PLCC为0.387/0.398 。

作者对多个MLLM评估下来，结论总结如下，分为优势和不足，优势如下：

基础能力：多数 MLLM 在 A1/A2/A3 任务中显著超随机猜测，证明具备初步低层次视觉技能；
场景适应性：在生成图像（CGIQA-6K、AGIQA-3K）和人工扭曲图像（KADID-10K）的 IQA 任务中，性能普遍优于传统方法 NIQE；
可优化性：通过同义词集成策略（如 “good+fine”vs“poor+bad”），Top5 模型的 IQA 精度平均提升 1.3%-2%。

劣势如下：

感知偏差：所有 MLLM 对 “扭曲属性” 的感知准确率低于 “其他属性”（如 LLaVA-v1.5 扭曲类 47.98% vs 其他类 67.30%），且 Yes-or-No 问题普遍偏向 “yes”（如 IDEFICS-Instruct 的 Yes 准确率 88.65% vs No 准确率 13.09%）；
描述短板：即使最优模型，描述的完整性和精确性也仅处于 “可接受水平”（平均 0.8-1.2 分 / 2 分），存在信息遗漏或错误；
细粒度评估差：在高相似度图像场景（如 LIVE-FB 含 95% 高质量图像）中，MLLM 难以区分细微质量差异，相关性指标显著下降。

四、总结

该论文探索了MLLMs在低级视觉能力方面的进展，期望这些大型基础模型能够成为通用智能，最终减轻人类的工作负担。提出 MLLMs 应该具备三项重要且独特的能力：对低级视觉属性的准确感知，对低级视觉信息的精确且完整的语言描述，以及对图像质量的量化评估。

为了评估这些能力，论文收集了两个用于低级视觉的多模态基准数据集，并提出了一种基于 softmax 的统一 MLLMs 量化 IQA 策略。评估证明，即便在没有任何低级特定训练的情况下，一些卓越的 MLLMs 仍然具备可观的低级能力。尽管如此，MLLMs 要成为真正可靠的通用低级视觉助手仍有很长的路要走，需要进一步的优化。

感谢阅读，欢迎留言或私信，一起探讨和交流，如果对你有帮助的话，也希望可以给博主点一个关注，谢谢。

查看全文

http://www.dtcms.com/a/601157.html