当前位置: 首页 > news >正文

【IQA技术专题】 基于多模态大模型的IQA Benchmark:Q-BENCH

在这里插入图片描述

基于多模态大模型的IQA Benchmark:Q-BENCH(2024 ICLR)

  • 专题介绍
  • 一、研究背景
  • 二、Q-Bench 三大评估任务设计
    • 2.1 低层次视觉感知任务(A1:Perception)
    • 2.2 低层次视觉描述任务(A2:Description)
    • 2.3 视觉质量评估任务(A3:Assessment)
  • 三、实验
    • 3.1 低层次感知能力(A1):整体准确率
    • 3.2 低层次描述能力(A2):总分(3 维度之和)
    • 3.3 质量评估能力(A3):平均 SRCC/PLCC
  • 四、总结

本文将围绕《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE
FOUNDATION MODELS ON LOW-LEVEL VISION》展开完整解析。
为填补多模态大型语言模型(MLLMs)在低层次视觉感知与理解能力评估上的空白,研究团队提出Q-Bench 基准,从低层次视觉感知、低层次视觉描述、整体视觉质量评估三大维度系统评估 MLLMs 能力:构建含 2,990 张图像的LLVisionQA 数据集评估感知能力(通过问答正确性衡量),创建含 499 张图像及专家标注黄金描述的LLDescribe 数据集并结合 GPT 对比 pipeline 评估描述能力(从完整性、精确性、相关性维度),还设计基于 softmax 的策略让 MLLMs 预测可量化质量分数以评估质量评估能力;实验显示 MLLMs 具备初步低层次视觉技能,但稳定性和精确性不足,其中InternLM-XComposer-VL在多项任务中表现最优,GPT-4V接近初级人类水平但仍落后于资深人类,该基准旨在推动 MLLMs 低层次视觉能力的研究与提升。参考资料如下:
[1]. 项目地址

论文整体结构思维导图如下:
在这里插入图片描述


专题介绍

图像质量评价(Image Quality Assessment, IQA)是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究,更在影像相关行业内实现了完整的商业化应用,涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形,其重要程度可见一斑。

但随着算法侧的能力不断突破,AIGC技术发展火热,早期的IQA或已无法准确评估新技术的能力。另一方面,千行百业中各类应用对图像质量的需求也存在差异和变化,旧标准也面临着适应性不足的挑战。

本专题旨在梳理和跟进IQA技术发展内容和趋势,为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。

系列文章如下:
【1】🔥IQA综述
【2】PSNR&SSIM
【3】Q-Insight
【4】VSI
【5】LPIPS
【6】DISTS
【7】Q-align
【8】GMSD
【9】NIQE
【10】MUSIQ
【11】CDI


一、研究背景

多模态大型语言模型(MLLMs,如 LLaVA、MiniGPT4)在高层次视觉任务(图像 captioning、VQA)中表现突出,但低层次视觉感知与理解能力的评估存在空白,而该能力对图像质量评估(IQA)、视觉失真检测、美学分析等关键应用至关重要。
为了填补这部分空白,Q-bench首个针对 MLLMs 低层次视觉能力的系统性基准,围绕核心问题 ——“MLLMs 如何模拟人类低层次视觉感知与理解能力” 展开,聚焦三大能力维度,且遵循两大设计原则:

  • 任务需涉及图像低层次属性的感知 / 理解,例如清晰度、噪声、亮度等;

  • 不依赖推理能力或外部知识。

二、Q-Bench 三大评估任务设计

分为3大块,并基于每一块提出一个数据集,整体如下图所示。
在这里插入图片描述
感知、描述和评估三大块。

2.1 低层次视觉感知任务(A1:Perception)

提出一个数据集LLVisionQA,共 2,990 张图像,涵盖 10 类来源(含野外采集如 KONiQ-10K、生成图像如 AGIQA-3K、人工扭曲图像如 KADID-10K),确保多样性,如下表所示:
在这里插入图片描述
每张图像对应 1 个(问题 Q + 正确答案 C+1-3 个错误答案 F)元组,支持多选择问答评估。
作者针对这个数据集,设计了3类不同的问题:

  • Yes-or-No(判断类,如 “图像清晰吗?”):平衡 40% 答案为 “No” 以减少模型偏向性;
  • What(分类类,如 “图像存在哪种失真?”):考察多属性理解;
  • How(程度类,如 “图像清晰度如何?”):覆盖非极端属性,支持细粒度评估。

评估基于两大维度划分,确保评估全面性,如下图所示:
在这里插入图片描述

  • 属性类型(Axis 1):包含第一个扭曲(模糊、噪声等)以及第二个其他属性(颜色、光照等)。
  • 感知范围(Axis 2):包含全局感知(整体清晰度)以及局部上下文感知(花朵是否对焦),例如上图的左右侧,分别代表了整体和局部一个评估。

最后是评估方法:向 MLLM 输入 “问题 + 图像 + 选项”(选项随机打乱),如下图所示。
在这里插入图片描述
但是MLLM的输出可能不一致,因此作者后续采用GPT 辅助 5 轮投票机制,解决 MLLM 输出格式不统一问题(如 “High”“A. High” 均视为正确),评估准确率提升至 98.4%。

2.2 低层次视觉描述任务(A2:Description)

提出了一个数据集LLDescribe,共 499 张图像,与 LLVisionQA 共享 10 类图像来源,确保任务一致性。它的生成是由摄影专家标注,平均58 词 / 条(远长于传统图像 caption 的 10-11 词),需覆盖图像所有低层次关注点(如失真、颜色、光照)。如下图所示:
在这里插入图片描述
评估方法,从 3 个核心维度对 MLLM 输出的描述打分(0-2 分 / 维度),具体定义如下:

  • 完整性:2 分(完全覆盖黄金描述信息)、1 分(部分覆盖)、0 分(未覆盖)。
  • 精确性 :2 分(无争议信息)、1 分(争议信息少于匹配信息)、0 分(争议信息更多)。
  • 相关性:2 分(完全围绕低层次属性)、1 分(部分相关)、0 分(完全无关)。

作者采用单模态 GPT 进行 5 轮平均评分,降低评估随机性,确保结果可复现。

2.3 视觉质量评估任务(A3:Assessment)

采用 7 个现有 IQA 数据集,覆盖 3 类图像场景,总规模81,284 张图像,具体可参见2.1节中表的第三列。为了完成这个操作,作者设计了以下的策略:
在这里插入图片描述
具体来说是运用了softmax-based 质量预测策略,但MLLM 直接输出存在 “正向偏向”(78% 输出 “good”)和 “极端偏向”(84% 输出 “5” 分),可测量性弱,因此考虑取 MLLM 输出中 “good” 和 “poor” 两个高频 token 的 logits,通过 softmax 计算概率并映射为可量化分数,公式如下所示: q p r e d = e x S C O R E _ T O K E N g o o d e x S C O R E _ T O K E N g o o d + e x S C O R E _ T O K E N p o o r q_{pred} = \frac{e^{x_{SCORE\_TOKEN}^{good}}}{e^{x_{SCORE\_TOKEN}^{good}} + e^{x_{SCORE\_TOKEN}^{poor}}} qpred=exSCORE_TOKENgood+exSCORE_TOKENpoorexSCORE_TOKENgood

该策略与人类评分的相关性显著优于 argmax 策略(如 LLaVA-v1 在 KONiQ-10K 上 SRCC 从 0.038 提升至 0.462)。

三、实验

实验同样也分为3块。

3.1 低层次感知能力(A1):整体准确率

如下图所示:

在这里插入图片描述
其中:资深人类(Senior-level)整体准确率81.74%,所有维度均最优;GPT-4V(闭源)整体准确率 73.36%排名第一,What 类问题(79.18% 准确率);InternLM-XComposer-VL整体准确率64.35%排名第二,In-context Other 属性(77.19%);随机猜测整体准确率37.94%。

3.2 低层次描述能力(A2):总分(3 维度之和)

如下图所示:
在这里插入图片描述

其中:InternLM-XComposer-VL整体得分4.21排名第一,最大优势为相关性(1.87 分);Kosmos-2整体得分4.03排名第二,最大优势为完整性(1.12 分);平均水平(所有模型)整体得分~3.5,相关性普遍高于完整性 / 精确性。

3.3 质量评估能力(A3):平均 SRCC/PLCC

如下图所示:

在这里插入图片描述

其中:InternLM-XComposer-VL 平均 SRCC/PLCC为0.541/0.581排名第一,NIQE(传统 IQA 方法)平均 SRCC/PLCC为0.387/0.398 。

作者对多个MLLM评估下来,结论总结如下,分为优势和不足,优势如下:

  1. 基础能力:多数 MLLM 在 A1/A2/A3 任务中显著超随机猜测,证明具备初步低层次视觉技能;
  2. 场景适应性:在生成图像(CGIQA-6K、AGIQA-3K)和人工扭曲图像(KADID-10K)的 IQA 任务中,性能普遍优于传统方法 NIQE;
  3. 可优化性:通过同义词集成策略(如 “good+fine”vs“poor+bad”),Top5 模型的 IQA 精度平均提升 1.3%-2%。

劣势如下:

  1. 感知偏差:所有 MLLM 对 “扭曲属性” 的感知准确率低于 “其他属性”(如 LLaVA-v1.5 扭曲类 47.98% vs 其他类 67.30%),且 Yes-or-No 问题普遍偏向 “yes”(如 IDEFICS-Instruct 的 Yes 准确率 88.65% vs No 准确率 13.09%);
  2. 描述短板:即使最优模型,描述的完整性和精确性也仅处于 “可接受水平”(平均 0.8-1.2 分 / 2 分),存在信息遗漏或错误;
  3. 细粒度评估差:在高相似度图像场景(如 LIVE-FB 含 95% 高质量图像)中,MLLM 难以区分细微质量差异,相关性指标显著下降。

四、总结

该论文探索了MLLMs在低级视觉能力方面的进展,期望这些大型基础模型能够成为通用智能,最终减轻人类的工作负担。提出 MLLMs 应该具备三项重要且独特的能力:对低级视觉属性的准确感知,对低级视觉信息的精确且完整的语言描述,以及对图像质量的量化评估。

为了评估这些能力,论文收集了两个用于低级视觉的多模态基准数据集,并提出了一种基于 softmax 的统一 MLLMs 量化 IQA 策略。评估证明,即便在没有任何低级特定训练的情况下,一些卓越的 MLLMs 仍然具备可观的低级能力。尽管如此,MLLMs 要成为真正可靠的通用低级视觉助手仍有很长的路要走,需要进一步的优化。


感谢阅读,欢迎留言或私信,一起探讨和交流,如果对你有帮助的话,也希望可以给博主点一个关注,谢谢。

http://www.dtcms.com/a/601157.html

相关文章:

  • 关于微软最新数据库引擎sqlserver2025 关于向量距离函数调用的问题
  • 网站建设维护合同范本检测WordPress网站的安全性
  • Flutter---函数
  • 《Flutter全栈开发实战指南:从零到高级》- 13 -状态管理GetX
  • HarmonyOS:ArkTS 页导航
  • 网站开发要学哪些国际跨境电商平台排名
  • 万网站长seo外链优化
  • 【Algorithm】前缀和算法
  • 信息架构学视角下的个人商业操作系统:Notion中央化控制台的系统设计
  • Java版社交系统/聊天系统/im/即时通信/社交通讯
  • 秋招备战day8
  • 网站推广的公司哪家好在百度上做个网站多少合适
  • 网站和域名的区别哪个门户网站做推广好
  • JavaScript 中被遗忘的关键字(with)
  • MySQL: 数据库性能优化核心要素:硬件选型与配置策略
  • 支付宝网站接口申请浙江省住房建设厅网站首页
  • C++笔记-26-类模板
  • SAP FICO工单周毛利报表
  • 聚美网站开发开题报告织梦帝国wordpress
  • SpringCloud03-Eureka02-搭建Eureka服务
  • PySide6/PyQt Ctrl 滚轮 实现文本缩放功能
  • 南通企业网站建设网络营销培训哪个好点
  • Elasticsearch-4--倒排索引的原理?
  • 一个基于Python Streamlit sqlite3 的销售单管理系统,提供商品管理、客户管理、销售单管理及打印,和应收对账单等功能
  • 网站权重是什么华大基因背景调查
  • 华为桌面图标模糊问题解决方案
  • MotionTrans: 从人类VR数据学习机器人操作的运动级迁移
  • [Dify 实战案例] 构建一个 CV 内容优化与润色助手:让 AI 成为你的简历教练
  • 【计算思维】蓝桥杯STEMA 科技素养考试真题及解析 B
  • Kanass实战教程系列(3) - 项目经理如何使用kanass有效管理项目