当前位置: 首页 > news >正文

论文解读 - 大型多模态模型中现实世界个性化基准测试

一、简要介绍

快速发展的大型多模态模型(LMMs)领域催生了多种具有显著能力的模型。然而,现有的评估标准未能全面、客观且准确地评估这些模型是否能满足现实世界中人类的多样化需求。为了解决这一问题,论文提出了多维度洞察(MDI)基准,该基准包含超过500张图像,涵盖了人类生活的六个常见场景。值得注意的是,MDI基准相比现有评估方法具有两大优势:(1)每张图像都附有两类问题:简单问题用于评估模型对图像的理解,复杂问题则用于评估模型分析和推理超出基本内容的能力。(2)考虑到不同年龄段的人在面对相同场景时有不同的需求和视角,论文的基准将问题分为三个年龄组:年轻人、中年人和老年人。这一设计能够详细评估语言模型在满足不同年龄群体偏好和需求方面的能力。通过MDI基准测试,像GPT-4这样的强大模型在与年龄相关的任务上达到了79%的准确率,这表明现有的语言模型在解决实际应用问题上仍有很大的提升空间。展望未来,论文预计MDI基准测试将为语言模型中的现实个性化提供新的方向。

二、研究背景

开发个性化的人工智能助手以满足不同用户的需求,一直是人类的重要追求。在实际应用中,理想的AI辅助工具应能精准满足不同年龄层、文化背景和职业领域用户的特定需求。

近年来,人工智能领域经历了重大变革,从专注于特定简单任务的小型模型转向能够处理复杂任务的统一大型多模态模型(LMMs)。这一转变不仅标志着向通用人工智能(AGI)迈进的关键一步,也凸显了LMMs成为个性化人类助手的巨大潜力。

为了全面评估语言模型(LMMs)的能力,研究人员构建了多个常见的视觉问答基准测试,这些测试旨在评估LMMs的图像-文本理解和对话能力。然而,这些基准测试仅限于与标准答案的对比,对模型细粒度能力的洞察有限。为了解决这一问题,后续开发了多模态理解基准测试,这些测试覆盖了更广泛的任务和更多的测试样本。这种改进使得模型能力的评估更加精确,促进了更稳健的LMMs的发展。然而,当前的基准测试主要关注特定任务的技术指标,忽视了两个关键的研究问题。

Q1:这些语言模型(LMMs)是否能够真正满足现实世界中人类的实际需求?

Q2:这些语言模型能否解决不同群体的多样化需求?

为了解决这些问题,论文引入了一个新的“多维度洞察”(MDI)基准测试,该测试涵盖了多种现实场景、不同的问题复杂度以及不同年龄段的人群。具体来说,MDI基准测试包括超过500张真实世界的图像和1200个与人相关的题目。如图2所示,它涵盖了人类生活的六大领域:建筑、教育、家务、社会服务、体育和交通。此外,MDI基准测试还从两个方面评估了语言模型:

问题复杂度维度。这一维度将人类面临的问题分为两个复杂度等级。第一级评估了LMMs(语言模型)的基本能力,如物体检测和光学字符识别(OCR)等。第二级则评估了更复杂的技能,包括逻辑推理、数学计算和知识应用。

年龄维度。年龄是评估个体差异的基本标准,因为不同年龄段的人有不同的需求。论文将个人分为三个年龄段:年轻人、中年人和老年人,以评估LMMs在满足这些群体不同需求和偏好的有效性。论文的目标是全面评估LMMs是否能在实际情境中满足人类的多样化需求。

总结来说,论文的主要贡献包括:

•为了满足人类对大型多模态模型的实际需求,论文首次提出了一个多模态基准,旨在全面评估LMMs在实际场景中的表现。

•MDI基准集包含超过500张真实世界图像和1200个由人类设计的问题,涵盖了六个真实的多模态场景。每个场景分为三个子领域,每个子领域又分为两个复杂度级别。此外,论文在评估中加入了年龄因素,以帮助LMMs为不同的人口群体提供个性化的响应。

•通过MDI基准集,论文对几种主流的LMMs进行了全面的评估。具体而言,GPT-4o在所有指标上都取得了最佳成绩,但在满足不同年龄段的需求方面仍有很大的提升空间。进一步分析情景、复杂度和年龄等因素,为开发可靠且个性化的智能助手提供了宝贵的见解。

作者希望论文的研究能够推动多模态大型模型在现实世界中的应用,并为多维个性化的发展铺平道路。

三、相关工作

3.1 多模态数据集与基准测试

为了评估语言模型(LMMs)的能力,研究者们采用了多种来自过往研究的基准测试。其中,Flickr30k和Nocaps用于评估LMMs的文本生成和图像描述能力。Vizwiz、VQA、GQA和OK-VQA则用于评估LMMs对图像信息的理解和问答能力。为了评估OCR能力,研究者们使用了ST-VQA和OCR-VQA等基准测试。DocVQA专门用于评估模型理解并识别文档的能力。

为了进一步探索LMMs的细粒度能力,最近的基准测试显著扩展了评估任务的种类。例如,LVLM-eHub、MMVet、MMBench、SEED-Bench、MME、MMT-Bench、Video-MMEMMMU、MMMU-Pro、MathVista、Mathverse、We-Math和MMEvol。然而,这些基准测试尚未完全探索LMMs解决不同个体多样化需求的能力。因此,论文希望通过MDI基准测试更好地探索这一能力。

3.2 大型多模态模型

基于大型语言模型(LLMs)的成功,近期研究将大型语言模型与视觉编码器结合,开发出具有强大视觉理解和语义生成能力的LMMs。许多优秀的开源项目和闭源项目已经开发出来。这些进展进一步提升了实现个性化AI助手的潜力。

3.3 个性化研究

为了实现个性化的AI助手,大型语言模型(LLMs)正尝试与用户的个性化输出相结合,以增强其个性化能力,并生成符合用户偏好的输出。同时,为了进一步提升LLMs在面对不同需求时的理解能力,个性化数据生成也显得尤为重要。在本研究中,论文利用MDI基准评估现有大型多模态模型解决个性化需求的能力,并为未来LMMs的研究提供见解。

四、MDI基准

MDI-Benchmark的样本设计强调了信息的真实复杂性、场景的多样性和年龄差异。人们的信息关注点会因具体情境而异。如图1所示,家庭在购买新房时,可能会特别关注与他们生活紧密相关的实际问题,比如厨房类型、车库容量和卧室设施。而在体育赛事中,观众则可能更关注比赛细节、运动员的表现和比赛进程。

4.1 评估维度

与现有的评估方法相比,MDI-Benchmark更加注重模型在特定任务场景中,针对不同年龄层和复杂度的实际问题上的表现,其评估结构围绕三个维度展开:场景、年龄和问题复杂度。从场景的角度来看,MDI-Benchmark力求贴近人类生活的实际需求。与以往基于能力评估的LMMs评估基准不同,MDI-Benchmark是基于现实生活中的具体场景构建的。

从情景的角度来看,MDI-Benchmark旨在贴近人类生活的实际需求。与以往LMMs评估基准侧重于能力评估不同,MDI-Benchmark是基于现实生活中的各种场景构建的。

针对人们在现实生活中遇到的各种情境,论文参考了社会学文献中的定义,并在此基础上扩展,确定了30个子领域的情景。为此,论文进行了一次为期一个月的问卷调查,覆盖了不同年龄、性别和职业的人群。共发放了2500份问卷,收集到了2374份有效回复。根据问卷中子领域选择的频率,论文选出了前18个子领域,最终归纳为六个主要场景:建筑、教育、家务、社会服务、体育和交通。论文从这些子领域中收集了图像,确保该基准具有丰富的场景信息。

问题复杂度维度。在日常人类活动中,复杂程度差异显著,难度的定义往往具有主观性。为了简化这一定义,论文基于模型的基本能力,将问题分层量化为原子单位。根据这一标准,论文筛选了调查问题,并优化了之前的评估标准。此外,MDI基准分为两个层次:

(1)第一层次涉及相对简单的问题类型,主要评估模型提取场景信息的能力,包括检测、光学字符识别、位置识别、颜色识别等基本功能。

(2)第二层次要求模型能够熟练地分析场景信息和用户语义信息,具备逻辑敏锐度,同时整合相关知识,有效满足用户需求。

年龄维度。年龄作为群体分类的普遍且具体的准则,比基于文化和宗教信仰的分类更为客观。作为每个人的基本属性,年龄易于量化和比较。通过将年龄作为分类标准,论文能够更好地理解不同群体的需求,并评估LMMs(语言模型)满足这些多样化需求的能力。为了评估和量化,论文确定了三个不同的年龄组:年轻人(10-25岁)、中年人(35-50岁)和老年人(60-75岁)。论文让这些年龄段的人参与实际生活场景,了解他们的需求。这些调查结果为MDI-Benchmark(多维度指标基准)的初步版本的创建提供了依据。

4.2 数据收集

数据来源现有的LMMs评估基准已被广泛用于评估和训练新模型。为了确保评估结果的准确性,论文收集了超过500张未包含在现有数据集中的新图像,并从三个年龄组中招募了120名志愿者。每个年龄组中,论文抽取了10名志愿者,组成一个30人的数据构建团队。主要的数据收集过程如下:首先,在确定场景维度信息后,数据构建团队根据自己的兴趣编写了详细的场景信息。同时,论文将这些场景维度信息输入到开源模型(如GPT-4o、Gemini 1.5 Pro)和闭源模型(如LLaVA-Next、MiniCPM)中,以生成更加个性化、多样性和详细的场景描述。此外,由人类和模型创建的描述被用作关键词,在互联网上搜索相关图像。同时,论文支付给志愿者的工资相当可观,大约每小时七美元。这些志愿者的任务是将图像分类到六个不同的场景维度中。为了确保数据平衡并减少偏见,论文在每个年龄段的性别、职业等方面都保持了多样性。论文提供了详细的分类标准和指南,以确保分类的一致性。论文采用了交叉验证的方法,即每组志愿者都会对图像进行筛选,只保留那些被所有三个小组一致分类的图像。此外,论文还进行了多次验证迭代。这一全面的过程有助于构建一个平衡且可靠的数据源。

问题与答案的生成。在收集到图像后,论文采用启发式方法手动生成问题和难题。具体步骤如下:(1)构建知识库。首先,利用多种开源和闭源模型描述图像中的场景内容,并由专家进行总结。接着,通过网络搜索获取更多与场景内容相关的信息,将这些信息与图像结合,形成知识库。(2)生成多选题。为了确保生成的问题与图像内容的一致性,论文邀请了三个不同年龄段的志愿者参与数据收集阶段,提交问题。这些志愿者根据图像场景和知识库内容提出了不同难度的问题,并设计了令人困惑的错误选项。(3)问题格式。志愿者提供的图像-问题对必须遵循以下格式:[级别]-[年龄]-[场景]。其中,级别分为1级和2级;年龄分为老年、中年和年轻;场景包括建筑、教育、家务、社会服务、体育和交通。最后,由专家团队对志愿者提交的问题进行了筛选和评估,以最终确定问题的构建。

数据统计。MDI基准测试从三个维度收集数据:场景、年龄组和能力。该测试包含514张图像和1298个问题,所有内容均为新收集。同时,论文努力确保在不同场景、年龄和问题复杂度之间保持数据的平衡。详细信息见表1。如图1所示,数据集涵盖了六个领域,每个领域下设三个子领域,构建了一个全面且结构化的数据体系,覆盖了多个领域。

五、实验

5.1 实验设置

评估协议。为了有效评估模型的输出,要求模型在响应中提供正确的答案。基于此,计算了响应的准确性。这意味着,如果模型能够正确表达概念但未能给出精确答案,则会被视为错误。这种方法强调了模型准确执行指令的能力,突出了其在这一能力上的不足。此外,由于不同模型的提示输入格式各不相同,论文对每个模型的输入格式进行了调查。随后,论文努力保持提示的一致性,遵循每个模型提供的官方输入格式。这种方法旨在减少提示差异对模型性能的影响。

提示模板。表4列出了论文实验中使用的提示模板。

评估模型。论文研究了两类基础模型在MDI基准上的表现。

(a)闭源模型:GPT-4o、GPT-4V、Qwen-VL-Plus、Gemini 1.5 Pro;

(b)开源模型:LLaVA-NeXT-110B、LLaVA-NeXT-70B、LLaVANeXT-7B、DeepSeek-VL-7B、DeepSeek-VL-1.3B、Phi3-Vision- 4.2B、MiniCPM-LLaMA3-V 2.5、CogVLM-chat、CogAgent-vqa、mPLUG-Owl2-7B。

评分指标。表2展示了不同语言模型在两种问题复杂度水平和六个场景下的整体性能。为了更好地评估模型的能力,论文定义了评分指标:

其中,分别代表LMMs在不同领域第一层级和第二层级的平均表现,论文把默认值α设为0.5。

5.2 主要结果

表2展示了不同语言模型在MDI基准测试中的整体表现。论文发现以下几点:

GPT系列模型表现出绝对优势。GPT-4o在所有模型中表现最佳,获得了最高性能评分。此外,闭源模型普遍优于开源模型。然而,一些强大的开源模型在追赶闭源模型方面遇到了困难。例如,LLaVA-NeXT-110B和LLaVA-NeXT-72B的表现略逊于Gemini 1.5 Pro,但优于Qwen-VL-Plus。

模型性能的规模效应。此外,由于闭源模型数据有限,论文在开源模型中观察到了一些有趣的现象。论文选择了不同规模下表现最佳的开源模型,包括LLaVA-NeXT-110B、LLaVA-NeXT-72B、MiniCPM-LLaMA3-V 2.5、DeepSeek-VL-7B、Phi3-Vision-4.2B和DeepSeek-VL-1.3B。如图4所示(不同LMMs的排行榜),这些模型的最终得分表明,模型参数越大,其在实际场景中解决问题的能力就越强。这与人类的经验一致:更大的语言模型参数意味着更多的文本逻辑训练样本,减少了模型蒸馏的需要。面对更复杂的逻辑推理任务时,这些模型能够利用更多的底层知识和基本能力。

5.3 场景维度分析

LMMs在日常场景中的表现仍有很大的提升空间。为了观察不同模型在各种场景中的具体表现,如图3所示,论文计算了不同模型在不同领域的准确率。结果显示,这14种LMMs在教育场景的Level 1中表现优异。在建筑、家务、交通和社会服务场景中,这些模型的表现更加均衡。然而,在体育场景中,LMMs的表现存在一些不足,论文认为这与当前LMMs的训练数据密切相关。目前,LMMs研究团队主要致力于利用现有的互联网文本数据和高质量的教科书数据,提升训练和测试的质量,但忽视了日常生活领域数据集和能力的改进。MDI基准的出现正是为了弥补这一不足。论文认为,逻辑推理问题的类型及其在体育和交通领域的背景知识比建筑领域更为丰富和广泛,这导致了问题难度的增加和推理性能上的显著差距。

5.4 复杂性维度分析

随着问题复杂性的增加,模型的性能显著下降。同一模型在不同场景中的回答准确性也会显著变化。例如,在GPT-4o的最佳教育场景中,其准确率从94.12%降至70.59%。这表明问题复杂性对模型性能有显著影响。

问题的复杂性在不同场景中展现了丰富的概括多样性。为了分析这些语言模型(LMMs)在多个层级上的详细表现,论文制作了雷达图(图4),展示了14个LMMs在一级和二级不同场景下的表现。为了展示不同问题复杂度对宏观性能变化的影响,论文还生成了性能方差和总和的统计数据,将平均值和方差数据分别绘制在不同的轴上,以突出宏观趋势(图5)。通常,平均值高且方差低的模型表现出更优和更全面的能力。

在一级考察中,大多数模型表现出平衡的性能,如图4所示。值得注意的是,CogAgent-vqa和LLaVA-NeXT-7B等模型表现出明显的例外。在二级考察中,GPT-4o的方差显著增加,只有GPT系列和Gemini 1.5 Pro保持了平衡的性能。如图4所示,只有GPT系列显示出轻微的性能下降,而其他LMMs在体育场景中则出现了急剧的性能下降。

与高级闭源语言模型相比,开源语言模型需要在特定的日常生活能力和复杂问题场景上进行更多的研究,以缩小显著的差距。值得注意的是,如图5所示,LLaVA-NeXT-72B在第2级的表现与最优模型LLaVA-NeXT- 110B相似,但方差有所减少,这表明通过有效的蒸馏技术实现更好的性能和更小的参数是一个值得进一步探索的领域。

论文认为,研究社区在这些领域的数据集和能力提升上缺乏关注,加上逻辑推理和所需背景知识的多样化和广泛性,比简单任务更为显著。这种多样性导致模型在推理性能上的差距随着问题复杂性的增加而显著扩大。因此,需要进一步的研究来解决这些问题,并提高LMM在复杂问题场景中的表现。

5.5 年龄维度分析

为了进行更直接和宏观的性能分析,论文在主表中仅展示了平均性能统计数据,如表3所示,主要反映了LMMs在三个年龄分层中的表现。此外,论文还根据年龄组和场景维度详细分析了模型的性能,详见附录D。论文有以下观察结果

所有模型都遵循了水平评估的维度,但不同年龄段的表现存在差异。如表3所示,GPT-4o在年龄维度上依然表现最佳,比排名最高的开源模型高出13分,比排名最低的闭源模型高出35分。这种在年龄分层评估中的显著优势,突显了GPT-4o强大的泛化能力和在日常使用场景中的领导地位。然而,从年龄维度评估模型的能力时,可以洞察该模型在不同群体和各种现实场景中的有效性。鉴于个人在日常生活中会遇到多种情况,模型的能力必须全面,以满足多样化的人类需求。观察到不同年龄段的准确性下降,这表明所有模型在这一方面还有很大的提升空间。这一发现强调了进一步研究年龄相关问题的重要性,并突显了论文工作的必要性和创新性。

模型在不同年龄层的总体泛化能力不足。如图6所示,论文进一步展示了模型在老年、中年和年轻三个年龄段的表现。通过汇总各年龄段的模型结果,论文发现老年组的总分为856.38,中年组为764.72,年轻组为902.94。这一分布揭示了不同年龄段问题的实际难度顺序:中年组>老年组>年轻组。在实际应用中,中年人提出的问题往往涉及更多方面,需要更强的逻辑推理和背景知识,而老年人或年轻人提出的问题则相对简单。因此,多模态语言模型需要具备强大的综合能力,以有效应对这类问题。GPT-4o在这方面表现出色,所有三个与年龄相关的类别中的性能差距都很小。有趣的是,尽管Cog系列模型拥有最大的视觉编码器,但在年轻组的表现却明显下降,这表明其大型视觉编码器的泛化能力不如CLIP-ViT/L14。

在时间维度上,语言模型的扩展性能显著,但模型压缩展现出巨大潜力。论文发现,在每个模型层中,语言模型参数最多的模型表现最佳。实证研究表明,语言模型在语言模型模型(LMMs)中的作用比视觉编码器更为重要。此外,论文惊讶地发现,Phi3- Vision-4.2B仅使用约4.2B参数,其宏观性能就超过了闭源模型Qwen-VL-Plus。这表明,LMMs在模型参数压缩方面仍有很大的探索空间。

六、结论

本文中,论文提出了MDI基准测试,这是一种评估大型多模态模型(LMMs)在多维度场景中解决实际人类需求能力的工具。该基准测试包含超过500张图像和1200个相关需求,涵盖了人类生活的六大方面。此外,论文引入了年龄分层和基于老年人、中年人及年轻人需求的抽样问题,以确保评估的全面性。通过MDI基准测试,论文对14种现有的LMMs进行了评估,揭示了它们在不同场景下的表现偏好。尽管GPT-4o在多个指标上表现最佳,但在所有年龄组和场景中仍存在性能差距。因此,论文建议未来的研究应着重于提高LMMs对人类需求的适应性及其在不同领域和年龄组中的泛化能力。这将为下一代能够有效满足人类需求的LMMs铺平道路。

http://www.dtcms.com/a/601574.html

相关文章:

  • 培训学校网站建设要点做一个网站最低多少钱
  • 企业网站备案 过户网上询价
  • 现代Java Web应用部署全栈实战:Tomcat集群+JDK17+Spring Boot+Nginx负载均衡
  • 东莞网站建设公司口碑排名网站开发怎么让别人看到
  • 网站备案要烟台网站制作工具
  • 医疗电子发票真伪查验API-财政票据查验-接口技术解析
  • Aloudata Agent 重磅功能发布:“用户编排思路、AI 精准执行、可沉淀复用”的模块化分析报告
  • ThreadLocal 结构设计的精妙之处
  • 【Numpy数据运算】数组间运算
  • discuz修改网站底部网站建设平台推荐
  • 大型 GPU 服务集群监控方案(>50 节点)
  • 从零到一:编写一个简单的 Umi 插件并发布到 npm
  • 企业做网站的费用如何科目邢台哪个公司做网站好
  • R语言编译器使用技巧与常见问题
  • 国内哪家网站做的系统纯净南京网站开发荐南京乐识
  • 网站建设单选题wordpress新手教程
  • 白牌笔记本电脑制造商能提供哪些定制服务?
  • ubuntu 22.04 升级openssh默认版本8.9p1 到10.1p1
  • User Prompt 与 System Prompt:大模型沟通的“双引擎”机制深度拆解
  • 在Anaconda Prompt完成模型训练
  • AR党建互动台-VR智慧党建沙盘-AR党建识别桌
  • 济宁做网站的大连建设
  • 建设银行新版网站上线免费网站如何赚钱
  • [Linux]学习笔记系列 -- [kernel]kthread
  • 网站开发备案帮企业做网站
  • 链盾shieldchain | 数据库、用户注册、登录、标识查询、商业软件申请和处理、消息
  • C++ set 容器:有序唯一元素集合的深度解析与实战
  • 前端的dist包放到后端springboot项目下一起打包
  • Swift 6.2 列传(第六篇):内存安全的 “峨眉戒令”
  • 毕设用别人网站做原型企业英语培训哪里好