多模态大语言模型arxiv论文略读(三)
Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance
➡️ 论文标题:Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance
➡️ 论文作者:Sunkyoung Kim, Dayeon Ki, Yireun Kim, Jinsik Lee
➡️ 研究机构: LG AI Research、University of Maryland
➡️ 问题背景:多语言大型语言模型(MLLMs)通过上下文学习展示了显著的跨语言能力。然而,将整个上下文示例翻译成目标语言可能会破坏上下文的完整性,并且在处理长文本时成本高昂。现有的方法通常构建单语言的上下文示例,这在源语言或目标语言中进行,但这种方法在翻译成本和上下文完整性方面存在局限性。
➡️ 研究动机:为了克服这些局限性,研究团队提出了一种新的跨语言问答(Cross-lingual QA)提示方法,该方法仅翻译问题和答案部分,从而减少翻译成本,同时保持上下文的完整性。研究旨在通过这种方法有效激发模型的跨语言知识,提高跨语言任务的性能。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建跨语言问答提示(Cross-lingual QA Prompting),在保持源语言段落不变的情况下,将问题和答案部分翻译成目标语言。这种方法在四个多语言基准数据集上进行了实验,涵盖了分类、推理和问答任务。实验结果表明,跨语言问答提示方法在性能上优于现有的单语言提示方法,并且随着模型规模的增加,其效果更加显著。
➡️ 实验设计:实验在四个多语言基准数据集上进行,包括XNLI(分类任务)、XCOPA(推理任务)和MLQA、XQuAD(问答任务)。实验设计了不同规模的模型(1B、3B、7B),并比较了三种不同的提示方法:源语言提示、目标语言提示和跨语言问答提示。实验结果表明,跨语言问答提示方法在所有任务中均表现出色,尤其是在较大规模的模型中,其性能提升更为显著。
Towards a Common Understanding of Contributing Factors for Cross-Lingual Transfer in Multilingual Language Models: A Review
➡️ 论文标题:Towards a Common Understanding of Contributing Factors for Cross-Lingual Transfer in Multilingual Language Models: A Review
➡️ 论文作者:Fred Philippy, Siwen Guo, Shohreh Haddadan
➡️ 研究机构: Zortify Labs, Zortify S.A., SnT, University of Luxembourg
➡️ 问题背景:近年来,预训练的多语言模型(MLLMs)展现了强大的跨语言知识转移能力。然而,这种能力的出现并非是这些模型设计时的明确目标,因此对其出现的原因难以给出单一且直接的解释。本文综述了相关文献,探讨了影响MLLMs零样本跨语言转移能力的不同因素。
➡️ 研究动机:尽管MLLMs在跨语言任务中表现出色,但对其跨语言转移能力的解释仍存在争议。本文旨在通过综述现有研究,识别并讨论影响MLLMs跨语言转移能力的因素,解决研究中的矛盾,为未来的研究提供参考点,并指导更有效地利用MLLMs的跨语言能力。
➡️ 方法简介:研究团队将影响MLLMs跨语言转移能力的因素分为五类:语言相似性、词汇重叠、模型架构、预训练设置和预训练数据。通过回顾文献,团队不仅概述了过去研究中的共识,还尝试解决矛盾之处,为理解MLLMs的跨语言转移能力提供了结构化的框架。
➡️ 实验设计:研究没有进行新的实验,而是基于对现有文献的综合分析。研究团队评估了不同因素(如语言相似性、词汇重叠等)对跨语言转移性能的影响,并通过比较不同研究的结果,探讨了这些因素在不同情境下的作用。此外,研究还讨论了不同下游任务中词汇重叠的重要性,以及模型架构对跨语言转移性能的影响。
Contextual Object Detection with Multimodal Large Language Models
➡️ 论文标题:Contextual Object Detection with Multimodal Large Language Models
➡️ 论文作者:Yuhang Zang, Wei Li, Jun Han, Kaiyang Zhou, Chen Change Loy
➡️ 研究机构: Nanyang Technological University (NTU)、Hong Kong Baptist University (HKBU)
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中表现出色,如图像描述和问答。然而,这些模型缺乏基本的感知能力,即对象检测。为了提升MLLMs在人类-AI交互中的能力,研究团队提出了一种新的研究问题——情境对象检测(Contextual Object Detection),即在不同的交互情境中理解可见对象。
➡️ 研究动机:现有的对象检测模型通常局限于预定义的对象类别,无法处理人类语言词汇中的对象。此外,现有的检测模型采用的是“定位-分类”范式,不适用于需要理解上下文信息的情境对象检测。因此,研究团队旨在开发一种新的框架,能够处理人类语言词汇中的对象,并在不同的交互情境中进行对象检测。
➡️ 方法简介:研究团队提出了ContextDET,这是一种新的“生成-检测”框架,专门用于情境对象检测。ContextDET由三个关键模块组成:(1)视觉编码器,用于提取图像的高级表示;(2)预训练的大型语言模型(LLM),用于生成多模态上下文信息;(3)视觉解码器,用于预测对象的边界框。通过这种方式,ContextDET能够检测出与人类语言词汇相关的对象。
➡️ 实验设计:研究团队在三个任务上进行了实验,包括语言填空测试(Cloze Test)、视觉描述(Visual Captioning)和问答(Question Answering)。实验数据集包括CODE基准数据集,以及开放词汇检测和指代图像分割任务。实验设计了不同的上下文场景,以评估模型在不同任务中的表现和泛化能力。
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark
➡️ 论文标题:LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark
➡️ 论文作者:Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Jing Shao, Wanli Ouyang
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory、Beihang University、The University of Sydney、Fudan University、Dalian University of Technology
➡️ 问题背景:人类与现实世界的互动涉及多模态信息,如视觉和语言。大型语言模型(LLMs)在实现通用AI代理方面取得了显著进展,能够直接理解用户意图并泛化到未知任务。然而,人类与世界的互动不仅限于文本,视觉等其他模态同样重要。尽管多模态大型语言模型(MLLMs)如GPT-4V和Bard展示了处理视觉输入的能力,但这些模型的透明度有限,无法支持学术研究。
➡️ 研究动机:为了推动多模态大型语言模型的研究,研究团队提出了LAMM,这是一个开放源代码的多模态指令调优数据集、框架和基准。LAMM旨在建立一个生态系统,用于训练和评估MLLMs,特别是促进能够弥合想法与执行之间差距的多模态AI代理的发展,从而实现人类与AI机器之间的无缝互动。
➡️ 方法简介:研究团队构建了一个全面的多模态指令调优数据集,涵盖了2D和3D视觉任务。该数据集强调细粒度信息和事实知识,并设计了将视觉任务注释转换为指令-响应对的方法,以增强MLLMs对视觉任务指令的理解和泛化能力。此外,数据集还包括常识知识问答的数据对,通过结合分层知识图标签系统和相应的Wikipedia描述。
➡️ 实验设计:研究团队在11个数据集上评估了9个常见的2D图像任务,以及3个常见的3D点云任务,共使用了超过62,439个2D样本和超过12,788个3D样本。实验设计了两种新的评估策略,一种是基于GPT-API的语言性能评分逻辑,另一种是针对涉及定位点和查询图像之间交互的任务(如目标检测和姿态估计)的对象定位评估方法。通过超过200次实验,研究团队提供了关于MLLMs能力与限制的广泛结果和有价值的观察。
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
➡️ 论文标题:MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
➡️ 论文作者:Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, Rongrong Ji
➡️ 研究机构: 腾讯优图实验室、厦门大学
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理多模态任务时展现了强大的能力,如基于图像写诗。然而,现有的评估方法难以全面反映MLLMs的性能,缺乏一个综合的评估基准。
➡️ 研究动机:为了填补这一空白,研究团队提出了第一个综合评估基准MME,旨在全面评估MLLMs的感知和认知能力。MME包含14个子任务,所有指令-回答对均为人工设计,以避免数据泄露的风险。此外,简洁的指令设计使得模型在不同任务上的表现可以公平比较。
➡️ 方法简介:MME评估了30个先进的MLLMs,涵盖了感知和认知能力的多个方面。感知任务包括粗粒度和细粒度的物体识别、OCR等;认知任务包括常识推理、数值计算、文本翻译和代码推理。所有数据集和指令-回答对均为人工设计,确保了评估的公正性和准确性。
➡️ 实验设计:实验在14个子任务上进行了大规模评估,每个子任务包含20到200张图像和40到400个指令-回答对。评估指标包括准确率(accuracy)和综合准确率(accuracy+),后者要求模型在每个图像的两个问题上都回答正确。实验结果揭示了当前MLLMs在不同任务上的表现差异,并总结了四个主要问题,为后续模型优化提供了指导。