多模态大语言模型arxiv论文略读(五十四)
RoboMP 2 ^2 2: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models
➡️ 论文标题:RoboMP 2 ^2 2: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models
➡️ 论文作者:Qi Lv, Hao Li, Xiang Deng, Rui Shao, Michael Yu Wang, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology (Shenzhen), Great Bay University, School of Computing and Information Technology, Great Bay University
➡️ 问题背景:多模态大语言模型(MLLMs)在各种视觉和语言任务中展示了卓越的智能。然而,现有的方法在处理未见过的任务或场景时,表现出有限的泛化能力,并且忽视了机器人决策中至关重要的多模态环境信息。此外,现有的环境感知器和任务规划方法在处理复杂的空间参考和多样的任务时存在局限性。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的机器人多模态感知-规划框架(RoboMP2),旨在充分利用环境中的多模态信息和大模型的通用智能,以增强机器人的感知和推理能力。
➡️ 方法简介:RoboMP2框架由目标条件多模态感知器(GCMP)和检索增强多模态规划器(RAMP)组成。GCMP通过整合定制的MLLM,具备理解复杂参考目标的能力,能够准确识别和定位环境中的对象。RAMP通过粗略检索器和精细重排序模块,自适应地选择最相关的策略作为上下文示例,以增强策略规划的泛化能力。
➡️ 实验设计:实验在VIMA基准和现实世界任务上进行,包括17个不同难度级别的任务和7个零样本现实世界任务。实验评估了不同方法的成功率(SR),并与多种基线方法进行了比较,结果显示RoboMP2在性能上提高了约10%。
Facial Affective Behavior Analysis with Instruction Tuning
➡️ 论文标题:Facial Affective Behavior Analysis with Instruction Tuning
➡️ 论文作者:Yifan Li, Anh Dao, Wentao Bao, Zhen Tan, Tianlong Chen, Huan Liu, Yu Kong
➡️ 研究机构: Michigan State University, Arizona State University, University of North Carolina at Chapel Hill, Massachusetts Institute of Technology, Harvard University
➡️ 问题背景:面部情感行为分析(Facial Affective Behavior Analysis, FABA)对于理解人类的心理状态至关重要。然而,传统的FABA方法主要依赖于模型来区分离散的情感类别,缺乏对复杂面部行为的细粒度分析和推理能力。多模态大语言模型(MLLMs)在通用视觉理解任务中表现出色,但直接应用于FABA任务面临数据集稀缺、忽视面部先验知识和训练效率低下的挑战。
➡️ 研究动机:现有的FABA方法主要基于判别模型,这些模型在描述复杂情感和推理能力方面存在不足,限制了FABA在提供细致反馈和准确适应教育内容等领域的应用。研究团队受到MLLMs在指令调优后能够描述和推理细粒度和复杂视觉线索的能力的启发,旨在通过引入指令调优的FABA数据集、基准测试和模型架构来克服这些挑战。
➡️ 方法简介:研究团队提出了一个指令调优的FABA数据集“FABA-Instruct”,包含19,000张野生对齐的面部图像和30,000个细粒度的情感和AU注释。基于此数据集,团队还提出了一个新的基准测试“FABA-Bench”,用于评估不同MLLMs在FABA任务中的视觉识别和文本生成性能。此外,团队引入了一个高效的MLLM“EmoLA”,通过低秩适应方法和面部先验专家模块来增强预训练的MLLM。
➡️ 实验设计:研究团队在FABA-Bench和四个常用的FABA数据集上进行了广泛的实验。实验设计了不同的任务类型(如情感识别和AU识别),以及不同的评估指标(如REGE,即识别和生成性能的综合指标),以全面评估模型在FABA任务中的表现。实验结果表明,EmoLA在FABA-Instruct上取得了最佳性能,并在传统FABA数据集上达到了与任务特定的最先进模型相当或更好的结果。
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
➡️ 论文标题:LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
➡️ 论文作者:Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao
➡️ 研究机构: Alibaba Group、Zhejiang University
➡️ 问题背景:当前的文档理解任务,如文档视觉问答(Document VQA)和文档视觉信息提取,虽然已经取得了显著进展,但大多数方法在利用文档布局信息方面存在不足。现有的大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在文档理解任务中主要依赖于文本信息,而未能有效利用文档布局信息,这限制了它们在零样本文档理解任务中的表现。
➡️ 研究动机:为了提高文档理解的准确性和解释性,研究团队提出了一种新的方法——LayoutLLM,该方法通过布局指令调优策略(Layout Instruction Tuning)来增强模型对文档布局信息的理解和利用。研究旨在通过布局感知的预训练和监督微调,使模型能够更好地捕捉文档的全局和局部信息,从而在零样本文档理解任务中取得更好的性能。
➡️ 方法简介:LayoutLLM的核心是布局指令调优策略,该策略包括两个阶段:布局感知预训练(Layout-aware Pre-training)和布局感知监督微调(Layout-aware Supervised Fine-tuning)。在预训练阶段,研究团队设计了三个层次的预训练任务,分别针对文档级、区域级和段落级信息,以全面增强模型对文档布局的理解。在监督微调阶段,引入了一种新的模块——布局链式思维(LayoutCoT),该模块通过三个中间步骤(问题分析、相关区域集中、答案生成)来指导模型生成准确的答案,并提高了模型的解释性。
➡️ 实验设计:研究团队在五个广泛使用的文档理解基准数据集上进行了零样本实验,实验设计了不同的任务类型,包括文档密集描述、文档布局分析、表格理解等,以全面评估LayoutLLM在不同任务中的表现。实验结果表明,LayoutLLM在零样本文档理解任务中显著优于现有的基于LLMs和MLLMs的方法。
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security
➡️ 论文标题:Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security
➡️ 论文作者:Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li
➡️ 研究机构: TongJi University、National University of Singapore、Beijing University of Technology、Nanyang Technological University、Southeast University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在近年来取得了显著的成功,扩展了大语言模型(LLMs)处理文本和视觉信息的能力。然而,图像模态的引入虽然丰富了模型的功能,但也带来了新的安全问题。这些安全问题包括数据中毒、对抗性攻击和数据泄露等,对模型的输出和决策过程构成了潜在威胁。
➡️ 研究动机:尽管目前有许多研究关注LLMs的安全性,但针对MLLMs的安全研究仍处于初级阶段。本研究旨在深入探讨MLLMs在图像模态集成中的安全风险,包括跨模态训练的脆弱性、攻击的快速高效性和隐蔽性,以及图像中恶意信息的检测难度。通过构建威胁模型和综合分析现有研究,本研究为未来的MLLM安全研究提供了方向和建议。
➡️ 方法简介:研究团队首先构建了一个具体的威胁模型,分类了MLLMs在不同攻击场景下的多种漏洞和潜在攻击方式。随后,团队对现有的攻击和防御机制进行了全面的回顾,包括结构攻击、对抗性扰动攻击和数据中毒攻击。最后,研究提出了未来MLLM安全研究的几个可能方向,为其他研究者提供了灵感。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,评估了不同攻击方法的有效性和模型的防御能力。实验设计了多种攻击场景,包括白盒攻击、黑盒攻击和灰盒攻击,以及不同的攻击目标,如认知偏差、特定字符串输出、越狱、提示注入、后门植入和隐私泄露。通过这些实验,研究团队全面评估了MLLMs在不同条件下的安全性能。
CoReS: Orchestrating the Dance of Reasoning and Segmentation
➡️ 论文标题:CoReS: Orchestrating the Dance of Reasoning and Segmentation
➡️ 论文作者:Xiaoyi Bao, Siyang Sun, Shuailei Ma, Kecheng Zheng, Yuxin Guo, Guosheng Zhao, Yun Zheng, Xingang Wang
➡️ 研究机构: 中国科学院大学、中国科学院自动化研究所、阿里巴巴集团、东北大学、蚂蚁集团、洛阳机器人与智能装备研究所
➡️ 问题背景:多模态大语言模型(MLLM)在各种任务中展现了强大的能力,尤其是在推理分割任务中。然而,现有的MLLM在处理复杂推理文本时,难以准确地定位和分割目标对象。例如,当要求分割“狗的嗅觉器官”时,模型可能会错误地将狗的眼睛分割为目标,因为眼睛和鼻子在视觉特征上有相似之处。
➡️ 研究动机:为了提高MLLM在复杂推理分割任务中的性能,研究团队从人类处理类似任务的方式中获得灵感,提出了一个多层次的视觉层次结构,以逐步细化对目标对象的定位和分割。这种结构旨在模拟人类视觉搜索的认知过程,通过逐步推理来实现更准确的分割。
➡️ 方法简介:研究团队提出了Chain of Reasoning and Segmentation (CoReS),这是一种多模态链式思维方法,用于细粒度任务。CoReS采用双链结构,包括推理链和分割链,通过在上下文中提供额外的输入来引导MLLM生成符合层次结构的输出。推理链通过MLLM的输出注入不同逻辑层次的语义信息,而分割链则利用推理链的逻辑来迭代优化分割结果。
➡️ 实验设计:研究团队在ReasonSeg数据集上进行了广泛的实验,评估了CoReS在推理分割任务中的性能。实验设计了不同的逻辑层次和分割任务,以验证CoReS在处理复杂推理任务时的有效性和准确性。实验结果表明,CoReS在ReasonSeg数据集上的性能显著优于现有的最先进方法,提高了6.5%的准确率。