当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(七十九)

在这里插入图片描述

AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning

➡️ 论文标题:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
➡️ 论文作者:Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:上下文学习(In-context Learning, ICL)在大规模语言模型(LLMs)中展现了显著的能力,无需更新数十亿参数即可在未见过的数据上获得理想性能。然而,在多模态大规模语言模型(MLLMs)中,ICL的应用面临两个主要问题:(1) 大多数主要的MLLMs仅在单图像数据集上训练,无法处理额外的多模态演示;(2) 随着演示数量的增加,数千个视觉标记对硬件资源造成巨大挑战,并降低ICL性能。
➡️ 研究动机:研究团队发现,MLLMs在生成过程中更关注语言模态,而非视觉模态。基于这一发现,研究团队提出了一种新的框架AIM,通过将多模态演示中的图像信息聚合到文本的潜在空间中,减少视觉标记的数量,从而提高MLLMs在多模态ICL中的效率和性能。
➡️ 方法简介:AIM框架通过将多模态演示中的图像信息聚合到文本的潜在空间中,生成融合的虚拟标记,以替代原始的图像-文本对。这些融合的虚拟标记与文本长度相同,从而显著减少了演示的长度。AIM可以在不改变查询图像和文本的情况下,将多图像提示近似转换为包含单个查询图像的提示,从而提高模型的性能。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括图像描述(Image Caption)、视觉问答(VQA)和仇恨言论检测(Hateful Speech Detection)。实验设计了不同因素(如图像数量、图像分辨率和文本长度)的变化,以及不同类型的评估任务(如开放性问题和封闭性问题),以全面评估AIM在多模态ICL中的表现。实验结果表明,AIM在减少内存使用和提高推理吞吐量方面表现出色,同时在多个任务上取得了与基础模型相当或更好的性能。

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

➡️ 论文标题:MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
➡️ 论文作者:Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
➡️ 研究机构: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景:随着大规模语言模型(LLMs)的快速发展,多模态大规模语言模型(MLLMs)在多种任务中展现了卓越的能力。然而,MLLMs在实际应用中面临复杂的场景,容易受到潜在的恶意指令的影响,从而带来安全风险。现有的评估基准虽然包含了一定的安全考虑,但往往缺乏全面性和严谨性,例如使用GPT-4V同时作为评估者和被评估模型,存在自我偏见的问题。
➡️ 研究动机:为了应对MLLMs在安全评估方面的不足,研究团队开发了MLLMGUARD,一个多维度的安全评估套件,旨在为MLLMs提供全面的安全评估。MLLMGUARD不仅涵盖了隐私、偏见、毒性、真实性和合法性五个重要安全维度,还通过引入对抗性样本和高质量的人工标注,提高了评估的挑战性和准确性。
➡️ 方法简介:MLLMGUARD包括一个双语(英语和中文)图像-文本评估数据集、推理工具和一个轻量级评估器。数据集主要来源于社交媒体,通过红队技术(Red Teaming Techniques)和人工标注,确保数据的多样性和挑战性。轻量级评估器GUARDRANK通过预训练语言模型(如LLaMA-2和Roberta-large)进行微调,实现了对MLLMs的自动化评估,显著提高了评估的准确性和效率。
➡️ 实验设计:研究团队在13个先进的MLLMs上进行了评估,包括2个闭源模型和11个开源模型。评估涵盖了隐私、偏见、毒性、真实性和合法性五个维度,每个维度下设多个子任务。实验结果表明,尽管GPT-4V在多个维度上表现最佳,但MiniGPT-v2在某些方面(如真实性和合法性)的表现更为出色。此外,GUARDRANK在评估准确性上显著优于GPT-4,证明了其在多模态模型安全评估中的有效性和可靠性。

Grounding Multimodal Large Language Models in Actions

➡️ 论文标题:Grounding Multimodal Large Language Models in Actions
➡️ 论文作者:Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
➡️ 研究机构: Apple, Georgia Tech, Mila
➡️ 问题背景:多模态大语言模型(MLLMs)在多个领域展示了广泛的能力,尤其是在具身AI中。然而,这些模型在具身任务中的能力受限于其输出空间(自然语言)与具身代理的动作空间之间的差距,特别是在连续动作空间中,低级控制器可能需要高度的精度。
➡️ 研究动机:为了克服MLLMs在具身任务中的局限性,研究团队通过系统的方法研究了如何将MLLMs有效地与不同的具身体现及其动作空间结合,旨在提高模型在具身任务中的性能。
➡️ 方法简介:研究团队提出了一种统一的架构,通过动作空间适配器(Action Space Adapters, ASAs)来重新参数化MLLMs的输出,使其能够生成动作。研究包括了连续动作空间和离散动作空间的ASAs,通过学习的分词策略和语义对齐策略来优化模型的性能。
➡️ 实验设计:研究在五个不同的具身AI环境中进行了实验,包括三个机器人连续控制环境和两个离散动作环境,涵盖了114个具身任务。实验评估了不同ASAs在任务成功率、RL样本效率等方面的表现,结果表明,对于连续动作空间,学习的分词策略(Residual VQ)表现最佳;对于离散动作空间,语义对齐策略(Semantic Tokenization)表现最佳。

Multimodal Table Understanding

➡️ 论文标题:Multimodal Table Understanding
➡️ 论文作者:Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院、百度公司、北京师范大学人工智能学院
➡️ 问题背景:尽管基于大型语言模型(LLMs)的表格理解方法取得了显著进展,但这些方法通常依赖于将表格转换为特定的文本序列(如Markdown或HTML)作为模型输入。然而,在某些现实场景中,获取高质量的文本表格表示形式非常困难,而表格图像则更为常见。因此,如何直接利用直观的视觉信息来理解表格,成为开发更实用应用的关键和紧迫挑战。
➡️ 研究动机:现有的表格理解方法,包括基于LLMs的方法,大多只能处理有限的任务,且需要将表格转换为文本序列。这限制了表格理解技术在实际场景中的应用。为了克服这一限制,研究团队提出了多模态表格理解问题,旨在使模型能够基于表格图像直接生成正确的响应,以应对各种表格相关请求。
➡️ 方法简介:研究团队构建了一个大规模的数据集MMTab,涵盖了广泛的表格图像、指令和任务。基于此数据集,研究团队开发了一个通用的多模态大型语言模型(MLLM)Table-LLaVA,该模型在23个基准测试中显著优于最近的开源MLLM基线模型。
➡️ 实验设计:实验在三个公开数据集上进行,包括多模态表格理解任务。实验设计了不同因素(如表格结构、样式和领域)的变化,以及不同类型的任务(如表格问答、表格事实验证和表格到文本生成),以全面评估模型的多模态表格理解能力。

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

➡️ 论文标题:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
➡️ 论文作者:Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种视觉-语言任务中表现出色,但其输出主要局限于文本形式,限制了其在结构化或视觉信息表示上的能力。此外,现有的扩展MLLM输出格式的方法未能完全满足实际需求,如密集对象检测、姿态估计和图像生成等任务。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队开发了VisionLLM v2,这是一个端到端的通用多模态大模型,旨在统一视觉感知、理解和生成任务。该模型不仅扩展了MLLMs的应用范围,还通过引入“超级链接”技术,实现了任务信息和梯度反馈在多任务解码器之间的高效传输,避免了任务冲突。
➡️ 方法简介:VisionLLM v2通过引入“超级链接”技术,将MLLM与特定任务解码器连接起来。该技术包括路由令牌(Routing Token)和超级链接查询(Super-Link Queries)两部分。路由令牌用于触发特定解码器的选择,而超级链接查询则作为MLLM与任务解码器之间的桥梁,确保任务信息的准确传输和梯度反馈。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,涵盖了从视觉感知到视觉理解的各种任务,包括弱交互(如封闭集任务)和强交互(如视觉提示+语言提示)任务,以及常见领域和长尾领域(如医疗、遥感、工业)的任务。实验结果表明,VisionLLM v2在各种标准基准测试中达到了与任务专用模型相当的性能。

相关文章:

  • C# DataGridView 选中所有复选框
  • Centos7系统(最小化安装)安装zabbix7版本详细文章、nginx源代码配置、php源代码、mysql-yum安装
  • CSS面试题汇总
  • 【Rust闭包】rust语言闭包函数原理用法汇总与应用实战
  • 微信小程序:封装表格组件并引用
  • C++之unordered_map/unordered_set模拟实现
  • conda创建环境常用命令(个人用)
  • STM32就业前景和下载KEIL软件(保姆级)
  • Vue3中setup运行时机介绍
  • FC7300 DMA MCAL 配置引导
  • 经典循环神经网络变体
  • 将已打包好的aar文件,上传到 Coding 的 Maven 仓库
  • Windows11安装rockerMq5.0+以及springboot集成rockerMq
  • iOS SwiftUI的具体运用实例(SwiftUI库的运用)
  • 大语言模型 10 - 从0开始训练GPT 0.25B参数量 补充知识之模型架构 MoE、ReLU、FFN、MixFFN
  • 应用层DDoS防护:从请求特征到行为链分析
  • Day 27 函数专题2 装饰器
  • 高可用消息队列实战:AWS SQS 在分布式系统中的核心解决方案
  • Core Web Vitals 全链路优化:从浏览器引擎到网络协议深度调优
  • Java + 鸿蒙双引擎:ZKmall开源商城如何定义下一代B2C商城技术标准?
  • 美联储官员:美国经济增速可能放缓,现行关税政策仍将导致物价上涨
  • 烤肉店从泔水桶内捞出肉串再烤?西安未央区市监局:停业整顿
  • 商务部:中方敦促美方尽快停止232关税措施
  • 有人倒卖试运营门票?上海乐高乐园:这些票存在无法入园风险
  • 著名植物学家、园艺学家,国际植物园协会原主席贺善安逝世
  • 李家超:明日起香港特区护照持有人可免签入境阿联酋