当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(八十九)

在这里插入图片描述

MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?

➡️ 论文标题:MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?
➡️ 论文作者:Jinming Li, Yichen Zhu, Zhiyuan Xu, Jindong Gu, Minjie Zhu, Xin Liu, Ning Liu, Yaxin Peng, Feifei Feng, Jian Tang
➡️ 研究机构: Midea Group、Shanghai University、University of Oxford、East China Normal University
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在解决复杂数学问题、掌握常识和抽象推理方面表现出色,但它们是否能够可靠地作为家庭机器人(in-home robotics)的“大脑”仍存在不确定性。现有的多模态基准测试主要关注常识和日常知识,而机器人所需的特定领域知识和能力,如任务规划、视觉推理和安全性评估,尚未得到充分探索。
➡️ 研究动机:为了评估MLLMs在机器人应用中的能力,研究团队开发了首个系统性设计的诊断基准——MMRo(Multimodal Model for Robotics),旨在全面分析MLLMs在机器人领域的不同能力,特别是感知、任务规划、视觉推理和安全性测量四个方面。通过这一基准测试,研究团队希望揭示MLLMs在机器人应用中的潜在缺陷,并为未来的改进提供指导。
➡️ 方法简介:研究团队构建了包含26,175个精心设计的视觉问答对(VQA pairs)的MMRo基准测试,这些问答对涵盖了14个关键场景,涉及850张来自公开数据集的图像和284张由专业人士拍摄的真实世界图像。MMRo基准测试包括多个选择题和开放式问题,以适应不同的评估需求。多个选择题便于快速评估模型,而开放式问题则通过GPT-4V和人工评审来确保评估的准确性。
➡️ 实验设计:研究团队使用了多种顶级的MLLMs,包括商业和开源模型,对MMRo基准测试进行了全面评估。实验设计了多个子领域的能力测试,如物体颜色、形状、材料识别、任务序列规划、物体功能识别、安全操作等。通过这些测试,研究团队评估了MLLMs在不同任务中的表现,发现即使是当前最先进的模型,如Gemini-Pro,在基本的感知任务和安全评估方面也存在显著的不足。

Efficient Large Multi-modal Models via Visual Context Compression

➡️ 论文标题:Efficient Large Multi-modal Models via Visual Context Compression
➡️ 论文作者:Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi, Alan Yuille
➡️ 研究机构: Johns Hopkins University
➡️ 问题背景:尽管在大型语言模型(LLMs)中,文本嵌入的压缩表示已经取得了显著进展,但多模态LLMs(MLLMs)中视觉令牌的压缩表示和高效处理仍然是一个相对未被探索的领域。研究发现,通过简单的平均池化减少视觉令牌数量,可以在测试阶段显著减少计算量,而对视觉问答任务的准确性影响较小,这表明视觉令牌中存在显著的冗余。
➡️ 研究动机:为了进一步探索视觉令牌在多模态LLMs中的冗余性,并提出有效的压缩技术,研究团队通过实验验证了视觉令牌的冗余性,并提出了一种视觉上下文压缩器(Visual Context Compressor),旨在减少视觉令牌数量,提高训练和推理效率,同时保持模型性能。
➡️ 方法简介:研究团队首先通过在预训练的LLaVA-1.5-7B模型中应用平均池化,验证了视觉令牌的冗余性。然后,提出了一种简单的视觉上下文压缩器,通过在不同的Transformer层中应用平均池化来减少视觉令牌的数量。此外,为了进一步减少压缩带来的信息损失,研究团队设计了一种轻量级的分阶段训练方案(LLaVolta),该方案在训练的不同阶段逐步减少视觉令牌的压缩比,从而在保持模型性能的同时提高训练效率。
➡️ 实验设计:研究团队在13个广泛采用的多模态LLMs基准测试中进行了实验,包括图像-语言理解和视频-语言理解任务。实验设计了不同的压缩比和训练阶段,以全面评估模型在不同条件下的性能和效率。实验结果表明,LLaVolta不仅提高了MLLMs的性能,还显著减少了训练成本和推理延迟。

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

➡️ 论文标题:Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs
➡️ 论文作者:Sukmin Yun, Haokun Lin, Rusiru Thushara, Mohammad Qazim Bhat, Yongxin Wang, Zutao Jiang, Mingkai Deng, Jinhong Wang, Tianhua Tao, Junbo Li, Haonan Li, Preslav Nakov, Timothy Baldwin, Zhengzhong Liu, Eric P. Xing, Xiaodan Liang, Zhiqiang Shen
➡️ 研究机构: MBZUAI, CMU, UIUC, HYU ERICA, Petuum, SYSU, Pengcheng Laboratory
➡️ 问题背景:多模态大语言模型(MLLMs)在处理和生成各种模态(如图像、视频和音频)的任务中取得了显著成功。然而,现有的MLLMs在理解和生成网页截图及其对应的HTML代码方面表现不佳。例如,给定“解析此网页的HTML代码”的指令时,LLaVA-1.5等模型生成的代码质量较差,无法保留原始网页的大部分特征,这限制了其在UI原型设计、自动化代理和可访问性等应用中的实用性。
➡️ 研究动机:为了提高MLLMs在网页理解和HTML代码生成任务中的表现,研究团队提出了Web2Code,这是一个包含大规模网页到代码数据集和评估框架的基准。该数据集旨在通过增强现有的网页到代码数据集和生成新的网页图像-代码对,来改进模型的网页理解和代码生成能力。此外,研究团队还开发了网页理解基准(WUB)和网页代码生成基准(WCGB),以全面评估模型在这些任务中的性能。
➡️ 方法简介:Web2Code数据集的构建包括四个关键部分:1) 生成新的网页图像-代码对数据;2) 精炼现有的网页代码生成数据;3) 创建新的文本问答对数据;4) 精炼现有的网页理解数据。这些数据集不仅包含HTML代码,还包括关于网页内容的结构化问答对,以帮助模型更好地理解网页信息。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括WebSight、Pix2Code和GPT-3.5生成的数据。实验设计了不同的评估指标,如视觉结构和对齐、文本和内容一致性、颜色和美学设计、用户界面和交互性等,以全面评估模型在网页理解和代码生成任务中的表现。此外,研究团队还提出了两个基准:WUB和WCGB,分别用于评估网页理解和网页代码生成的能力。WUB采用离线评估,基于“是”/“否”问答对;WCGB采用在线评估,基于图像相似度。

Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges

➡️ 论文标题:Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges
➡️ 论文作者:Mohammed Elhenawy, Ahmad Abutahoun, Taqwa I. Alhadidi, Ahmed Jaber, Huthaifa I. Ashqar, Shadi Jaradat, Ahmed Abdelhay, Sebastien Glaser, Andry Rakotonirainy
➡️ 研究机构: Queensland University of Technology, Al-Ahliyya Amman University, Budapest University of Technology and Economics, Arab American University, Minia University
➡️ 问题背景:旅行商问题(TSP)和多旅行商问题(mTSP)是组合优化中的经典难题,具有NP-hard的复杂度,广泛应用于物流、规划和网络设计等领域。传统解决方法依赖于距离矩阵和节点坐标的显式计算。然而,人类在解决这类问题时,往往采用视觉和启发式方法,快速生成合理解决方案,而无需详细计算。
➡️ 研究动机:受人类直观问题解决策略的启发,本研究探索了一种新的视觉推理方法来解决TSP和mTSP。该方法利用多模态大型语言模型(MLLMs)的视觉检查能力和团队协作的迭代优化,无需文本数据或距离矩阵,旨在提供一种更直观、灵活的解决方案。
➡️ 方法简介:研究团队提出了两种多代理策略,利用MLLMs的视觉推理能力解决TSP和mTSP。第一种策略(Multi-Agent 1)包括三个代理:初始化器(Initializer)、评论者(Critic)和评分者(Scorer),每个代理负责提出、优化和评估路线。第二种策略(Multi-Agent 2)简化了方法,仅使用初始化器和评论者,专注于快速迭代优化。
➡️ 实验设计:实验在零样本设置下进行,引入了创新的多代理零样本情境。实验评估了不同规模问题实例的解决方案质量,使用了平均差距百分比、标准差和Wilcoxon符号秩检验等指标。结果表明,两种多代理模型在解决TSP和mTSP问题上显著提高了解决方案的质量,特别是在较小和中等规模的问题实例中表现尤为突出。

Curriculum Learning with Quality-Driven Data Selection

➡️ 论文标题:Curriculum Learning with Quality-Driven Data Selection
➡️ 论文作者:Biao Wu, Fang Meng, Ling Chen
➡️ 研究机构: Australian Artificial Intelligence Institute、University of Liverpool
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了卓越的能力。然而,现有的数据选择方法在多模态指令调优中存在局限性,如依赖单一、不可靠的评分或使用下游任务进行选择,这可能导致过拟合。此外,这些方法通常只关注高质量数据,而忽视了数据质量的多样性。
➡️ 研究动机:为了克服现有数据选择方法的局限性,研究团队提出了一种新的数据选择方法,该方法利用图像-文本相关性和模型困惑度来评估和选择不同质量的数据。此外,研究团队还引入了课程学习(Curriculum Learning)策略,通过多阶段训练逐步提高数据质量,以提高模型的微调性能。
➡️ 方法简介:研究团队提出了一种基于图像-文本相关性和模型困惑度的数据选择方法,构建了一个二维表示空间,用于观察不同任务类型设置下的数据分布差异。通过划分关键区域,可以获取不同质量的数据子集。此外,研究团队还提出了一种课程学习框架,该框架从简单任务开始,逐步过渡到更复杂的任务,通过逐步增加数据质量来优化模型性能。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括视觉-语言指令调优(Vision-Language Instruction Tuning, VLIT)任务。实验设计了不同的训练场景,如从LLaVA-v1.5-7B模型开始的微调,以及从Vicuna模型开始的微调。实验结果表明,使用新方法选择的数据子集,即使只使用原始数据集的5%,也能在多个评估基准上取得更好的性能。

相关文章:

  • 【paddle】常见的数学运算
  • 技术篇-2.5.Matlab应用场景及开发工具安装
  • OpenCV CUDA 模块图像过滤-----创建一个计算图像导数的滤波器函数createDerivFilter()
  • 欧拉降幂(JAVA)蓝桥杯乘积幂次
  • 【机器学习】 关于外插修正随机梯度方法的数值实验
  • C++ 02.好用的命令行解析库cmdline和CLI11
  • 【LLIE专题】基于事件相机照度估计的暗光增强方案
  • poppler_path 是用于 Python 库如 pdf2image 进行 PDF 转换时
  • 天文数据处理:基于CUDA的射电望远镜图像实时去噪算法(开源FAST望远镜数据处理代码解析)
  • 大规模实验管理系统的GPU资源调度设计(基于优先级队列的动态算力分配算法)
  • [原创](现代Delphi 12指南):[macOS 64bit App开发]: 如何获取目标App的程序图标?
  • Linux 之 MTD 子系统框架
  • 手机打电话时由对方DTMF响应切换多级IVR语音菜单(话术脚本与实战)
  • 第十节第六部分:常见API:DateTimeFormatter、Period、Duration
  • 智能办公协同系统开发日志(三):画板模块设计与实现全记录
  • Minion-Agent:软件测试领域的智能自动化实践
  • JUC入门(五)
  • DeepSeek Mermaid:如何将文本直接转化为精美图表? -优雅草卓伊凡
  • LeetCode Hot100(滑动窗口)
  • STL 转 STP 深度技术指南:从 3D 打印模型到工程标准的跨领域转换全解析(附迪威模型在线方案)
  • 萧山做网站的企业/网站收录批量查询
  • 用asp做的网站打开页面很慢/免费创建属于自己的网站
  • 域名有了怎么建网站/营销活动策划
  • 深圳多语言网站建设/百度网址大全旧版
  • 如何防止网站被劫持/百度关键词排名手机
  • 网站做营销推广公司/做任务赚佣金一单10块