当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(122)

在这里插入图片描述

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

➡️ 论文标题:InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
➡️ 论文作者:Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
➡️ 研究机构: ByteDance, Inc、Chinese Academy of Sciences
➡️ 问题背景:尽管大规模、高质量的数据集对于增强大型语言模型(LLMs)的推理能力至关重要,特别是在数学等专业领域,但目前多模态大型语言模型(MLLMs)领域缺乏一个专门设计用于数学推理的全面开源预训练数据集。这限制了开源社区在数学推理能力方面的研究和开发。
➡️ 研究动机:为了解决这一问题,研究团队构建了InfiMM-WebMath-40B,这是一个高质量的多模态数学预训练数据集,包含2400万个网页、8500万个图像URL和400亿个文本标记。该数据集旨在填补开源社区在多模态数学数据方面的空白,为训练和微调多模态大型语言模型提供资源。
➡️ 方法简介:研究团队从CommonCrawl档案中提取内容,经过一系列严格的过滤和处理步骤,包括语言过滤、数学内容提取、高召回率过滤、去重、基于规则的过滤和高精度过滤,最终构建了InfiMM-WebMath-40B数据集。这些步骤确保了数据集的质量和相关性。
➡️ 实验设计:研究团队使用InfiMM-WebMath-40B数据集对模型进行了预训练,并在多个基准测试中进行了评估,包括MathVerse和We-Math。实验结果表明,该数据集显著提升了模型在数学推理任务中的表现,尤其是在复杂的多模态问题上。此外,即使在仅使用400亿个文本标记的情况下,该数据集也能使1.3B模型的性能与使用1200亿个文本标记的DeepSeekMath-1.3B模型相当。

Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models

➡️ 论文标题:Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models
➡️ 论文作者:Hao Cheng, Erjia Xiao, Chengyuan Yu, Zhao Yao, Jiahang Cao, Qiang Zhang, Jiaxu Wang, Mengshu Sun, Kaidi Xu, Jindong Gu, Renjing Xu
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), University of Oxford, Hohai University, Hunan University, Drexel University, Beijing University of Technology
➡️ 问题背景:随着多模态大语言模型(MLLMs)的发展,视觉语言动作模型(VLAMs)在开放词汇场景下的机器人操作任务中展现出更好的性能。然而,由于操作任务直接与物理世界互动,确保这些任务执行过程中的鲁棒性和安全性至关重要。目前,关于物理世界中VLAMs的安全性评估工作尚不充分。
➡️ 研究动机:为了评估物理世界中VLAMs面对潜在物理威胁的鲁棒性和安全性,研究团队提出了物理脆弱性评估管道(PVEP),该管道能够整合尽可能多的视觉模态物理威胁,以全面评估VLAMs的物理鲁棒性。通过比较模型在遭受攻击前后的性能波动,研究团队提供了关于VLAMs如何响应不同物理安全威胁的通用分析。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建物理脆弱性评估管道(PVEP),评估了包括分布外(OOD)、基于排版的视觉提示(VP)和对抗性补丁(AdvP)攻击在内的多种物理视觉威胁对VLAMs的影响。PVEP旨在评估模型在不同攻击条件下的表现,以提供关于模型鲁棒性和安全性的深入见解。
➡️ 实验设计:实验在VIMA和SimplerEnv两个模拟器上进行,针对LLaRA和OpenVLA两个开源VLAMs模型,设计了不同类型的物理攻击(如模糊、高斯噪声、亮度控制、基于排版的视觉提示和对抗性补丁攻击),并评估了这些攻击对模型性能的影响。实验结果通过任务失败率和完成任务所需的时间步数来衡量,展示了模型在不同攻击条件下的性能下降和时间延迟。

FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

➡️ 论文标题:FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs
➡️ 论文作者:Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang
➡️ 研究机构: The University of Hong Kong、Baidu VIS、Nanjing University of Science and Technology
➡️ 问题背景:多模态大型语言模型(MLLMs)在广泛的视觉-语言任务中展现了强大的推理和泛化能力。然而,这些模型在监督微调(SFT)阶段严重依赖高质量的数据。现有的方法虽然通过GPT-4V生成高质量数据,但这些方法由于GPT-4V的商业性质和简单指令的使用,不具备可扩展性。
➡️ 研究动机:为了生成大规模、高质量、细粒度的图像标注数据,研究团队设计了FullAnno数据引擎。该引擎通过多模型级联注释过程和丰富的指令来指导大型语言模型(LLMs)生成图像描述,旨在提高MLLMs的视觉理解能力。
➡️ 方法简介:FullAnno数据引擎包括三个主要阶段:增强注释和数据过滤、获取文本信息和区域描述、整合注释生成最终的详细描述。该引擎利用增强的检测模型和开放词汇检测模型提取图像中的文本和对象位置,通过非极大值抑制(NMS)和阈值过滤去除噪声注释。同时,使用OCR模型获取图像中的文本信息,并通过LLM生成每个对象的区域描述。最后,使用GPT-3.5整合所有离散的注释结果,生成详细的图像描述。
➡️ 实验设计:研究团队使用FullAnno引擎重新标注了COCO和Visual Genome数据集,将对象标注数量增加了三倍,并将原始描述的令牌长度增加了15倍。实验结果表明,使用增强的标注数据可以显著提高LLaVA-v1.5在多个基准测试中的性能,验证了高质量图像描述对提高模型视觉理解能力的有效性。

MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model

➡️ 论文标题:MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model
➡️ 论文作者:Zhen Yang, Jinhao Chen, Zhengxiao Du, Wenmeng Yu, Weihan Wang, Wenyi Hong, Zhihuan Jiang, Bin Xu, Jie Tang
➡️ 研究机构: Tsinghua University、Beihang University、Zhipu.AI
➡️ 问题背景:当前的多模态大型语言模型(Multi-Modal Large Language Models, MLLMs)在数学推理方面展现出了显著的能力,尤其是在解决基于文本的数学问题上。然而,现有的多模态模型,尤其是那些专注于数学的模型,主要集中在解决几何问题上,而忽视了数学中其他领域的视觉信息多样性。此外,这些模型的几何信息主要来源于几个公开数据集,这些数据集通常在多样性和复杂性方面存在局限。
➡️ 研究动机:为了克服现有模型的局限性,研究团队构建了一个名为MathVL的细调数据集,并开发了一系列名为MathGLM-Vision的专门数学多模态大型语言模型。通过在MathVL上进行监督细调(Supervised Fine-Tuning, SFT),研究团队旨在提高模型在解决包含视觉元素的数学问题上的能力,从而扩展模型可以有效解决的问题范围。
➡️ 方法简介:研究团队构建了一个包含开放源代码数据和专门收集的中国K12教育数据的MathVL数据集。该数据集涵盖了多种数学问题,包括算术、代数、几何、统计和文字问题,并提供了详细的逐步解决方案。基于MathVL数据集,研究团队开发了三个不同参数规模的MathGLM-Vision模型,分别基于GLM-4V-9B、CogVLM2-19B和CogVLM-32B三个预训练模型进行细调。
➡️ 实验设计:研究团队在四个公开基准数据集和一个专门构建的MathVL-test数据集上进行了实验。实验评估了MathGLM-Vision在解决包含视觉元素的数学问题上的表现,并与现有的多模态大型语言模型进行了比较。实验结果表明,MathGLM-Vision在多个基准数据集上显著优于现有的模型,尤其是在解决几何问题方面表现尤为突出。

VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

➡️ 论文标题:VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
➡️ 论文作者:Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang
➡️ 研究机构: Tsinghua University、Beihang University、Zhipu.AI
➡️ 问题背景:多模态大语言模型(MLLMs)通过整合文本和视觉信息,在复杂场景中实现了视觉理解,展现了在多种任务中的强大能力。然而,现有的评估基准大多集中在数学或一般视觉理解任务上,忽视了物理和化学等其他关键科学学科的评估,这揭示了当前基准的一个重要空白。
➡️ 研究动机:为了解决现有基准的局限性,研究团队构建了一个全面的基准——VisScience,旨在评估MLLMs在数学、物理和化学三个学科中的多模态科学推理能力。VisScience包含3,000个问题,这些问题来自K12教育,涵盖了从基础到高级的各个难度级别,确保了对模型能力的全面评估。
➡️ 方法简介:研究团队通过两阶段的数据生成管道,精心构建了VisScience基准数据集,该数据集包含3,000个问题,每个学科(数学、物理、化学)各1,000个问题。数据收集阶段从K12教育中收集了450,000个问题,经过筛选和注释,最终形成了VisScience。数据注释阶段通过人工审查和LLM评估,确保每个问题的准确性和完整性。
➡️ 实验设计:研究团队在VisScience上对25个代表性的MLLMs进行了广泛的实验,评估了这些模型在不同学科中的科学推理能力。实验结果表明,闭源MLLMs通常优于开源模型。具体来说,Claude3.5-Sonnet在数学中的准确率为53.4%,GPT-4o在物理中的准确率为38.2%,Gemini-1.5-Pro在化学中的准确率为47.0%。这些结果揭示了MLLMs的优势和局限性,为未来的研究提供了方向。

相关文章:

  • 期权入门介绍
  • 基于CNN深度学习的小程序识别-视频介绍下自取
  • Java—— ArrayList 和 LinkedList 详解
  • Linux服务器入门教程
  • c++中list的使用
  • 【图像处理入门】8. 数学基础与优化:线性代数、概率与算法调优实战
  • 设计模式-装饰器模式
  • Python使用requests调用接口
  • React 实现九宫格抽奖游戏
  • 超高速总线CDCTL01A 芯片在机器人领域的应用解析
  • React组件通信——context(提供者/消费者)
  • NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程(四)Lerobot、宇树 G1 等不同形态机器人微调教程
  • 一个字节一定是8比特吗?如何查看二进制文件前几个字节?计算机存储单元bit?数据类型大小?
  • 函数指针与指针函数:本质区别与高级应用
  • YOLOv4 改进点详解
  • Spring Boot多数据源切换:三种实现方式详解与实战
  • 二.干货干货!!!SpringAI入门到实战-记忆存储和会话隔离
  • Adobe 发布 Android 版 Photoshop(目前免费测试)
  • 电阻篇---下拉电阻
  • 行列式的逆序数法定义 线性代数
  • wordpress下载后放哪/seo兼职外包
  • 企业网站流量预估/网址百度刷排名
  • 设计教程网站/软文案例大全
  • 海口 网站开发/产品网络推广深圳
  • 乔智云智能建站/今日新闻摘抄10条简短
  • 网站如何做传输网盘/网站开通