当前位置: 首页 > news >正文

【AI论文】MM-IFEngine:迈向多模态指令遵循

摘要:指令遵循(IF)能力衡量多模态大语言模型(MLLM)准确理解用户告诉他们的内容以及他们是否做得正确的能力。 现有的多模态指令训练数据很少,基准测试简单,指令原子化,对于要求精确输出约束的任务,评估策略不精确。 为了解决这个问题,我们提出了MM-IFEngine,这是一种有效的流水线,可以生成高质量的图像指令对。 我们的MM-IFEngine管道产生了大规模、多样化和高质量的训练数据MM-IFInstruct-23k,适用于监督微调(SFT),并扩展为MM-IFDPO-23k用于直接偏好优化(DPO)。 我们进一步介绍了MM-IFEval,这是一个具有挑战性和多样性的多模态指令遵循基准,包括:(1)输出响应的组合级约束和与输入图像相关的感知级约束,以及(2)一个综合评估管道,结合了基于规则的评估和判断模型。 我们进行了SFT和DPO实验,并证明在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLM在各种IF基准测试上取得了显著进步,如MM-IFEval(+10.2%)、MIA(+7.6%)和IFEval(+12.3%)。 完整的数据和评估代码将在https://github.com/SYuan03/MM-IFEngine上发布。Huggingface链接:Paper page,论文链接:2504.07957

研究背景和目的
研究背景

随着人工智能技术的不断进步,多模态大语言模型(MLLMs)在理解并执行用户指令方面展现出了巨大的潜力。然而,现有的多模态指令遵循(Instruction Following, IF)训练数据稀缺,基准测试简单且指令原子化,对于要求精确输出约束的任务,评估策略也不够精确。这些问题限制了MLLMs在真实世界应用中的表现,特别是在需要精确理解和执行复杂指令的场景中。

具体而言,现有的多模态IF基准测试大多仅包含简单且原子化的指令,缺乏多样性和复杂性,导致模型在这些基准上的表现趋于饱和。此外,训练数据的稀缺性也限制了模型的泛化能力,使其难以处理未见过的指令和任务。因此,开发一种能够生成高质量、多样化和复杂的多模态指令数据的方法,以及建立一个更具挑战性的基准测试,成为当前研究的重要方向。

研究目的

本研究旨在解决现有多模态指令遵循训练数据稀缺、基准测试简单以及评估策略不精确的问题。通过提出MM-IFEngine这一有效的流水线,生成高质量的图像指令对,为MLLMs提供大规模、多样化和高质量的训练数据。同时,本研究还旨在引入一个具有挑战性和多样性的多模态指令遵循基准MM-IFEval,以更全面地评估MLLMs的指令遵循能力。

具体来说,本研究的目标包括:

  1. 开发MM-IFEngine流水线:生成高质量的图像指令对,为MLLMs提供丰富的训练数据。
  2. 构建MM-IFInstruct-23k数据集:一个包含23,000个高质量多模态指令遵循训练数据的数据集,适用于监督微调(SFT)。
  3. 构建MM-IFDPO-23k数据集:一个适用于直接偏好优化(DPO)的偏好数据集,通过从MM-IFInstruct-23k中随机移除约束来生成被拒绝的样本。
  4. 引入MM-IFEval基准:一个包含400个具有挑战性问题的多模态指令遵循基准,包括组合级约束和与输入图像相关的感知级约束。
  5. 验证数据集和基准的有效性:通过SFT和DPO实验,证明在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLM可以在各种IF基准上取得显著进步。
研究方法
MM-IFEngine流水线

MM-IFEngine流水线包括三个主要步骤:图像过滤、任务生成和约束集成。

  1. 图像过滤:选择高质量的图像,移除低分辨率或语义信息有限的图像。对于未注释的纯图像数据集,优先选择自然场景图像,因为这些图像具有丰富的语义内容,有助于生成更全面和深入的QA对。

  2. 任务生成:为没有原始注释任务指令的图像设计适当的任务指令。首先开发一个针对数据项的任务指令池,然后使用强大的语言模型(如GPT-4o)为每个图像生成一个合适的任务列表。对于具有QA对的图像数据集,首先分析原始问题注释,然后过滤掉不适合指令遵循任务的问题。

  3. 约束集成:从约束池中为任务指令选择合适的约束,并生成具体的约束内容。使用语言模型来保持约束与任务指令之间的相关性,并过滤掉那些导致完全矛盾的约束。最后,通过另一个语言模型验证约束与任务指令的兼容性,并过滤掉那些未能通过验证的约束。

数据集构建
  1. MM-IFInstruct-23k:使用MM-IFEngine流水线生成,包含23,000个高质量的多模态指令遵循训练数据。这些数据通过InternVL2.5-78B-MPO模型生成响应,并经过后处理阶段以过滤掉不符合指定标准的响应。

  2. MM-IFDPO-23k:为了全面探索和充分利用高质量数据,使用MM-IFEngine构建了一个偏好数据集MM-IFDPO-23k。通过从MM-IFInstruct-23k中随机移除约束来生成被拒绝的样本,从而构建了一个包含选择样本和拒绝样本的数据集,适用于直接偏好优化。

基准测试构建

MM-IFEval:一个具有挑战性和多样性的多模态指令遵循基准,包含400个问题,分为组合级问题和感知级问题。组合级问题涉及文本约束,而感知级问题需要更高的视觉感知能力来解决。MM-IFEval采用了一种综合评估策略,结合了基于规则的评估和判断模型,以更精确地评估模型的指令遵循能力。

研究结果
数据集和基准的有效性
  1. 数据集的有效性:通过在多个IF基准(如MM-IFEval、MIA和IFEval)上进行实验,证明了MM-IFInstruct-23k和MM-IFDPO-23k数据集的有效性。微调后的模型在这些基准上取得了显著进步,表明这两个数据集能够为MLLMs提供丰富的训练信号。

  2. 基准的有效性:MM-IFEval基准具有多样性和挑战性,能够更全面地评估模型的指令遵循能力。实验结果表明,现有的先进模型在MM-IFEval上的表现仍有很大提升空间,这进一步证明了该基准的有效性和挑战性。

实验结果
  1. SFT和DPO实验:通过在MM-IFInstruct-23k和MM-IFDPO-23k上进行SFT和DPO实验,证明了微调后的模型在各种IF基准上取得了显著进步。特别是在MM-IFEval基准上,微调后的模型表现出了更高的准确性和泛化能力。

  2. 与其他基准的比较:将微调后的模型在其他VQA基准(如MMMU、MMBench、MMStar等)上的表现与原始模型进行了比较。实验结果表明,微调后的模型在IF基准上的表现显著提高,同时在其他VQA基准上的表现保持稳定或略有提升。

研究局限

尽管本研究在多模态指令遵循方面取得了显著进展,但仍存在一些局限性:

  1. 数据集的规模和质量:尽管MM-IFInstruct-23k和MM-IFDPO-23k数据集具有大规模和高质量的特点,但仍需进一步扩大数据集规模以提高模型的泛化能力。此外,数据集中的一些指令和图像可能仍存在一定的噪声和歧义性。

  2. 基准测试的挑战性:尽管MM-IFEval基准具有多样性和挑战性,但仍需进一步增加问题的复杂性和多样性以更全面地评估模型的指令遵循能力。此外,基准测试中的评估策略仍有待进一步优化以提高评估的准确性和可靠性。

  3. 模型的局限性:现有的MLLMs在指令遵循方面仍存在一定的局限性,如对于复杂指令和未见过的任务的处理能力有限。未来需要开发更先进的模型架构和训练方法以提高模型的指令遵循能力。

未来研究方向
  1. 扩大数据集规模:通过收集更多高质量的图像和指令对来进一步扩大数据集的规模,以提高模型的泛化能力和鲁棒性。

  2. 优化基准测试:进一步增加基准测试中问题的复杂性和多样性,并优化评估策略以提高评估的准确性和可靠性。同时,可以探索将基准测试扩展到其他领域和任务中。

  3. 开发更先进的模型:探索更先进的模型架构和训练方法以提高MLLMs的指令遵循能力。例如,可以结合强化学习来优化模型的推理过程或利用知识蒸馏来压缩模型的大小并提高推理速度。

  4. 多模态融合:进一步探索如何将视觉、文本和语音等多种模态的信息有效地融合在一起以提高模型的指令遵循能力。这可以通过开发更先进的多模态融合方法和训练策略来实现。

  5. 实际应用:将多模态指令遵循技术应用于实际场景中,如智能家居、自动驾驶和智能客服等领域。通过在实际场景中的应用和反馈来不断改进和优化模型和技术。

相关文章:

  • Magnet Pro Macbook窗口分屏管理软件【提高效率工具】
  • 从零训练LLM-1.训练BPE
  • 猫咪如厕检测与分类识别系统系列【五】信息存储数据库改进+添加猫咪页面制作+猫咪躯体匹配算法架构更新
  • SQL 解析 with as
  • C++ 入门六:多态 —— 同一接口的多种实现之道
  • Java 8中的Lambda 和 Stream (from Effective Java 第三版)
  • 【模态分解】EEMD-集合经验模态分解
  • CSI-PVController-volumeWorker
  • 【家政平台开发(40)】功能测试全解析:从执行到报告撰写
  • 应急响应靶机-Linux(2)
  • Qwen2.5-VL Technical Report 论文翻译和理解
  • KaiwuDB:面向AIoT场景的多模融合数据库,赋能企业数字化转型
  • 【HD-RK3576-PI】Docker搭建与使用
  • 【工具开发教程】通过批量OCR识别PDF扫描件中的文本,给PDF批量重命名,基于WPF和阿里云的实现方案,超详细
  • 【面试经典150题】LeetcCode238·除自身以外数组的乘积
  • python中 “with” 关键字的取舍问题
  • Vagrant 安装指南:从零开始搭建开发环境
  • GPT - 2 文本生成任务全流程
  • 单向链表的实现(C++)
  • 基于贝叶斯估计的多传感器数据融合算法matlab仿真
  • 罕见沙尘再度入川,官方:沙尘传输高度达到平流层,远超以往
  • 秦洪看盘|交易型资金收缩,释放短线压力
  • 湖南省职业病防治院通报3岁女童确诊“铊中毒”:去年病例,编辑误写为“近日”
  • 上海推动AI+文旅深度融合,MaaS平台和产业基地落地徐汇
  • 多地跟进官宣下调公积金贷款利率,最低降至2.1%
  • 男子煎服15克山豆根中毒送医,医生:不能盲目相信偏方