当前位置：首页 > news >正文

【AI论文】MM-IFEngine：迈向多模态指令遵循

news 2025/10/29 18:18:59

摘要：指令遵循（IF）能力衡量多模态大语言模型（MLLM）准确理解用户告诉他们的内容以及他们是否做得正确的能力。现有的多模态指令训练数据很少，基准测试简单，指令原子化，对于要求精确输出约束的任务，评估策略不精确。为了解决这个问题，我们提出了MM-IFEngine，这是一种有效的流水线，可以生成高质量的图像指令对。我们的MM-IFEngine管道产生了大规模、多样化和高质量的训练数据MM-IFInstruct-23k，适用于监督微调（SFT），并扩展为MM-IFDPO-23k用于直接偏好优化（DPO）。我们进一步介绍了MM-IFEval，这是一个具有挑战性和多样性的多模态指令遵循基准，包括：（1）输出响应的组合级约束和与输入图像相关的感知级约束，以及（2）一个综合评估管道，结合了基于规则的评估和判断模型。我们进行了SFT和DPO实验，并证明在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLM在各种IF基准测试上取得了显著进步，如MM-IFEval（+10.2%）、MIA（+7.6%）和IFEval（+12.3%）。完整的数据和评估代码将在https://github.com/SYuan03/MM-IFEngine上发布。Huggingface链接：Paper page，论文链接：2504.07957

研究背景和目的

研究背景

随着人工智能技术的不断进步，多模态大语言模型（MLLMs）在理解并执行用户指令方面展现出了巨大的潜力。然而，现有的多模态指令遵循（Instruction Following, IF）训练数据稀缺，基准测试简单且指令原子化，对于要求精确输出约束的任务，评估策略也不够精确。这些问题限制了MLLMs在真实世界应用中的表现，特别是在需要精确理解和执行复杂指令的场景中。

具体而言，现有的多模态IF基准测试大多仅包含简单且原子化的指令，缺乏多样性和复杂性，导致模型在这些基准上的表现趋于饱和。此外，训练数据的稀缺性也限制了模型的泛化能力，使其难以处理未见过的指令和任务。因此，开发一种能够生成高质量、多样化和复杂的多模态指令数据的方法，以及建立一个更具挑战性的基准测试，成为当前研究的重要方向。

研究目的

本研究旨在解决现有多模态指令遵循训练数据稀缺、基准测试简单以及评估策略不精确的问题。通过提出MM-IFEngine这一有效的流水线，生成高质量的图像指令对，为MLLMs提供大规模、多样化和高质量的训练数据。同时，本研究还旨在引入一个具有挑战性和多样性的多模态指令遵循基准MM-IFEval，以更全面地评估MLLMs的指令遵循能力。

具体来说，本研究的目标包括：

开发MM-IFEngine流水线：生成高质量的图像指令对，为MLLMs提供丰富的训练数据。
构建MM-IFInstruct-23k数据集：一个包含23,000个高质量多模态指令遵循训练数据的数据集，适用于监督微调（SFT）。
构建MM-IFDPO-23k数据集：一个适用于直接偏好优化（DPO）的偏好数据集，通过从MM-IFInstruct-23k中随机移除约束来生成被拒绝的样本。
引入MM-IFEval基准：一个包含400个具有挑战性问题的多模态指令遵循基准，包括组合级约束和与输入图像相关的感知级约束。
验证数据集和基准的有效性：通过SFT和DPO实验，证明在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLM可以在各种IF基准上取得显著进步。

研究方法

MM-IFEngine流水线

MM-IFEngine流水线包括三个主要步骤：图像过滤、任务生成和约束集成。

图像过滤：选择高质量的图像，移除低分辨率或语义信息有限的图像。对于未注释的纯图像数据集，优先选择自然场景图像，因为这些图像具有丰富的语义内容，有助于生成更全面和深入的QA对。
任务生成：为没有原始注释任务指令的图像设计适当的任务指令。首先开发一个针对数据项的任务指令池，然后使用强大的语言模型（如GPT-4o）为每个图像生成一个合适的任务列表。对于具有QA对的图像数据集，首先分析原始问题注释，然后过滤掉不适合指令遵循任务的问题。
约束集成：从约束池中为任务指令选择合适的约束，并生成具体的约束内容。使用语言模型来保持约束与任务指令之间的相关性，并过滤掉那些导致完全矛盾的约束。最后，通过另一个语言模型验证约束与任务指令的兼容性，并过滤掉那些未能通过验证的约束。

数据集构建

MM-IFInstruct-23k：使用MM-IFEngine流水线生成，包含23,000个高质量的多模态指令遵循训练数据。这些数据通过InternVL2.5-78B-MPO模型生成响应，并经过后处理阶段以过滤掉不符合指定标准的响应。
MM-IFDPO-23k：为了全面探索和充分利用高质量数据，使用MM-IFEngine构建了一个偏好数据集MM-IFDPO-23k。通过从MM-IFInstruct-23k中随机移除约束来生成被拒绝的样本，从而构建了一个包含选择样本和拒绝样本的数据集，适用于直接偏好优化。

基准测试构建

MM-IFEval：一个具有挑战性和多样性的多模态指令遵循基准，包含400个问题，分为组合级问题和感知级问题。组合级问题涉及文本约束，而感知级问题需要更高的视觉感知能力来解决。MM-IFEval采用了一种综合评估策略，结合了基于规则的评估和判断模型，以更精确地评估模型的指令遵循能力。

研究结果

数据集和基准的有效性

数据集的有效性：通过在多个IF基准（如MM-IFEval、MIA和IFEval）上进行实验，证明了MM-IFInstruct-23k和MM-IFDPO-23k数据集的有效性。微调后的模型在这些基准上取得了显著进步，表明这两个数据集能够为MLLMs提供丰富的训练信号。
基准的有效性：MM-IFEval基准具有多样性和挑战性，能够更全面地评估模型的指令遵循能力。实验结果表明，现有的先进模型在MM-IFEval上的表现仍有很大提升空间，这进一步证明了该基准的有效性和挑战性。

实验结果

SFT和DPO实验：通过在MM-IFInstruct-23k和MM-IFDPO-23k上进行SFT和DPO实验，证明了微调后的模型在各种IF基准上取得了显著进步。特别是在MM-IFEval基准上，微调后的模型表现出了更高的准确性和泛化能力。
与其他基准的比较：将微调后的模型在其他VQA基准（如MMMU、MMBench、MMStar等）上的表现与原始模型进行了比较。实验结果表明，微调后的模型在IF基准上的表现显著提高，同时在其他VQA基准上的表现保持稳定或略有提升。

研究局限

尽管本研究在多模态指令遵循方面取得了显著进展，但仍存在一些局限性：

数据集的规模和质量：尽管MM-IFInstruct-23k和MM-IFDPO-23k数据集具有大规模和高质量的特点，但仍需进一步扩大数据集规模以提高模型的泛化能力。此外，数据集中的一些指令和图像可能仍存在一定的噪声和歧义性。
基准测试的挑战性：尽管MM-IFEval基准具有多样性和挑战性，但仍需进一步增加问题的复杂性和多样性以更全面地评估模型的指令遵循能力。此外，基准测试中的评估策略仍有待进一步优化以提高评估的准确性和可靠性。
模型的局限性：现有的MLLMs在指令遵循方面仍存在一定的局限性，如对于复杂指令和未见过的任务的处理能力有限。未来需要开发更先进的模型架构和训练方法以提高模型的指令遵循能力。

未来研究方向

扩大数据集规模：通过收集更多高质量的图像和指令对来进一步扩大数据集的规模，以提高模型的泛化能力和鲁棒性。
优化基准测试：进一步增加基准测试中问题的复杂性和多样性，并优化评估策略以提高评估的准确性和可靠性。同时，可以探索将基准测试扩展到其他领域和任务中。
开发更先进的模型：探索更先进的模型架构和训练方法以提高MLLMs的指令遵循能力。例如，可以结合强化学习来优化模型的推理过程或利用知识蒸馏来压缩模型的大小并提高推理速度。
多模态融合：进一步探索如何将视觉、文本和语音等多种模态的信息有效地融合在一起以提高模型的指令遵循能力。这可以通过开发更先进的多模态融合方法和训练策略来实现。
实际应用：将多模态指令遵循技术应用于实际场景中，如智能家居、自动驾驶和智能客服等领域。通过在实际场景中的应用和反馈来不断改进和优化模型和技术。