当前位置: 首页 > news >正文

开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!

在图像编辑领域,基于指令的编辑因能与用户直接交互而受关注。但现实里用户指令多样,现有方法难以泛化到训练领域外。小米提出的 Lego-Edit 借助多模态大型语言模型(MLLM)的泛化能力,通过两个关键设计应对挑战。一是打造模型级工具包,其中包含在有限数据高效训练的多样模型及多个图像处理函数,让 MLLM 能细粒度组合编辑操作;二是采用三阶段渐进式强化学习方法,利用未注释开放域指令反馈训练 MLLM,使其具备处理现实指令的广义推理能力。Lego-Edit 在 GEdit-Bench 和 ImgBench 上表现最佳,拥有强大开放域指令推理能力,还能无需额外微调就利用新编辑工具。

端到端方法、基于 API 的代理(具有精心策划的工作流程)以及提出方法的比较。

端到端方法、基于 API 的代理(具有精心策划的工作流程)以及提出方法的比较。

相关链接

  • 论文:https://arxiv.org/pdf/2509.12883

  • 代码:https://github.com/xiaomi-research/lego-edit

论文阅读

基于指令的图像编辑因其与用户的直接交互而备受关注。然而,现实世界中的用户指令种类繁多,现有方法往往无法有效地泛化到其训练领域之外的指令,从而限制了其实际应用。

为了解决这个问题,论文提出了 Lego-Edit,它利用多模态大型语言模型 (MLLM) 的泛化能力,组织了一套模型级编辑工具来应对这一挑战。Lego-Edit 包含两个关键设计:

  1. 一个模型级工具包,其中包含在有限数据上高效训练的多样化模型,以及多个图像处理函数,使 MLLM 能够对编辑操作进行细粒度的组合;

  2. 一种三阶段渐进式强化学习方法,该方法利用未注释的开放域指令的反馈来训练 MLLM,使其具备处理现实世界指令的广义推理能力。

实验表明 Lego-Edit 在 GEdit-Bench 和 ImgBench 上达到了最佳性能。它展现出强大的开放域指令推理能力,并且无需额外微调即可利用新引入的编辑工具。

方法概述

Lego-Edit 的整体框架。给定指令和输入图像,构建器生成工具调用工作流。执行器执行该工作流,调用相应的工具生成编辑后的输出图像。

第 2 阶段(基于 GT 的 RL 训练)采用的奖励设计说明。

第 3 阶段(无 GT RL 训练)采用的奖励设计图。

实验结果

与其他方法在复杂编辑方面的比较(顶部)以及我们的工具组合工作流程(底部)。

通过反馈和工具插入进行反射消除的零样本自适应示例。

ImgEdit-Bench:Lego-Edit 在 ImgBench 上保持了最佳性能,在所有对比方法中获得了最高的总分(3.50)。详细结果如表 1 所示。至关重要的是,该框架在最具挑战性的混合编辑子任务(3.18)中表现出色。这一成功验证了我们的假设,即 Builder 可以将复合指令解析为原子子任务,并动态生成工作流以协调专用工具。

定性结果:如图所示该方法在编辑准确度和视觉真实感方面均优于其他方法。编辑结果与预期区域对齐良好,并保持了较高的感知质量。

结论

本文介绍了一种基于智能体的生成式指令图像编辑框架 Lego-Edit。它采用强化学习微调的多层学习模型(MLLM,Builder)来编排模型级编辑工具(Bricks),该框架基于两项关键创新:允许灵活组合和精确控制的细粒度工具,以及通过对开放域指令进行无生成式指令反馈来增强推理和工具组织能力的三阶段渐进式强化学习训练策略。大量实验证明了 Lego-Edit 在 GEdit-Bench 和 ImgBench 上的最佳性能,在处理灵活请求和集成新工具而无需重新训练方面展现出卓越的准确性和泛化能力。未来的工作将扩展该工具集以实现更广泛的功能,并探索基于智能体的反馈以提高鲁棒性。

http://www.dtcms.com/a/457288.html

相关文章:

  • Vue 与 React 深度对比:底层原理、开发体验与实际性能
  • 平台网站建设协议电话网站域名到期
  • Spring Gateway 全面解析:从入门到进阶实践​
  • 江西九江网站建设注册登记
  • 建个微网站多少钱tv网站建设
  • Docker 说明与安装
  • Docker 镜像结构与相关核心知识总结
  • 容器技术与 Docker 入门部署
  • linux学习笔记(20)线程
  • Vue3后台表单快速开发
  • 前端技术栈 —— 创建React项目
  • 推荐一个 GitHub 开源项目信息卡片生成工具,支持Docker快速部署和API调用
  • 元宇宙的工业制造应用:重构生产、研发与供应链
  • 做美足网站违法吗北京网站建设哪家比较好
  • 2025版本的idea解决Git冲突
  • 深入浅出 HarmonyOS ArkTS:现代跨平台应用开发的语法基石
  • Spring boot 3.0整合RocketMQ不兼容的问题
  • 淮安制作企业网站莱芜金点子最新招聘
  • AI+机器人浪潮已至:是方舟还是巨浪?
  • Linux:虚拟世界的大门
  • 市桥网站建设培训数据库与网站建设
  • LangGraph学习笔记 (二)-10分钟搭建自己第一个Agent
  • Sutton:LLM 通往 AGI 的隐秘瓶颈
  • 吴恩达机器学习课程(PyTorch 适配)学习笔记大纲
  • 聊透自动驾驶系统:从“怎么跑”到“怎么聪明跑”
  • 网站建设属于什么职能wordpress建站教程
  • LeetCode 刷题【107. 二叉树的层序遍历 II、108. 将有序数组转换为二叉搜索树】
  • 宝塔服务器面板部署安装git通过第三方应用安装收费怎么办—bash: git: command not found解决方案-优雅草卓伊凡
  • 9. linux shell命令(6)Linux网络配置管理
  • 专做品质游的网站河东苏州网站建设