当前位置: 首页 > news >正文

0.7 秒实现精准图像编辑!VAREdit 让 AI 图像编辑告别“拖沓与失控,代码模型已开源。

近年来,扩散模型虽在 AI 图像编辑领域成绩斐然,能生成惊艳逼真图像,却存在效果“失控”与效率低下两大痛点。其生成机制使局部修改易牵连其他区域,导致编辑不精准,且漫长迭代过程阻碍即时编辑。为解决这些问题,智象未来团队另辟蹊径,引入视觉自回归(VAR)架构,提出指令引导编辑框架 VAREdit。该框架可精准遵循指令,实现“指哪打哪”,在提升编辑质量的同时,大幅提高生成效率,达成了精准度与速度的双重飞跃。

主要特点

  • 强大的指令遵循:由于模型的自回归特性,可以更准确地遵循指令。

  • 高效推理:针对8B模型进行了优化,生成时间少于1秒。

  • 灵活的分辨率:支持512×512和1024×1024图像分辨率

VAREdit是基于Infinity模型构建的高级图像编辑模型,专为基于指令的高质量图像编辑而设计。

相关链接

  • 论文:https://arxiv.org/pdf/2508.15772

  • 代码:https://github.com/HiDream-ai/VAREdit

  • 试用:https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024

论文介绍

扩散模型的最新进展为指令引导的图像编辑带来了卓越的视觉保真度。然而,它们的全局去噪过程固有地将编辑区域与整个图像上下文纠缠在一起,导致意外的虚假修改,并损害了对编辑指令的遵循性。相比之下,自回归模型通过将图像合成表述为离散视觉标记上的顺序过程,提供了一种独特的范式。它们的因果和组合机制自然地规避了基于扩散的方法的遵循性挑战。

论文提出了一个视觉自回归 (VAR) 框架 VAREdit,它将图像编辑重新定义为下一个尺度的预测问题。VAREdit 基于源图像特征和文本指令,生成多尺度目标特征以实现精确编辑。该范式的一个核心挑战是如何有效地对源图像标记进行条件化。

作者观察到最细尺度的源特征无法有效地指导更粗略的目标特征的预测。为了弥补这一差距,论文引入了尺度对齐参考 (SAR) 模块, 该模块将尺度匹配的条件信息注入到第一个自注意力层。VAREdit 在编辑依从性和效率方面均展现出显著的提升。

在标准基准测试中,它的表现比领先的基于扩散的方法高出 30% 以上的 GPT-Balance 得分。此外,它能够在 1.2 秒内完成 512×512 的编辑,比同等大小的 UltraEdit 快 2.2 倍。

方法概述

VAREdit 用于指令引导图像编辑的总体架构。VAREdit 首先将图像编码并量化为多尺度残差,并将指令映射到文本标记嵌入中。这些特征被组织为最细尺度的源特征 F(src)K 、池化文本表示 Fe(tgt)0以及由粗到细的目标特征 Fe(tgt)1:K−1,然后发送到 VAR Transformer。源特征 F(src)K 进一步发送到第一个自注意力层中的 SAR 模块,以解决尺度不匹配问题,同时文本标记嵌入也用于键值矩阵的交叉注意力计算。真实残差 R1:K 指导最后 K 个输出残差 Rˆ1:K 的训练。在推理过程中,残差 Rˆ1:K 被自回归预测,然后累积并解码为编辑后的图像。

性能比较

结论

VAREdit是一个基于指令引导的图像编辑框架,它遵循视觉自回归 (VAR) 建模中新颖的下尺度预测范式。VAREdit 将指令和量化的视觉 token 特征引入 VAR Transformer 模型,以预测目标图像的多尺度残差,从而提高编辑依从性和生成效率。 论文分析了不同条件策略的有效性,并提出了一种新颖的 SAR 模块,可以有效地将尺度匹配的条件注入第一个自注意力层。大量实验清楚地证明了 VAREdit 的卓越性能,与最先进的方法相比,VAREdit 实现了显著更高的编辑精度得分和更快的生成速度。作为一项初步探索,我们希望这项研究能够为未来设计更有效、更高效的基于增强现实 (AR) 的图像编辑模型提供宝贵的新见解。

http://www.dtcms.com/a/422915.html

相关文章:

  • 计算机软件包含网站开发购物网站开发设计类图
  • 【避坑实战】C# WinForm 上位机开发:解决串口粘包+LiveCharts卡顿+InfluxDB存储(免费代码+仿真工具)
  • 开源 C# 快速开发(十二)进程监控
  • 江协科技 CAN总线入门课程(仲裁)
  • Ubuntu 添加右键“复制全路径”菜单
  • 国企网站建设的意义电影影视网站模板免费下载
  • 网站主页设计模板房地产门户网站
  • 前端核心框架vue之(vuex状态篇4/5)
  • SheetGod:让Excel公式变得简单
  • 地信是“安卓”专业还是“苹果”专业?
  • 视频拼接类产品介绍
  • VSCode上配置Spring Boot环境
  • 线程同步实战指南:从 bug 根源到锁优化的终极之路
  • 中文企业展示网站模板优化wordpress后台速度
  • 做网站不赚钱了wordpress代码编辑
  • 云手机在硬件资源方面的优势
  • 技术深度解析:指纹云手机如何通过设备指纹隔离技术重塑多账号安全管理
  • 中国移动获得手机直连卫星通讯牌照:行业变革的催化剂
  • Chapter9—享元模式
  • 常州网站建设公司案例怎样做企业学校网站
  • 建设网站对企业的重要性企业网站网页设计有哪些
  • SpringBoot结合Vue 播放 m3u8 格式视频
  • 网站推广目标关键词龙岩网站设计找哪家好
  • 【论文阅读】ASPS: Augmented Segment Anything Model for Polyp Segmentation
  • 精读C++20设计模式——结构型设计模式:享元模式
  • FT8430-LRT非隔离5V100MA电源芯片,满足小家电、智能照明、MCU供电需求,替代阻容降压(典型案例,电路图)
  • [论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation
  • 精读C++20设计模式:结构型设计模式:装饰器模式
  • (数据结构)链表OJ——刷题练习
  • 怎么做网站源码温州建网站