工业质检/缺陷检测领域最新顶会期刊论文收集整理 | AAAI 2025【持续更新中】
会议官方论文列表:https://ojs.aaai.org/index.php/AAAI/issue/view/624
其中,2025年是第三十九届AAAI人工智能大会,主要对第三十九届相关论文进行梳理,当前已初版28期(volume 39 no. 28)
【Attention】
- 虽然本文主要面向的领域是工业质检,但实际在整理论文时,能够落在工业领域的通用算法(如分类/检测/分割)、其他领域中与本文共通的问题(变化检测/医学领域低对比度/无人机方向小目标) 等,都会被整理于下方。
- 带⭐️的为个人认为较好、且提供开源代码供复现结果的论文
- 本文中提供的中文摘要为软件自动翻译而来,存在一些专业术语的错误,感兴趣的论文建议直接点击标题跳转原文阅读
- 舍弃了部分有一定相关性但是没有提供源码的论文
总结
- 在骨干网络方面,新的基础网络mamba、脉冲网络相关论文较多
- 在领域方面,医学领域的分割任务研究较多
会议简介
第三十九届美国人工智能协会(AAAI)人工智能大会于2025年2月25日至3月4日在宾夕法尼亚州费城举行。程序委员会主席为Julie Shah(美国麻省理工学院)和Zico Kolter(美国卡内基梅隆大学)。
本次会议的范围涵盖机器学习、自然语言处理、计算机视觉、数据挖掘、多智能体系统、知识表示、人机协作人工智能、搜索、规划、推理、机器人与感知,以及伦理道德。除了专注于上述任一领域的基础研究工作外,AAAI - 25还鼓励开展跨人工智能技术领域的研究(例如,机器学习与计算机视觉;计算机视觉与自然语言处理;或机器学习与规划),探索人工智能与相关研究领域之间的联系(例如,神经科学;认知科学),或者在重要应用领域(如医疗保健、可持续发展、交通和商业)中开发人工智能技术。
论文梳理
骨干网络
U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation Unet的优化
Code:https://github.com/CUHK-AIM-Group/U-KAN
U-Net 已成为图像分割和扩散概率模型等各种视觉应用的基石。虽然通过结合 transformer 或 MLP 引入了许多创新设计和改进,但网络仍然局限于线性建模模式以及不足的可解释性。为了应对这些挑战,我们的直觉受到了 Kolmogorov-Arnold 网络 (KAN) 在准确性和可解释性方面令人印象深刻的结果的启发,这些结果通过从 Kolmogorov-Anold 表示定理推导出的非线性可学习激活函数堆栈重塑了神经网络学习。具体来说,在本文中,我们探讨了 KANs 在改善视觉任务支柱方面尚未开发的潜力。我们通过在标记化的中间表示(称为 U-KAN)上集成专用的 KAN 层来研究、修改和重新设计已建立的 U-Net 管道。严格的医学图像分割基准测试验证了 UKAN 的优越性,即使计算成本更低,准确性也更高。我们进一步深入研究了 U-KAN 作为扩散模型中替代 U-Net 噪声预测器的潜力,证明了它在生成面向任务的模型架构方面的适用性。
分类
半监督分类
Towards Realistic Semi-supervised Medical Image Classification
现有的半监督学习 (SSL) 方法遵循理想化的封闭世界假设,忽略了现实医疗场景中存在的挑战,例如开放集分布和不平衡的类分布。尽管自然领域的一些方法试图解决开放集问题,但它们对于医学领域来说是不够的,因为医学领域存在诸如类不平衡和类间小病变差异等交织在一起的挑战。因此,本文提出了一种新的自我重新校准的语义训练框架,该框架通过巧妙地收集真实的未标记样本,为医学成像中的 SSL 量身定制。受到某些开放集样本与分布样本共享一些相似的疾病相关表征的观察结果的启发,我们首先提出了一种信息丰富的样本选择策略,该策略识别高价值样本作为增强,从而有效地丰富了已知类别的语义。此外,我们采用紧凑的语义聚类策略来解决上述新引入的 open-set 语义带来的语义混淆。此外,为了减轻开放集 SSL 中类不平衡的干扰,我们引入了一种具有相似性伪标签正则化和类别自定义正则化的偏差较小的双平衡分类器。对各种医学图像数据集的广泛实验表明,我们提出的方法优于最先进的封闭集和开放集 SSL 方法。
few-shot 分类
Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP
Code:https://github.com/lyymuwu/TIMO
对比语言-图像预训练 (CLIP) 已广泛用于视觉任务。值得注意的是,CLIP 在小样本学习 (FSL) 中表现出了有希望的性能。然而,现有的基于 CLIP 的免训练 FSL 方法(即不需要额外的训练)主要独立学习不同的模态,导致两个基本问题:1) 图像模态的严重异常匹配;2) 生成的文本提示质量参差不齐。为了解决这些问题,我们构建了一个相互指导机制,该机制引入了一个图像引导文本 (IGT) 组件,用于通过图像表示来纠正文本提示的不同质量,以及一个文本引导图像 (TGI) 组件,以通过文本表示来缓解图像模态的异常匹配。通过整合 IGT 和 TGI,我们采用文本-图像互导优化的观点,提出了 TIMO。广泛的实验表明,TIMO 的性能明显优于最先进的 (SOTA) 免训练方法。此外,通过探索相互指导的程度,我们提出了一种增强的变体 TIMO-S,它甚至超过了最佳培训要求方法0.33%,时间成本减少了约 ×100。
MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context
Code:https://github.com/ShuaiLYU/MVREC
少样本多类别分类 (FSDMC) 是工业制造质量控制的新兴趋势。然而,当前的 FSDMC 研究由于专注于特定的数据集,往往缺乏普遍性。此外,缺陷分类严重依赖于图像中的上下文信息,而现有方法无法有效地提取这些信息。为了应对这些挑战,我们提出了一种称为 MVREC 的通用 FSDMC 框架,它有两个主要优势:(1) MVREC 通过结合预先训练的 AlphaCLIP 模型来提取缺陷实例的一般特征。(2) 它利用区域上下文框架,通过利用掩码区域输入和多视图上下文增强来增强缺陷特征。此外,在模型中引入了 Few-shot Zip-Adapter(-F) 分类器来缓存支撑集的视觉特征并执行 Few-shot 分类。我们还推出了 MVTec-FS,这是一种基于 MVTec AD 的新 FSDMC 基准测试,其中包括 1228 个带有实例级掩码注释的缺陷图像和 46 种缺陷类型。在 MVTec-FS 和四个其他数据集上进行的广泛实验证明了它在一般缺陷分类中的有效性,以及它整合上下文信息以提高分类性能的能力。
分割
脉冲神经网络用于分割
Spike2Former: Efficient Spiking Transformer for High-performance Image Segmentation
脉冲神经网络(SNNs)具有低功耗优势,但在图像分割任务中表现不佳。原因是将为分割任务设计的具有复杂架构的神经网络直接转换为脉冲版本会导致性能下降和不收敛。为应对这一挑战,我们首先确定架构设计中导致脉冲发放严重减少的模块,进行有针对性的改进,并提出Spike2Former架构。其次,我们提出归一化整数脉冲神经元,以解决具有复杂架构的SNNs的训练稳定性问题。我们在各种语义分割数据集上为SNNs创造了新的最先进水平,在ADE20K上平均交并比(mIoU)显著提高12.7%,效率提高5.0倍;在VOC2012上mIoU提高14.3%,效率提高5.2倍;在CityScapes上mIoU提高9.1%,效率提高6.6倍。
few-shot语义分割
⭐️Enhancing Generalized Few-Shot Semantic Segmentation via Effective Knowledge Transfer,
Code:https://github.com/xinyue1chen/GFSS-EKT
广义少数样本语义分割 (GFSS) 旨在使用足够的基类样本和少量新类样本来分割基类和新类的对象。代表性的 GFSS 方法通常采用两阶段训练方案,包括基类预训练,然后是新类微调,以分别学习基类和新类的分类器。然而,在此过程中,基类和新类之间存在分布差距。为了缩小这一差距,我们利用了从基础类到新类的有效知识转移。首先,设计了一种新的原型调制模块,通过利用基类和新类之间的相关性来调制新的类原型。其次,提出了一种新型分类器标定模块,根据基础分类器的权重分布标定新型分类器的权重分布;此外,现有的 GFSS 方法由于样本有限而缺乏新类的上下文信息,因此我们引入了一种上下文一致性学习方案,将上下文知识从基础类转移到新类。对 PASCAL-5i 和 COCO-20i 的广泛实验表明,我们的方法显着增强了 GFSS 设置中的技术水平。
SAM类
AoP-SAM: Automation of Prompts for Efficient Segmentation
Segment Anything Model (SAM) 是一个强大的图像分割基础模型,通过提示工程展示了强大的零镜头泛化。但是,对于实际应用程序来说,依赖手动提示是不切实际的,尤其是在快速提示配置和资源效率至关重要的情况下。在本文中,我们提出了 SAM 提示自动化 (AoP-SAM),这是一种学习在最佳位置自动生成基本提示的新方法。AoP-SAM 通过消除手动输入来提高 SAM 的效率和可用性,使其更适合实际任务。我们的方法采用轻量级但高效的 Prompt Predictor 模型,该模型可检测图像中的关键实体并确定放置提示候选人的最佳区域。此方法利用 SAM 的图像嵌入,保留其零镜头泛化功能,而无需微调。此外,我们还引入了一种测试时实例级自适应采样和过滤机制,该机制以粗到细的方式生成提示。这通过减少计算开销和最大限度地减少冗余掩码优化,显著提高了提示和掩码生成效率。对三个数据集的评估表明,AoP-SAM 显著提高了提示生成效率和掩码生成精度,使 SAM 在自动分割任务中更加有效。
Boosting Segment Anything Model Towards Open-Vocabulary Learning 开放词汇
最近的 Segment Anything Model (SAM) 已成为一种新的范式视觉基础模型,展示了有效的零样本泛化和灵活的提示。尽管 SAM 在各个领域找到了应用和适应,但其主要局限性在于无法掌握对象语义。在本文中,我们介绍了 Sambor,以将 SAM 与端到端框架中的开放词汇表对象检测器无缝集成。在保留 SAM 固有的所有卓越功能的同时,我们对其进行了改进,使其能够从人类输入(如类别名称或参考表达式)中检测任意对象。在 SAM 图像编码器的基础上,我们引入了一种新颖的 SideFormer 模块,旨在获取擅长感知对象的 SAM 特征,并注入全面的语义信息以进行识别。此外,我们还设计了一个 Open-set RPN,它利用 SAM 提案来帮助查找潜在对象。因此,Sambor 使开放词汇检测器能够同样专注于泛化定位和分类子任务。我们的方法在包括 COCO 和 LVIS 在内的基准测试中展示了卓越的零喷射性能,与以前的最先进方法相比具有很强的竞争力。我们希望这项工作成为一项有意义的努力,使 SAM 能够识别不同的对象类别,并在 Vision Foundation 模型的支持下推进开放词汇学习。
SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation 跨域few-shot分割
Code:https://github.com/CVL-hub/GPRN
跨域小样本分割 (CD-FSS) 的主要挑战是训练阶段和推理阶段之间的域差异,这可能存在于输入数据或目标类别中。以前的模型很难从有限的训练域样本中学习泛化到各种未知域的特征表示。相比之下,大规模视觉模型 SAM 在来自不同领域和类别的数千万张图像上进行了预训练,具有出色的泛化性。在这项工作中,我们提出了一种 SAM 感知的图提示推理网络 (GPRN),它充分利用 SAM 来指导 CD-FSS 特征表示学习并提高预测准确性。具体来说,我们提出了一个 SAM 感知提示初始化模块 (SPI),将 SAM 生成的掩码转换为富含高级语义信息的视觉提示。由于 SAM 倾向于将一个对象划分为许多子区域,这可能会导致视觉提示表示具有不一致或碎片化特征的同一语义对象。我们进一步提出了一个图提示推理 (GPR) 模块,该模块在视觉提示之间构建一个图,以推理它们的相互关系,并使每个视觉提示能够聚合来自相似提示的信息,从而实现全局语义一致性。随后,每个视觉提示将其语义信息嵌入到相应的掩码区域中,以辅助特征表示学习。为了在测试过程中优化分割掩码,我们还设计了一个非参数自适应点选择模块 (APS),从查询预测中选择有代表性的点提示,并将其反馈给 SAM 以优化不准确的分割结果。在四个标准 CD-FSS 数据集上的实验表明,我们的方法建立了新的最先进的结果。
半监督分割
ScaleMatch: Multi-scale Consistency Enhancement for Semi-supervised Semantic Segmentation 语义分割
Code:https://github.com/lvliang6879/ScaleMatch
半监督学习通过利用未标记的数据来提高语义分割性能,从而显著降低标记成本。以前的半监督语义分割 (S4) 方法探索了图像级别的扰动,但忽略了充分利用多尺度信息。当标记信息不足时,不同对象之间的缩放变化会使具有极端缩放的学习实例变得更加困难。为了解决这个问题,我们提出了ScaleMatch,它旨在通过获得混合的双尺度伪标签和尺度一致性学习来学习尺度不变特征。具体来说,跨尺度交互融合 (CIF) 模块在不同的缩放视图中强制执行交互式信息,从而实现更可靠的伪标签生成。更重要的是,ScaleMatch 引入了可变刻度分支来利用刻度不变监督。它由图像级尺度变化一致性 (ISVC) 和特征级尺度变化一致性 (FSVC) 组成。因此,我们的 ScaleMatch 增强了模型在尺度变化下的泛化,在各种分区协议下,在 Pascal VOC 和 Cityscapes 数据集上的性能优于现有的最先进方法。
无监督分割
Integrating Low-Level Visual Cues for Enhanced Unsupervised Semantic Segmentation
无监督语义分割算法旨在识别没有注释的有意义的语义组。最近的方法利用自监督转换器作为预训练骨干,成功地获得了有效表达语义连贯性的高级密集特征。但是,这些方法通常会忽略局部语义一致性和低级特征,例如颜色和纹理。我们建议集成低级视觉提示,以补充来自自我监督的预训练分支的高级视觉提示。我们的研究结果表明,低级视觉线索提供了对颜色纹理方面的更连贯的识别,确保了类内空间结构的连续性。这一见解促使我们开发了 IL2Vseg,这是一种无监督语义分割方法,它利用了低级视觉线索的补充。IL2Vseg 的核心是基于颜色亲和力的空间约束模糊聚类算法,它在低级视觉线索中保留了空间相邻和颜色相似的像素的类内亲和力。此外,为了有效地耦合低级和高级视觉提示,我们引入了特征相似性损失函数来优化融合视觉提示的特征表示。为了进一步增强一致的特征学习,我们加入了基于颜色不变性和亮度不变性的对比度损失函数,这改善了对不同语义类别特征的学习。对多个数据集(包括 COCO-Stuff-27、Cityscapes、Potsdam 和 MaSTr1325)的广泛实验表明,IL2Vseg 取得了最先进的结果。
基于CLIP免训练
[Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation](揭示 CLIP 的知识,用于免训练的开放词汇语义分割)
免训练开放词汇语义分割旨在探索冻结视觉语言模型 (VLM) 在分割任务中的潜力。最近的工作改革了 CLIP 的推理过程,并利用最后一层的特征来重建用于分割的密集表示,展示了有希望的性能。然而,最后一层往往优先考虑全局分量而不是局部表示,导致现有方法的稳健性和有效性欠佳。在本文中,我们提出了 CLIPSeg,这是一种新颖的免训练框架,它充分利用了 CLIP 中跨层的不同知识进行密集预测。我们的研究揭示了两个关键发现:首先,与最后一层相比,中间层的特征表现出较高的位置意识和特征连贯性,在此基础上,我们提出了产生语义感知注意力的连贯性增强残差注意力模块。其次,尽管没有直接与文本对齐,但深层捕获了有效的局部语义,以补充最后一层中的语义。利用这一洞察,我们引入了深度语义集成模块,以提升最终块中的补丁语义。使用各种 CLIP 模型在 9 个分割基准上进行的实验表明,CLIPSeg 始终以显着优势优于所有无训练方法,例如,具有 ViT-L 主干的 CLIP 的平均 mIoU 提高了 7.8%,并且在以有效的方式推广到新概念方面与基于学习的同行竞争。
域广义分割(利用源域数据来增强语义分割在未知目标域中的泛化)
Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation
域广义语义分割 (DGSS) 旨在专门利用源域数据来增强语义分割在未知目标域中的泛化。流行的研究主要集中在特征归一化和域随机化上,这些方法表现出明显的局限性。基于特征归一化的方法在约束特征空间分布的过程中容易混淆语义特征,导致分类误判。由于样式转换的不可控性,基于域随机化的方法经常包含域无关的噪声,从而导致分割歧义。为了应对这些挑战,我们引入了一个名为 SCSD 的新框架,用于语义一致性预测和风格多样性泛化。它包括三个关键组件:首先,Semantic Query Booster 旨在增强掩码解码器中对象查询的语义感知和区分能力,从而实现跨域语义一致性预测。其次,我们开发了一个 Text-Driven Style Transform 模块,该模块利用域差异文本嵌入来可控地引导图像特征的样式转换,从而增加域间风格的多样性。最后,为了防止相似域特征空间的崩溃,我们引入了一种风格协同优化机制,通过协同加权风格对比损失和风格聚合损失来加强域间特征的分离和域内特征的聚合。大量实验表明,所提出的 SCSD 明显优于现有的 state-of-theart 方法。值得注意的是,在 GTAV 上训练的 SCSD 在四个看不见的域数据集上平均实现了 49.11 mIoU,比最先进的方法高出 +4.08 mIoU。
基于参考输入进行分割(In-context segmentation)
Explore In-Context Segmentation via Latent Diffusion Models 基于参考图像分割目标
Code:https://wang-chaoyang.github.io/project/refldmseg
随着 Vision Foundation 模型的出现,上下文分割引起了越来越多的关注。其目标是使用给定的参考图像对对象进行分割。大多数现有方法采用度量学习或掩码图像建模来构建视觉提示和输入图像查询之间的关联。这项工作从一个全新的角度解决了这个问题——解锁了潜在扩散模型 (LDM) 用于上下文分割的能力,并研究了不同的设计选择。具体来说,我们从三个角度来研究这个问题:指令提取、输出对齐和元架构。我们设计了一个两阶段屏蔽策略,以防止干扰信息泄漏到指令中。此外,我们提出了一个增强的伪掩码目标,以确保模型在不忘记原始图像的情况下进行预测。此外,我们还构建了一个涵盖图像和视频数据集的新的、公平的上下文细分基准。实验验证了我们方法的有效性,证明了与以前的专业或视觉基础模型相当甚至更强的结果。我们希望我们的工作能激励其他人重新思考细分和生成的统一。
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis 基于文本描述对图像中的目标进行分割
Code:https://github.com/VoyageWang/IteRPrimE
零镜头引用图像分割(RIS)无需训练和微调即可识别与指定引用表达式最佳对齐的实例掩码,大大减少了劳动密集型注释过程。尽管取得了值得称赞的结果,但以前基于CLIP的模型有一个关键缺点:模型识别对象相对空间关系的能力显着降低。这是因为它们在图像上生成所有可能的掩码,并评估每个掩码区域与给定表达式的相似性,这通常会导致对文本输入中直接位置线索的敏感性降低。此外,大多数方法管理主词及其上下文之间关系的能力较弱,导致识别正确目标区域的混淆和准确性降低。为了应对这些挑战,我们提出了IteRPrimE(Iterative Grad-CAM细化和初级词强调),它利用来自视觉语言预训练(VLP)模型的Grad-CAM的显着性热图进行图像-文本匹配。引入了迭代Grad-CAM精化策略,以逐步增强模型对目标区域的关注并克服位置不敏感,从而产生自我纠正效果。此外,我们设计了初级词强调模块来帮助模型处理复杂的语义关系,增强其处理预期对象的能力。在RefCOCO/+/g和PhraseCut基准上进行的广泛实验表明,IteRPrimE优于以前的SOTA零射击方法,特别是在域外场景中表现出色。
小目标
S³-Mamba: Small-Size-Sensitive Mamba for Lesion Segmentation 针对医学领域的小目标
小病灶在严重感染的早期疾病诊断和干预中起着关键作用。流行的模型在分割小病灶时经常面临挑战,因为它只占据图像的一小部分,而下采样作可能不可避免地失去对小病灶局部特征的关注。为了应对这些挑战,我们提出了一种小尺寸敏感曼巴 (S³-Mamba),它在通道、空间和训练策略三个维度上促进了对小病变的敏感性。具体来说,增强的视觉状态空间块旨在通过多个残余连接关注小病变以保留局部特征,并选择性地放大重要细节,同时通过通道注意抑制不相关的细节。基于张量的跨特征多尺度注意力 (Cross-feature Multi-scale Attention) 旨在将输入图像特征和中间层特征与边缘特征集成在一起,并利用跨多个尺度对特征的用心支持,从而保留各种粒度的小病灶的空间细节。最后,我们引入了一种新的正则化课程学习,以自动评估病灶大小和样本难度,并逐渐从简单的样本关注到像小病灶这样的困难样本。对三个医学图像分割数据集的广泛实验表明,我们的 S³-Mamba 具有优越性,尤其是在分割小病灶方面。
其他分割
HSRDiff: A Hierarchical Self-Regulation Diffusion Model for Stochastic Semantic Segmentation
在医疗诊断和自动驾驶等安全关键领域,单张图像证据有时不足以反映视觉问题固有的模糊性。因此,可能需要多个与图像语义匹配的合理假设,以反映目标的实际分布并支持下游任务。然而,在高维输出空间和潜在的多模态分布下,平衡和提高分割预测的多样性和一致性仍然具有挑战性。本文提出了分层自调节扩散(HSRDiff),这是一个统一的框架,用于模拟整个标签上的联合概率分布。我们的模型在一种新颖的 “从分化到统一” 流程中,自调节预测标签和噪声这两种模式之间的平衡,并动态拟合最优路径,以对源于观测的随机不确定性进行建模。此外,我们通过利用分层多尺度条件先验,保留了图像中精细结构的高保真重建。我们在三种不同的语义场景中对HSRDiff进行了验证。实验结果表明,HSRDiff与对比方法相比具有显著的性能差距,表现更优。
Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation解决训练与测试时的域偏移问题
Code:https://github.com/Chen-Ziyang/GraTa
尽管近年来医学图像分割取得了重大进展,但来自不同中心的医学图像之间普遍存在的域偏移问题阻碍了预训练模型的有效部署。已经提出了许多测试时适应 (TTA) 方法来解决这个问题,方法是在推理过程中使用测试数据微调预训练模型。然而,由于次优的优化方向(由梯度决定)和固定的步长(取决于学习率),这些方法的优化往往不太令人满意。在本文中,我们提出了基于梯度对齐的测试时适应 (GraTa) 方法,以提高优化过程中的梯度方向和学习率。与传统的 TTA 方法不同,传统的 TTA 方法主要优化从自监督目标得出的伪梯度,我们的方法将辅助梯度与伪梯度相结合,以促进梯度对齐。这种梯度对齐使模型能够挖掘不同梯度之间的相似性,并校正梯度方向以近似于与当前分割任务相关的经验梯度。此外,我们根据伪梯度和辅助梯度之间的余弦相似性设计了一个动态学习率,从而能够根据不同的测试数据对预训练模型进行自适应微调。广泛的实验确立了所提出的梯度对齐和动态学习率的有效性,并证实了我们的 GraTa 方法在基准医学图像分割任务中优于其他最先进的 TTA 方法。
⭐️ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement 医学领域低对比度
Code:https://github.com/Mengqi-Lei/ConDSeg
医学图像分割在临床决策、治疗计划和疾病跟踪中发挥着重要作用。然而,它仍然面临两大挑战。一方面,医学图像中的前景和背景之间通常存在“软边界”,照明不佳和对比度低进一步降低了图像中前景和背景的可区分性。另一方面,共现现象在医学图像中很普遍,了解这些特征会误导模型的判断。为了应对这些挑战,我们提出了一个称为对比驱动医学图像分割 (ConDSeg) 的通用框架。首先,我们开发了一种称为一致性强化的对比训练策略。它旨在提高编码器在各种照明和对比度场景中的稳健性,使模型即使在恶劣环境中也能提取高质量的特征。其次,我们引入了一个语义信息解耦模块,它能够将编码器中的特征解耦到前景、背景和不确定性区域,逐渐获得在训练过程中减少不确定性的能力。然后,Contrast-Driven Feature Aggregation 模块将前景和背景特征进行对比,以指导多级特征融合和关键特征增强,进一步区分需要分割的实体。我们还提出了一个 Size-Aware Decoder 来解决解码器的尺度奇点。它可以准确地定位图像中不同大小的实体,从而避免对共现特征的错误学习。在三个场景中对五个数据集进行的广泛实验证明了我们方法最先进的性能,证明了其先进性和对各种医学图像分割场景的普遍适用性。
Rethinking U-Net: Task-Adaptive Mixture of Skip Connections for Enhanced Medical Image Segmentation
Code:https://github.com/AshleyLuo001/UTANet
U-Net 是一种广泛使用的医学图像分割模型,以其强大的特征提取能力和 U 形设计而闻名,该设计结合了跳过连接以保留关键信息。但是,它的解码器对 skip 连接提供的补充内容表现出特定于信息的偏好,而不是遵守严格的一一对应,这限制了它在不同任务中的灵活性。为了解决这一限制,我们提出了任务自适应跳跃连接混合 (TA-MoSC) 模块,其灵感来自专家混合 (MoE) 框架。TA-MoSC 创新性地将 Skip 连接重新解释为任务分配问题,采用路由机制在不同的解码阶段自适应地选择 expert 组合。通过引入 MoE,我们的方法增强了模型的稀疏性,并在所有跳过连接阶段共享轻量级卷积专家,平衡专家利用 (BEU) 策略确保所有专家都得到有效培训,保持训练平衡并保持计算效率。我们的方法对原始 U-Net 引入了最少的额外参数,但显著提高了其性能和稳定性。在 GlaS、MoNuSeg、Synapse 和 ISIC16 数据集上的实验表明,在不同任务中具有最先进的准确性和更好的泛化能力。此外,虽然这项工作的重点是医学图像分割,但所提出的方法可以无缝扩展到其他分割任务,为不同的应用提供灵活高效的解决方案。
S2S2: Semantic Stacking for Robust Semantic Segmentation in Medical Imaging 改善训练与推理数据差异带来的影响
Code:https://github.com/ymp5078/Semantic-Stacking
医学图像分割的稳健性和泛化性通常受到训练数据的稀缺性和有限多样性的阻碍,这与推理过程中遇到的可变性形成鲜明对比。虽然传统策略—例如特定领域的增强、专门的架构和定制的训练程序—可以缓解这些问题,但它们取决于领域知识的可用性和可靠性。当此类知识不可用、具有误导性或应用不当时,性能可能会下降。作为回应,我们引入了一种新颖的、与域无关的、附加组件和数据驱动的策略,其灵感来自图像去噪中的图像堆叠。我们的方法被称为 “语义堆叠”,估计了一种去噪的语义表示,它补充了训练过程中的传统分割损失。这种方法不依赖于特定领域的假设,使其广泛适用于不同的图像模态、模型架构和增强技术。通过广泛的实验,我们验证了我们的方法在各种条件下提高分割性能方面的优越性。
A Unified Loss for Handling Inter-Class and Intra-Class Imbalance in Medical Image Segmentation 类内和类间损失不平衡问题
在利用深度学习技术进行医学图像分割时,观察到两种类型的不平衡问题:多数类和少数类之间的类间不平衡以及容易样本和硬样本之间的类内不平衡。然而,现有的损失函数通常会混淆这些问题,导致仅满足一个方面的增强。此外,针对特定任务优化的损失函数通常表现出有限的泛化性。为了解决这些问题,我们提出了类间和类内平衡损失,以及称为平衡损失的统一损失。类间平衡损失通过考虑每个输入图像中存在的少数类的频率来控制多数类样本的硬样本挖掘程度。这种方法不需要手动调整权重,并自动适应不同的数据集。类内平衡损失通过对每个类内的硬样本执行挖掘来增强网络从硬样本中学习的能力。我们在五个具有不同程度类不平衡的分割任务上评估我们的损失函数。实验结果表明,与当前的损失函数相比,我们提出的Balance损失增强了分割性能,并表现出卓越的鲁棒性。
优质数据选择
A Training-free Synthetic Data Selection Method for Semantic Segmentation 从生成样本中选择优质样本
Code暂未发布:https://github.com/tanghao2000/SDS
使用合成数据训练语义分割器因其易于访问和数量庞大而引起了极大的关注。以前的大多数方法都侧重于生成大规模合成图像注释样本,然后使用所有这些样本训练分割器。然而,这样的解决方案仍然是一个主要挑战,因为劣质样本是不可避免的,使用它们来训练模型会损害训练过程。在本文中,我们提出了一种使用 CLIP 的免训练合成数据选择 (SDS) 策略,以选择高质量的样本来构建可靠的合成数据集。具体来说,给定大量的合成图像注释对,我们首先设计了一个基于扰动的 CLIP 相似性 (PCS) 来测量合成图像的可靠性,从而去除具有低质量图像的样本。然后,我们通过将合成注释与 CLIP 的响应进行比较,提出一种类平衡注释相似性过滤器 (ASF),以去除与低质量注释相关的样本。实验结果表明,使用我们的方法将数据量显著减少了一半,而经过训练的分割器实现了更高的性能。
目标检测
脉冲神经网络用于提升目标检测
SpikingYOLOX: Improved YOLOX Object Detection with Fast Fourier Convolution and Spiking Neural Networks
近年来,随着脑科学的进步,脉冲神经网络(SNNs)受到了广泛关注。SNNs可以产生脉冲,模拟人类大脑中神经元的传输功能,从而在训练过程中通过事件驱动的特性显著降低计算成本。虽然深度SNNs在分类任务中表现出色,但在诸如目标检测等更复杂的任务中仍面临挑战。在本文中,我们提出了SpikingYOLOX,通过引入带符号的脉冲神经元和快速傅里叶卷积(FFC)对原始YOLOX的结构进行了扩展。所设计的三值带符号脉冲神经元可以产生三种脉冲,以在主干网络的深层获得更强健的特征。同时,我们将FFC与SNN模块相结合以提升目标检测性能,因为其全局感受野有利于目标检测任务。大量实验表明,所提出的SpikingYOLOX在其他基于SNN的目标检测方法中取得了最先进的性能。
长尾分布检测
Long-Tailed Out-of-Distribution Detection: Prioritizing Attention to Tail
Code:https://github.com/InaR-design/PATT
当前的分布外 (OOD) 检测方法通常假设平衡的分布内 (ID) 数据,而大多数实际数据都遵循长尾分布。以前的长尾 OOD 检测方法通常涉及通过减少头类的语义来平衡 ID 数据。但是,这种减少可能会严重影响 ID 数据的分类准确性。此任务的主要挑战在于严重缺乏 tail 类的特征,从而导致与 OOD 数据混淆。为了解决这个问题,我们引入了一种新的 Prioritizing Attention to Tail (PATT) 方法,使用增强而不是减少。我们的主要直觉包括使用 von Mises-Fisher (vMF) 分布的混合来对 ID 数据进行建模,并使用温度缩放模块来提高 ID 数据的置信度。这使我们能够生成无限的对比对,隐式增强 ID 类的语义,同时促进 ID 和 OOD 数据之间的差异。为了在不影响 ID 数据的分类性能的情况下进一步加强对 OOD 数据的检测,我们建议在推理阶段进行特征校准。通过从训练集中提取注意力权重,确定尾部类别的优先级并降低对 OOD 数据的置信度,我们提高了 OOD 检测能力。广泛的实验验证了我们的方法在各种基准上优于当前最先进的方法。
未知目标检测
UN-DETR: Promoting Objectness Learning via Joint Supervision for Unknown Object Detection
Code:https://github.com/ndwxhmzz/UN-DETR
未知对象检测 (UOD) 旨在识别不可见类别的对象,这与受封闭世界假设限制的传统检测范式不同。UOD 的一个关键组成部分是学习广义表示,即已知和未知类别的对象性,以与类无关的方式从背景中区分和定位对象。然而,以前的方法从定位或分类信息中分离地获得学习对象性的监督信号,导致 UOD 的性能不佳。为了解决这个问题,我们提出了一个基于 transformer 的 UOD 框架 UN-DETR。基于此,我们制作了实例存在分数 (IPS) 来表示对象存在的概率。为了实现信息互补性,IPS 采用了联合监督学习的策略,将来自位置和分类潜在空间的代表一般对象性的属性整合为监督信号。为了加强 IPS 学习,我们引入了一对多作业策略以纳入更多监督。然后,我们提出了 Unbiased Query Selection,为解码器提供高级初始查询向量。此外,我们提出了一种 IPS 引导的后处理策略来过滤冗余框并纠正已知和未知对象的分类预测。最后,我们以无监督的方式对整个 UN-DETR 进行预训练,以便先验获得客观性。我们的 UN-DETR 根据多个 UOD 和已知的检测基准进行了全面评估,证明了其有效性并实现了最先进的性能。
开放词汇目标检测
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community 遥感领域实现开放词汇目标检测,是否可借鉴实现工业领域的?💥
目标检测,尤其是开放词汇目标检测,在地球科学中起着至关重要的作用,例如环境监测、自然灾害评估和土地利用规划。然而,由于存在巨大的数据域差距,现有的开放词汇检测器主要在自然世界图像上进行训练,难以推广到遥感图像。因此,本文旨在推动遥感社区开放词汇目标检测的发展。为了实现这一目标,我们首先将任务重新表述为定位地球上的任何事物 (LAE),目标是检测地球上的任何新概念。然后,我们开发了 LAE-Label Engine,它可以收集、自动标注和统一多达 10 个遥感数据集,从而创建了 LAE-1M——第一个具有广泛类别覆盖范围的大规模遥感对象检测数据集。使用 LAE-1M,我们进一步提出并训练了新颖的 LAE-DINO 模型,这是第一个用于 LAE 任务的开放词汇基础对象检测器,具有动态词汇构建 (DVC) 和视觉引导文本提示学习 (VisGT) 模块。DVC 为每个训练批次动态构建词汇表,而 VisGT 将视觉特征映射到语义空间,从而增强文本特征。我们对已建立的遥感基准 DIOR、DOTAv2.0 以及我们新推出的 80 级 LAE-80C 基准进行了全面的实验。结果证明了 LAE-1M 数据集的优势和 LAE-DINO 方法的有效性。
OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision
Code:https://github.com/xiaomoguhz/OV-DQUO
开放词汇表检测旨在检测来自新类别的对象,超出了检测器所训练的基本类别。然而,现有的基于基本类别数据训练的开放词汇表检测器倾向于为训练的类别分配更高的置信度,并将新类别与背景混淆。为了解决这个问题,我们提出了OV-DQUO,这是一种开放词汇表DETR,具有去噪文本查询训练和开放世界未知对象监督。具体来说,我们引入了一种通配符匹配方法。该方法使检测器能够从开放世界检测器识别的未知对象对和具有一般语义学的文本嵌入中学习,减轻了基础和新颖类别之间的置信度偏差。此外,我们提出了一种去噪文本查询训练策略。它从开放世界未知对象中合成前景和背景查询框对,通过对比学习来训练检测器,增强其区分新对象和背景的能力。我们对OV-COCO和OV-LVIS基准进行了广泛的实验,分别在新类别上获得了45.6 AP50和39.3 mAP的最新结果。
小目标
RemDet: Rethinking Efficient Model Design for UAV Object Detection 无人机-高效的小目标检测
无人机 (UAV) 图像中的对象检测已成为一个重点研究领域,这带来了两个重大挑战:i) 对象在大量图像中通常很小且很密集;ii) 计算资源限制使大多数模型不适合实时部署。当前的实时目标检测器并未针对 UAV 图像进行优化,并且为小目标检测设计的复杂方法通常缺乏实时功能。为了应对这些挑战,我们提出了一种新型检测器 RemDet (Reparameter efficient multiplication Detector)。我们的贡献如下:1) 重新思考现有探测器对小型和密集无人机图像的挑战,并提出信息损失作为高效模型的设计指南。2) 我们引入了 ChannelC2f 模块来增强小目标检测性能,证明了高维表示可以有效减轻信息损失。3) 我们设计的 GatedFFN 模块不仅提供强大的性能,而且提供低延迟,有效解决实时检测的挑战。我们的研究表明,通过使用乘法,GatedFFN 在高维表示方面比前馈网络更具成本效益。4) 我们提出了 CED 模块,它结合了 ViT 和 CNN 下采样的优势,有效减少了信息损失。它专门增强了小型和密集对象的上下文信息。对大型无人机数据集 Visdrone 和 UAVDT 的广泛实验验证了我们方法的实时效率和卓越性能。在具有挑战性的无人机数据集 VisDrone 上,我们的方法不仅提供了最先进的结果,将检测提高了 3.4% 以上,而且还在单个 4090 上实现了 110 FPS。
FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection 无人机-高效、准确的小目标检测
Code:https://github.com/galaxy-oss/FCM
具有视觉能力的嵌入式飞行设备对于广泛的应用已经变得必不可少。在航空图像检测中,虽然许多现有方法已经部分解决了小目标检测问题,但在优化小目标检测和平衡检测精度与效率方面仍然存在挑战。这些问题是实时航空图像进步的关键障碍detection.In本文,我们提出了一个新的航空图像检测实时检测器家族,命名为FBRT-活在当下,以解决检测精度和效率之间的不平衡问题。我们的方法包括两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP),旨在增强航空图像中小目标的目标感知。FCM专注于缓解深度网络中小目标信息丢失带来的信息不平衡问题。它旨在将目标的空间位置信息更深入地整合到网络中,更好地与更深层的语义信息对齐,以提高小目标的定位。我们引入了MKP,它利用不同大小核的卷积来增强不同尺度目标之间的关系,改善不同尺度目标的感知。在包括Visdrone、UAVDT和AI-TOD在内的三个主要航空图像数据集上的广泛实验结果表明,FBRT-活在当下的性能和速度方面优于各种实时探测器。
增量目标检测(增量学习)
增量目标检测(IOD) 是一类挑战性任务,要求目标检测模型能够从连续到达的新数据中持续学习,即在依次学习多个增量任务(每个任务引入新类别)后,模型不仅能检测新类别,还能保持对旧类别的检测能力,避免 “灾难性遗忘”。
GCD: Advancing Vision-Language Models for Incremental Object Detection via Global Alignment and Correspondence Distillation
Code:https://github.com/Never-wx/GCD
增量目标检测(IOD)是一项具有挑战性的任务,需要检测模型不断从新到达的数据中学习。这项工作侧重于视觉语言检测器(VLD)的增量学习,这是一个探索不足的领域。现有研究通常采用局部对齐范式来避免标签冲突,其中不同的任务在没有交互的情况下单独学习。然而,我们揭示了这种做法未能有效地保留语义结构。具体来说,对象和文本之间的对齐关系在处理新颖类别时会崩溃,最终导致灾难性的遗忘。尽管知识蒸馏(KD)是解决这一问题的常用方法,但传统KD在直接应用于VLD时表现不佳,至于不同阶段,编码和解码过程中都存在自然的知识差距。为了解决上述问题,我们提出了一种称为全局对齐和对应蒸馏(GCD)的新方法。不同的是,我们首先在同一嵌入空间内跨阶段整合知识以构建全局语义结构。然后,我们通过语义对应机制在VLD中实现有效的知识蒸馏,确保一致的提案生成和解码。在此基础上,我们提取教师模型的信息预测和拓扑关系,以保持稳定的局部语义结构。COCO 2017上的大量实验表明,我们的方法显着优于现有方法,在各种IOD场景中实现了新的最先进技术。
异常检测Anomaly Detection
Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection针对分布外数据优化
Code:https://github.com/znchen666/FiCo
最近的异常检测 (AD) 方法在分布内 (ID) 数据方面取得了巨大成功。然而,真实世界的数据经常表现出分布偏移,导致传统 AD 方法的性能大幅下降。从这个角度来看,以往很少有工作探索具有分布偏移的 AD,并且基于逆蒸馏 (RD) 框架提出了分布不变正态学习。然而,我们观察到教师和学生网络之间的错位问题导致检测失败,因此提出了 FiCo、Filter 或 Compensate 来解决 AD 中的分布偏移问题。FiCo 首先通过分布特定补偿 (DiSCo) 模块补偿分布特定信息以减少教师和学生网络之间的错位,其次过滤所有异常信息以捕获分布不变正态性。分布不变滤波器 (DiIFi) 模块。对三种不同 AD 基准的广泛实验证明了 FiCo 的有效性,它优于所有现有的最先进的 (SOTA) 方法,与基于 RD 的方法相比,它甚至在 ID 场景中取得了更好的结果。
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction
Code,暂未发布
逻辑图像理解涉及解释和推理图像视觉内容中的关系和一致性。此功能在工业检查等应用中至关重要,在这些应用中,逻辑异常检测对于保持高质量标准和最大限度地减少代价高昂的召回至关重要。以前的异常检测 (AD) 研究依赖于先验知识来设计算法,这通常需要大量的手动注释、强大的计算能力和大量数据进行训练。自回归、多模态视觉语言模型 (AVLM) 提供了一种很有前途的替代方案,因为它们在各个领域的视觉推理方面表现出色。尽管如此,它们在逻辑 AD 中的应用仍未得到探索。在这项工作中,我们研究了将 AVLM 用于逻辑 AD,并证明它们非常适合该任务。将 AVLM 与格式嵌入和逻辑推理器相结合,我们在公共基准测试 MVTec LOCO AD 上实现了 SOTA 性能,AUROC 为 86.0%,F1-max 为 83.7%,并对异常进行了解释。这明显优于现有的 SOTA 方法,在 AUROC 中提高了 18.1%,在 F1-max 分数中提高了 4.6%。
Unlocking the Potential of Reverse Distillation for Anomaly Detection
Code:https://github.com/hito2448/URD
知识蒸馏 (KD) 是一种很有前途的无监督异常检测 (AD) 方法。然而,学生网络的过度泛化通常会减少异常区域中教师和学生之间的关键表征差异,从而导致检测失败。为了解决这个问题,被广泛接受的逆蒸馏 (RD) 范式设计了不对称的教师和学生网络,使用编码器作为教师,使用解码器作为学生。然而,RD 的设计并不能确保教师编码器有效区分正常特征和异常特征,也不能确保学生解码器产生无异常特征。此外,缺少 skip 连接会导致特征重建过程中丢失精细细节。为了解决这些问题,我们提出了 RD with Expert,它引入了一种新的专家-教师-学生网络,用于同时蒸馏教师编码器和学生解码器。增加的专家网络增强了学生生成正常特征的能力,并优化了教师对正常和异常特征的区分,从而减少了漏检。此外,Guided Information Injection 旨在过滤特征并将其从教师传递给学生,从而改进细节重建并最大限度地减少误报。几个基准的实验证明,我们的方法在 RD 范式下优于现有的无监督 AD 方法,充分释放了 RD 的潜力。
zero-shot AD
⭐️Aligning and Prompting Anything for Zero-Shot Generalized Anomaly Detection
Code:https://github.com/majitao-xd/TPS
零样本广义异常检测 (ZGAD) 在工业自动化和健康筛查中发挥着关键作用。最近的研究表明,基于 CLIP 等视觉语言模型 (VLM) 构建的 ZGAD 方法具有出色的跨域检测性能。与其他计算机视觉任务不同,ZGAD 需要共同优化图像级异常分类和像素级异常分割任务,分别用于判断图像是否包含异常和检测图像的异常部分,这导致了任务的粒度不同。但是,现有方法忽略了这个问题,使用一组用于描述整个图像的宽文本提示来处理这两个任务。这限制了 CLIP 将文本特征与像素级视觉特征对齐,并损害了异常分割性能。因此,为了实现精确的视觉文本对齐,本文提出了一种新的细粒度文本提示生成策略。然后,我们在分类和分割任务中分别应用宽文本提示和生成的细粒度文本提示进行视觉文本对齐,从而准确捕获图像中的正常和异常实例。我们还引入了文本提示分流 (TPS) 模型,该模型通过重构两个任务之间的互补和依赖关系来进行联合学习,以增强异常检测性能。这使我们的方法能够专注于异常目标的细粒度分割,同时确保准确的异常分类,并在 ZGAD 任务中首次实现像素级可理解的 CLIP。对 13 个真实世界异常检测数据集的广泛实验表明,TPS 在工业和医疗领域的高度多样化数据集中实现了卓越的 ZGAD 性能。
few-shot AD
Kernel-Aware Graph Prompt Learning for Few-Shot Anomaly Detection
Code:https://github.com/CVL-hub/KAG-prompt.git
Few-shot anomaly detection (FSAD) 旨在以来自同一类的极少数正常支持图像为指导,检测看不见的异常区域。现有的 FSAD 方法通常通过直接设计复杂的文本提示来发现异常,以使其与流行的大型视觉语言模型范式下的视觉特征保持一致。然而,这些方法几乎总是忽视了视觉特征中的内在上下文信息,例如不同视觉层之间的交互关系,这是全面检测异常的重要线索。为此,我们提出了一个内核感知的图提示学习框架,称为 KAG-prompt,通过对 FSAD 视觉特征之间的跨层关系进行推理。具体来说,通过将关注不同大小的异常区域的不同层特征作为节点来构建内核感知的分层图,同时,任意节点对之间的关系代表图的边缘。通过此图传递消息,KAG-prompt 可以捕获跨层上下文信息,从而实现更准确的异常预测。此外,为了在预测图中整合多个重要异常信号的信息,我们提出了一种基于多级信息融合的新型图像级评分方法。对 MVTecAD 和 VisA 数据集的广泛实验表明,KAG-prompt 在图像级/像素级异常检测方面获得了最先进的 FSAD 结果。
多类别AD(multi-class AD)
CNC: Cross-modal Normality Constraint for Unsupervised Multi-class Anomaly Detection
现有的基于无监督蒸馏的方法依赖于编码和解码特征之间的差异来定位测试图像中的异常区域。然而,仅在正常样本上训练的解码器仍然可以很好地重建异常补丁特征,从而降低性能。这个问题在无监督多类异常检测任务中尤为明显。我们将这种行为归因于解码器的“过度泛化”(OG):多类训练中补丁模式的多样性显着增加增强了正常补丁上的模型泛化,但也无意中将其泛化扩大到异常补丁。为了减轻“OG”,我们提出了一种新方法,该方法利用与类无关的可学习提示来捕获跨各种视觉模式的常见文本正常性,然后应用它们来引导解码特征朝向“正常”文本表示,抑制解码器对异常模式的“过度泛化”。为了进一步提高性能,我们还引入了门控混合专家模块,专门处理不同的补丁模式,并在多类训练中减少它们之间的相互干扰。我们的方法在MVTec AD和VisA数据集上实现了具有竞争力的性能,证明了其有效性。
视频异常检测
Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection
Code:https://github.com/guijiejie/DCMD-main
视频异常检测(VAD)对于计算机视觉和多媒体研究至关重要。现有的VAD方法利用基于reconstruction-based或预测的框架。前者擅长检测不规则模式或结构,而后者能够发现异常偏差或趋势。我们解决基于姿势的视频异常检测,并引入了一种称为双条件运动扩散(DCMD)的新框架,它享有这两种方法的优势。DCMD集成了条件运动和条件嵌入,分别综合利用观察到的运动的姿势特征和潜在语义学。在反向扩散过程中,提出了一种运动转换器,以从人类运动的频谱空间内的多层特征中捕获潜在的相关性。为了增强正常和异常实例之间的可辨别性,我们设计了一种新颖的联合关联差异(UAD)正则化,主要依赖于基于高斯核的时间关联和self-attention-based全局关联。最后,在反向扩散过程的推理阶段引入了掩码完成策略,以提高条件运动在异常检测预测分支中的利用率。在四个数据集上进行的广泛实验表明,我们的方法显着优于最先进的方法,并表现出卓越的泛化性能。
图像生成
通用生成优化
(字节跳动) ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models 灵活生成不同分辨率
Code:https://github.com/bytedance/res-adapter
文本到图像模型和相应的个性化技术的最新进展使个人能够生成高质量和富有想象力的图像。但是,它们在生成分辨率超出其训练域的图像时通常会受到限制。为了克服这个限制,我们提出了分辨率适配器 \textbf{(ResAdapter)},这是一个专为扩散模型设计的域一致性适配器,用于生成具有不受限制的分辨率和纵横比的图像。与其他使用复杂的后处理作处理静态分辨率图像的多分辨率生成方法不同,ResAdapter 直接生成具有动态分辨率的图像。 特别是,在深入了解了纯分辨率先验之后,在通用数据集上训练的 ResAdapter 在保留其原始样式域的同时,生成了具有个性化扩散模型的无分辨率图像。综合实验表明,仅 0.5M 的 ResAdapter 可以处理任意扩散模型具有灵活分辨率的图像。更多扩展的实验表明,ResAdapter 与其他模块兼容,可在广泛的分辨率范围内生成图像,并且可以集成到其他多分辨率模型中,以高效生成更高分辨率的图像。
图像编辑
DiT4Edit: Diffusion Transformer for Image Editing 基于Diffusion的图像编辑
Code:https://github.com/fkyyyy/DiT4Edit
尽管基于 UNet 的图像编辑最近取得了进展,但仍然缺乏在高分辨率图像中编辑形状感知对象的方法。与 UNet 相比,Diffusion Transformers (DiT) 表现出卓越的能力,可以有效捕获补丁之间的长距离依赖关系,从而生成更高质量的图像。在本文中,我们提出了 DiT4Edit,这是第一个基于 Diffusion Transformer 的图像编辑框架。具体来说,DiT4Edit 使用 DPM-Solver 反演算法来获取倒置的潜在值,与基于 UNet 的框架中常用的 DDIM 反演算法相比,减少了步骤数。此外,我们还为 transformer 计算流设计了统一的注意力控制和补丁合并。这种集成使我们的框架能够更快地生成更高质量的编辑图像。我们的设计利用了 DiT 的优势,使其在图像编辑方面能够超越 UNet 结构,尤其是在高分辨率和任意尺寸的图像中。广泛的实验证明了 DiT4Edit 在各种编辑场景中的强大性能,凸显了扩散变压器在图像编辑中的潜力。
Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing
目前的方法通常利用反转、重建和编辑三个分支结构来处理一致的图像编辑任务。但是,这些方法无法控制已编辑对象的生成位置,并且存在背景保留问题。为了克服这些限制,我们提出了一种只有两个分支的免调音方法: inversion 和 editing 。此方法允许用户同时编辑对象的作并控制已编辑对象的生成位置。此外,它还实现了改进的背景保留。具体来说,我们将编辑过的物体信息传输到目标区域,并在特定时间步的反演过程中修复或保留其他区域的背景。在编辑阶段,我们使用 self-attention 中的图像特征,在反演中查询对应时间步长的 key 和值,以实现一致的图像编辑。令人印象深刻的图像编辑结果和定量评估证明了我们方法的有效性。
变化检测
主要用于遥感图像等,但可以思考是否可以用于缺陷的检测,因为缺陷相比正常图像也属于“变化”
EMPLACE: Self-Supervised Urban Scene Change Detection
城市变迁是一个持续的过程,它影响着人们对街区的认知以及街区内居民的生活。城市场景变化检测(USCD)领域旨在利用计算机视觉捕捉街道场景的变化,有助于提高人们对这些变化的认识,从而更好地了解城市及其居民。传统上,USCD领域使用基于小规模数据集的监督方法。这在将这些方法应用于新城市时存在局限性,因为它需要大量人力的标注过程,并且需要事先定义相关变化。在本文中,我们介绍了AC - 1M,这是目前最大的USCD数据集,包含超过110万张图像,同时还介绍了EMPLACE,这是一种自监督方法,使用我们的自适应三元组损失来训练视觉Transformer。我们展示了EMPLACE无论是作为线性微调的预训练方法还是在零样本设置下,都优于当前最先进的方法。最后,在对阿姆斯特丹的案例研究中,我们表明我们能够检测到整个城市的大小变化,并且EMPLACE发现的变化(取决于规模)与房价相关,而房价又反过来反映了不平等情况。
[Zero-Shot Scene Change Detection](Zero-Shot Scene Change Detection)
Code:https://github.com/kyusik-cho/ZSSCD
我们提出了一种新颖的、无需训练的场景变化检测方法。我们的方法利用跟踪模型,该模型通过识别常见对象和检测新对象或缺失对象,本质上在连续视频帧之间执行变化检测。具体来说,我们的方法通过输入参考和查询图像而不是连续帧来利用跟踪模型的变化检测效果。此外,我们关注变化检测中两个输入图像之间的内容差距和风格差距,并通过分别提出自适应内容阈值和样式桥接层来解决这两个问题。最后,我们将方法扩展到视频,利用丰富的时间信息来提高场景变化检测的性能。我们通过各种实验比较我们的方法和基线。虽然现有的基于训练的基线往往只专注于经过训练的领域,但我们的方法在各个领域显示出一致的性能,证明了我们方法的竞争力。
zero-shot
ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning
Code:https://github.com/Houwenjin/ZeroMamba
零样本学习 (ZSL) 旨在通过在语义信息的指导下将语义知识从可见的类转移到不可见的类来识别看不见的类。为此,现有工作通过利用卷积神经网络 (CNN) 或视觉转换器 (ViTs) 的全局视觉特征进行视觉语义交互,展示了卓越的性能。然而,由于 CNN 的感受野有限和 ViT 的二次复杂度,这些视觉支柱实现了次优的视觉语义交互。在本文中,受能够捕获远程依赖关系和建模复杂视觉动力学的视觉状态空间模型(即 Vision Mamba)的启发,我们提出了一种名为 ZeroMamba 的参数高效 ZSL 框架来推进 ZSL。我们的 ZeroMamba 包括三个关键组件:语义感知局部投影 (SLP)、全局表示学习 (GRL) 和语义融合 (SeF)。具体来说,SLP 集成了语义嵌入以将视觉特征映射到与局部语义相关的表示,而 GRL 鼓励模型学习全局语义表示。SeF 将这两种语义表示相结合,以增强语义特征的可区分性。我们将这些设计整合到 Vision Mamba 中,形成一个端到端的 ZSL 框架。因此,学习的语义表示更适合分类。通过对四个著名的 ZSL 基准测试进行广泛实验,ZeroMamba 表现出卓越的性能,在传统 ZSL (CZSL) 和广义 ZSL (GZSL) 设置下,其性能明显优于最先进的(即基于 CNN 和基于 ViT)的方法。
参数高效微调
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
Code:https://github.com/jiaqihuang01/DETRIS
在计算机视觉领域,参数高效调整 (PET) 正越来越多地取代传统的预训练后进行全面微调的范式。PET 因其在大型基础模型中的有效性而受到特别青睐,因为它简化了迁移学习成本并优化了硬件利用率。然而,目前的 PET 方法主要是为单模态优化而设计的。虽然一些开创性的研究已经进行了初步探索,但它们仍然停留在对准编码器(例如 CLIP)的水平上,缺乏对未对准编码器的探索。这些方法在未对准的编码器上显示出次优的性能,因为它们在微调过程中无法有效地对齐多模态特征。在本文中,我们介绍了 DETRIS,这是一个参数高效的调整框架,旨在通过在每一层和所有前面的层之间建立密集的互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和对未对准编码器的适应。我们还建议使用文本适配器来改进文本功能。我们简单而有效的方法大大超越了最先进的方法,在具有挑战性的基准上进行了 0.9% 到 1.8% 的主干参数更新。
第39期AAAI不同卷下的主题简介
第39期AAAI当前已初版28卷,每卷下包含不少于1个主题(track),大家可以根据自己的方向重点关注相关卷
卷号 | 英文原文主题 | 中文翻译主题 |
---|---|---|
Vol.1 | AAAI Technical Track on Application Domains | 应用领域技术 |
Vol.2 | AAAI Technical Track on Cognitive Modeling & Cognitive Systems AAAI Technical Track on Computer Vision I | 认知建模与认知系统技术 计算机视觉I技术 |
Vol.3 | AAAI Technical Track on Computer Vision II | 计算机视觉II技术 |
Vol.4 | AAAI Technical Track on Computer Vision III | 计算机视觉III技术 |
Vol.5 | AAAI Technical Track on Computer Vision IV | 计算机视觉IV技术 |
Vol.6 | AAAI Technical Track on Computer Vision V | 计算机视觉V技术 |
Vol.7 | AAAI Technical Track on Computer Vision VI | 计算机视觉VI技术 |
Vol.8 | AAAI Technical Track on Computer Vision VII | 计算机视觉VII技术 |
Vol.9 | AAAI Technical Track on Computer Vision VIII | 计算机视觉VIII技术 |
Vol.10 | AAAI Technical Track on Computer Vision IX | 计算机视觉IX技术 |
Vol.11 | AAAI Technical Track on Constraint Satisfaction and Optimization AAAI Technical Track on Data Mining & Knowledge Management I | 约束满足与优化技术 数据挖掘与知识管理I技术 |
Vol.12 | AAAI Technical Track on Data Mining & Knowledge Management II | 数据挖掘与知识管理II技术 |
Vol.13 | AAAI Technical Track on Game Theory and Economic Paradigms AAAI Technical Track on Humans and AI | 博弈论与经济范式技术 人类与人工智能技术 |
Vol.14 | AAAI Technical Track on Intelligent Robots AAAI Technical Track on Knowledge Representation and Reasoning | 智能机器人技术 知识表示与推理技术 |
Vol.15 | AAAI Technical Track on Machine Learning I | 机器学习I技术 |
Vol.16 | AAAI Technical Track on Machine Learning II | 机器学习II技术 |
Vol.17 | AAAI Technical Track on Machine Learning III | 机器学习III技术 |
Vol.18 | AAAI Technical Track on Machine Learning IV | 机器学习IV技术 |
Vol.19 | AAAI Technical Track on Machine Learning V | 机器学习V技术 |
Vol.20 | AAAI Technical Track on Machine Learning VI | 机器学习VI技术 |
Vol.21 | AAAI Technical Track on Machine Learning VII | 机器学习VII技术 |
Vol.22 | AAAI Technical Track on Multiagent Systems AAAI Technical Track on Natural Language Processing I | 多智能体系统技术 自然语言处理I技术 |
Vol.23 | AAAI Technical Track on Natural Language Processing II | 自然语言处理II技术 |
Vol.24 | AAAI Technical Track on Natural Language Processing III | 自然语言处理III技术 |
Vol.25 | AAAI Technical Track on Philosophy and Ethics of AI AAAI Technical Track on Planning, Routing, and Scheduling AAAI Technical Track on Reasoning under Uncertainty AAAI Technical Track on Search and Optimization | 人工智能哲学与伦理技术 规划、路径与调度技术 不确定性推理技术 搜索与优化技术 |
Vol.26 | AAAI Technical Track on AI Alignment | AAAI人工智能对齐技术 |
Vol.27 | AAAI Technical Track on AI for Social Impact Track | AAAI 人工智能促进社会影响技术 |
Vol.28 | AAAI Doctoral Consortium Track AAAI AAAI Student Abstract and Poster Program AAAI Undergraduate Consortium AAAI Demonstration Track AAAI | AAAI博士研讨会专场 AAAI学生摘要与海报项目 AAAI本科生联盟 AAAI演示赛道 |