当前位置: 首页 > news >正文

[2025CVPR]SEEN-DA:基于语义熵引导的领域感知注意力机制

 

目录

引言

研究背景

方法介绍

核心思想

语义熵(Semantic Entropy)

语义熵引导的注意力机制

领域感知注意力模块

实验设计

数据集

实现细节

结果与分析

对比实验结果

消融实验

代码实现

结论


引言

领域自适应目标检测(Domain Adaptive Object Detection, DAOD)旨在将源域上训练的目标检测器迁移到未标注的目标域。传统方法主要通过对齐视觉特征来提取领域不变知识,而近期基于视觉语言模型(VLM)的方法则利用文本编码器提供的语义信息来补充领域特定特征。然而,现有方法忽略了语义信息在指导视觉特征学习中的作用,导致冗余信息和领域特定特征的丢失。本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制,有效解决了这些问题。

研究背景

  1. 领域自适应目标检测的挑战​:

    • 领域之间的显著差异导致检测性能下降。
    • 传统方法主要关注视觉特征的对齐,忽视了语义信息的指导作用。
  2. 现有方法的局限性​:

    • 传统方法使用语义无关的类别标签(如one-hot编码),忽略了类别名称中的语义信息。
    • 基于VLM的方法冻结视觉编码器,仅利用语义信息在检测头中进行调整,限制了视觉特征的判别能力。

方法介绍

核心思想

本文提出了一种基于语义熵引导的领域感知注意力机制(SEEN-DA),通过以下两个分支来优化视觉特征:

  1. 跨领域注意力分支​:提取领域不变特征,消除冗余信息。
  2. 领域内注意力分支​:补充领域特定的语义信息。

语义熵(Semantic Entropy)

语义熵用于量化视觉特征中与特定领域相关的语义信息量。其计算公式如下:

SE(T,f)=−c∑​p(tc​,f)log(p(tc​,f))

其中,p(tc​,f) 表示视觉特征 f 属于类别 c 的概率,T 是文本嵌入向量。

语义熵引导的注意力机制

通过语义熵作为注意力权重,调整视觉特征的权重:

SEAttention(T,f)=c∑​p(tc​,f)log(p(tc​,f))+logK

其中,K 是类别数量。

领域感知注意力模块

该模块包含两个并行分支:

  1. 跨领域注意力分支​:

    • 使用共享的卷积模块捕获任务相关知识。
    • 通过语义熵引导的注意力机制,抑制冗余信息。
  2. 领域内注意力分支​:

    • 使用独立的卷积模块和文本嵌入,补充领域特定的语义信息。

Figure 2.(a) Overview of the proposed SEEN-DA for DAOD, where the semantic entropy is utilized as attention in domain-aware attention module.(b) The architecture of domain-aware attention module, consisting of an inter-domain and an intra-domain attention branch.

实验设计

数据集

  1. 跨天气适应(Cityscapes→Foggy Cityscapes)​​:

    • 源域:Cityscapes(晴天)
    • 目标域:Foggy Cityscapes(雾天)
  2. 跨视场适应(KITTI→Cityscapes)​​:

    • 源域:KITTI(乡村和高速公路场景)
    • 目标域:Cityscapes(城市道路场景)
  3. 模拟到真实适应(SIM10K→Cityscapes)​​:

    • 源域:SIM10K(虚拟场景)
    • 目标域:Cityscapes(真实场景)
  4. 跨风格适应(Pascal VOC→Clipart)​​:

    • 源域:Pascal VOC(真实图像)
    • 目标域:Clipart(卡通图像)

实现细节

  • 骨干网络​:RegionCLIP(ResNet-50)
  • 检测器​:Faster-RCNN
  • 优化器​:SGD
  • 学习率​:使用warm-up策略
  • 评估指标​:平均精度(mAP)

结果与分析

对比实验结果

  1. 跨天气适应(Cityscapes→Foggy Cityscapes)​​:

    • SEEN-DA的mAP达到57.5%,超过现有最佳方法DA-Pro 1.6%。
  2. 跨视场适应(KITTI→Cityscapes)​​:

    • SEEN-DA的mAP为67.1%,提升了5.7%。
  3. 模拟到真实适应(SIM10K→Cityscapes)​​:

    • SEEN-DA的mAP为66.8%,优于现有最佳方法SOCCER 3.0%。
  4. 跨风格适应(Pascal VOC→Clipart)​​:

    • SEEN-DA的mAP为47.9%,在六个类别上表现优异。

Figure 3. Detection comparison on the Cross-Weather adaptation scenario. We visualize(a) the ground truth, the detection boxes of(b)SOTA DA-Pro[23] and(c) our methods SEEN-DA.

消融实验

  1. 领域感知注意力模块的有效性​:

    • 跨领域注意力分支提升2.3% mAP。
    • 领域内注意力分支进一步提升1.7% mAP。
  2. 投影层的影响​:

    • 将视觉嵌入投影到文本空间(V2T)效果最佳,mAP达到57.5%。

Figure 4. Ablation(%) on the number of attention modules on Cross-Weather adaptation.

代码实现

由于论文未提供具体代码,以下是基于PyTorch的伪代码框架:

class DomainAwareAttention(nn.Module):def __init__(self, backbone, text_encoder):super().__init__()self.backbone = backboneself.text_encoder = text_encoderself.inter_attention = InterDomainAttention()self.intra_attention = IntraDomainAttention()def forward(self, source_img, target_img):# 提取视觉特征source_feat = self.backbone(source_img)target_feat = self.backbone(target_img)# 跨领域注意力inter_attention = self.inter_attention(source_feat, target_feat)# 领域内注意力intra_attention = self.intra_attention(source_feat, target_feat)return inter_attention, intra_attention

结论

本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制,有效解决了领域自适应目标检测中的语义信息利用问题。实验结果表明,该方法在多个基准数据集上显著提升了检测性能,具有广泛的应用前景。

论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Li_SEEN-DA_SEmantic_ENtropy_guided_Domain-aware_Attention_for_Domain_Adaptive_Object_CVPR_2025_paper.pdf

http://www.dtcms.com/a/265874.html

相关文章:

  • 通过观看数百个外科手术视频讲座来学习多模态表征|文献速递-最新论文分享
  • 【数据结构】哈希——闭散列/开散列模拟实现(C++)
  • [论文阅读] 人工智能 | 在非CUDA硬件上运行几何学习:基于Intel Gaudi-v2 HPU的PyTorch框架移植实践
  • Stable Diffusion 项目实战落地:AI照片修复 第一篇 从黑白到彩色:用AI给照片上色的魔法之旅
  • stm32f103c8t6---ymodem协议串口IAP升级(只教怎么操作,略讲原理,100%成功!)
  • laravel基础:隐式模型绑定的用法和介绍
  • 【AI】大语言模型(LLM) NLP
  • STM32-第二节-GPIO输入(按键,传感器)
  • [科普]UART、RS232、RS422、RS485、TTL:深入解析串行通信家族
  • uniapp 使用ffmpeg播放rtsp
  • 网络基础(1)
  • 铁血联盟3 中文 免安 离线运行版
  • 基于路径质量的AI负载均衡异常路径检测与恢复策略
  • HAL库(Hardware Abstraction Layer,硬件抽象层)核心理解
  • 遇到该问题:kex_exchange_identification: read: Connection reset`的解决办法
  • VBA初学3----实战(VBA实现Excel转csv)
  • 《2025年攻防演练必修漏洞清单》
  • C++11 shared_ptr 原理与详细教程
  • uniapp打包微信小程序主包过大问题_uniapp 微信小程序时主包太大和vendor.js过大
  • C++ 实现简单二叉树操作:插入节点与数据打印
  • 【playwright篇】教程(十七)[html元素知识]
  • 【NLP入门系列四】评论文本分类入门案例
  • 设计模式-观察者模式、命令模式
  • Java连接阿里云MaxCompute例
  • Qt宝藏库:20+实用开源项目合集
  • NV133NV137美光固态闪存NV147NV148
  • Git协作开发:feature分支、拉取最新并合并
  • 这才叫窗口查询!TDEngine官方文档没讲透的实战玩法
  • ModbusRTU转Profinet网关在工业自动化中的应用与价值
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | DragNDrop(拖拽占用组件)