当前位置：首页 > news >正文

[2025CVPR]SGC-Net：开放词汇人机交互检测的分层粒度比较网络解析

news 2025/7/9 11:02:39

一、论文结构解析

二、核心创新点

1. 粒度感知对齐模块（GSA）

2. 层次化分组比较模块（HGC)

三、代码复现关键步骤

1. 环境配置

2. GSA模块实现

3. HGC模块调用LLM

四、实验结果分析

1. 性能对比

2. 消融实验

3. 特征可视化

五、应用场景展望

1. 智能监控系统

2. 人机协作机器人

3. 增强现实交互

六、总结与资源

一、论文结构解析

论文提出首个分层粒度比较网络解决开放词汇人机交互（OV-HOI）检测的两大核心问题：

问题定义（Sec 1）
- 特征粒度缺失：CLIP深层特征丢失局部细节（图1a）
- 语义相似混淆：CLIP对相似类别存在分类偏差（图1b）
方法创新（Sec 3）
- 粒度感知对齐模块（GSA）：多粒度特征融合
- 层次化分组比较模块（HGC）：LLM驱动的语义边界优化
实验验证（Sec 4）
- 在SWIG-HOI和HICO-DET实现SOTA
- 消融实验验证模块有效性（表3-6）
应用拓展（Sec 5）
- 智能监控、人机协作等场景

二、核心创新点

1. 粒度感知对齐模块（GSA）

问题：CLIP深层特征丢失局部细节（如手臂姿态）
解决方案：

python

class GranularitySensing(nn.Module):def __init__(self, clip_encoder):self.blocks = partition_encoder(clip_encoder)  # 分层块划分self.gaussian_weights = nn.Parameter(torch.randn(block_num))  # 可训练高斯权重def forward(self, x):block_features = []for block in self.blocks:# 块内特征加权融合intra_feat = sum([α_l * layer(x) for layer in block]) block_features.append(intra_feat)return sum([α_b * feat for α_b, feat in zip(self.gaussian_weights, block_features)])

创新原理：

分层块划分：将CLIP视觉编码器分为3个块（6-8层、9-11层、12层）
距离感知加权：使用可训练高斯权重（公式1）
αls=exp(−2σ2(d−l)2)
视觉提示调优：添加可学习token保持预训练对齐

2. 层次化分组比较模块（HGC)

问题：LLM生成描述语义模糊（如"抱猫"vs"追猫"）
解决方案流程：

graph TDA[LLM生成初始描述] --> B[CLIP文本编码]B --> C{K-means聚类分组}C -->|大组| D[LLM生成组摘要]C -->|小组| E[LLM直接对比描述]D --> F[递归构建层次树]E --> FF --> G[分层分类决策]

创新原理：

动态分组策略：根据类别数自动调整分组阈值N
层次化分数融合：公式5-6实现单调递增分数融合
r(x,i)=1+∑j=2Mi∏k=1j−1uikpi1+∑j=2Mipij∏k=1j−1uik
提示调优：可学习文本token替代手工提示

三、代码复现关键步骤

1. 环境配置

bash

# 安装核心依赖
pip install torch==1.13.1+cu117
pip install openai clip-transformers
git clone https://github.com/SGC-Net/OV-HOI

2. GSA模块实现

python

def gaussian_weight(d, l, σ=1.0):return torch.exp(-0.5 * ((d - l)**2) / (σ**2))# CLIP编码器分层示例
blocks = {'block1': [clip.visual.transformer.resblocks[i] for i in range(6,9)],'block2': [clip.visual.transformer.resblocks[i] for i in range(9,12)],'block3': [clip.visual.transformer.resblocks[12]] 
}

3. HGC模块调用LLM

python

from openai import OpenAI
client = OpenAI()def generate_comparison(categories):response = client.chat.completions.create(model="gpt-4-turbo",messages=[{"role":"user", "content": f"区分{','.join(categories)}的视觉特征"}])return response.choices[0].message.content