当前位置：首页 > news >正文

【Block总结】ESSamp，下采样|保留原始图像信息|即插即用

news 2025/10/22 8:03:57

一、论文信息

PRNet 由研究者提出，专门针对航拍图像中的小目标检测难题。其核心思想是：“原始信息就是一切”。与其在信息丢失后再费力地去“修补”，不如从一开始就尽全力保留那些对小目标至关重要的原始细节。该工作已在 VisDrone、AI-TOD 和 UAVDT 等主流航拍数据集上验证了其卓越性能，并开源了代码。

论文链接：https://arxiv.org/pdf/2510.09531
代码： https://github.com/hhao659/PRNet

二、核心创新点

PRNet 的创新直击现有方法的两大痛点：

信息退化严重：在模型的特征提取过程中，小目标本就稀少的像素信息会随着网络的层层下采样而迅速丢失。
特征无法对齐：传统的特征金字塔网络（FPN）试图将浅层的“空间细节”与深层的“语义信息”融合，但因细节已失真，导致融合效果不佳，产生大量漏检和误检。

为解决这些问题，PRNet 设计了两个精巧的模块：

渐进优化颈部（PRN）：让模型能“反复回味”原始的高分辨率特征，进行多次优化。
增强型 SliceSamp（ESSamp）：改进下采样过程，像一个“信息守门员”，尽可能多地保留细节。

三、方法详解

1. 渐进优化颈部（PRN）——让细节“反复利用”

想象一下，你第一次看一张模糊的照片，可能看不清细节。但如果能反复回看原始高清图，并结合你每次的理解，就能越来越清晰。PRN 正是这个思路。

传统方法：高分辨率的浅层特征（如 P2 层）在FPN中通常只被使用一次，用完即弃，造成巨大浪费。
PRN 做法：它通过骨干网络复用机制，将原始的浅层特征（P2, P3）多次引入到特征融合的过程中。通过“下采样-融合-上采样-再融合”的渐进式循环，让高分辨率的空间细节与深层语义信息充分对齐，从而构建出对小目标更鲁棒的特征表示。

2. 增强型 SliceSamp（ESSamp）——更聪明的“下采样”
在这里插入图片描述

下采样是信息丢失的“第一现场”。传统的步长卷积粗暴地丢弃像素，而 ESSamp 则更精细。

增强特征表达：它在标准的深度卷积基础上，引入了“深度乘子”（depth multiplier），为每个输入通道分配多个卷积核，从而能捕捉到更复杂的局部模式，这对判别力微弱的小目标至关重要。
改进空间重排：它用高效的 PixelUnShuffle 操作替代了原始 SliceSamp 中复杂的索引操作，不仅保留了细节，还提升了计算速度，更适合在无人机等边缘设备上部署。

PRN 和 ESSamp 形成了一个完美的闭环：ESSamp 为骨干网络提供了高质量的输入，而 PRN 则最大化地利用了这些高质量的原始信息。

四、效果如何？

实验结果非常亮眼！

在 VisDrone 数据集上，PRNet 的轻量版仅用 2.2M 参数就达到了 43.4% AP50，比同级别模型高出一大截。其大型版本更是达到了 54.1% AP50 的SOTA（State-of-the-Art）水平。
在极小目标数据集 AI-TOD 上，PRNet-L 创下了 35.6% AP 的新纪录。
效率与精度兼得：相比基线模型 YOLO11-m，PRNet 在减少34%计算量的同时，还实现了更高的检测精度，完美诠释了“好钢用在刀刃上”。

可视化结果也清晰地表明，PRNet 能更准确地定位密集、微小的目标，热力图的响应也更集中、更精准。

五、ESSamp 代码

import torch
import torch.nn as nn
import torch.nn.functional as Fclass DSConv(nn.Module):  # EnhancedDepthwiseConvdef __init__(self, c1, c2, k=3, s=1, act=True, depth_multiplier=2):super(DSConv, self).__init__()self.block = nn.Sequential(nn.Conv2d(c1, c1*depth_multiplier, kernel_size=k, stride=s, padding=k//2, groups=c1, bias=False),nn.BatchNorm2d(c1 * depth_multiplier),nn.GELU() if act else nn.Identity(),nn.Conv2d(c1*depth_multiplier, c2, kernel_size=1, stride=1, padding=0, bias=False),nn.BatchNorm2d(c2),nn.GELU() if act else nn.Identity())def forward(self, x):return self.block(x)class ESSamp(nn.Module):def __init__(self, c1, c2, k=3, s=1, act=True, depth_multiplier=2):super(ESSamp, self).__init__()self.dsconv = DSConv(c1 * 4, c2, k=k, s=s, act=act,depth_multiplier=depth_multiplier)self.slices = nn.PixelUnshuffle(2)#self.slices = PixelSliceConcat()def forward(self, x):x = self.slices(x)return self.dsconv(x)if __name__ == "__main__":# 创建测试输入batch_size, channels, height, width = 4, 64, 32, 32x = torch.randn(batch_size, channels, height, width)# 测试 ESSamp 模块slcam = ESSamp(channels, channels)out = slcam(x)print(f"输入形状: {x.shape}")print(f"输出形状: {out.shape}")