当前位置：首页 > news >正文

【文献25/03/29】UPFormer：用于田间葡萄叶病害分割的U形感知轻量级Transformer

news 2025/10/9 14:33:28

UPFormer：用于田间葡萄叶病害分割的U形感知轻量级Transformer

UPFormer: U-sharped Perception lightweight Transformer for segmentation of field grape leaf diseases

Redirecting

摘要

在智能农业领域，分割模型实际上是及时检测和识别植物病害的标准。然而，复杂的背景和小型病害使得对葡萄叶病的分割具有挑战性。现有模型性能提升的趋势伴随着模型大小和计算成本的代价，这阻碍了在资源受限硬件上的部署。
为此，我们提出了一种针对田间葡萄叶病的定制轻量级分割架构，称为U形感知Transformer（UPFormer），该架构在性能和效率之间实现了更好的权衡。
具体而言，我们利用U形层次结构获取具有优越成本效率的小型词元。原型感知和像素感知广播在并行架构中开发，以学习低频全局信息，并在复杂环境中挖掘小型病害的高频局部信息。此外，设计了一种快速词元聚合方案，以在不增加参数数量的高效聚合范式中补偿牺牲的细节信息。
大量实验表明，UPFormer在包括Field-PV、Syn-PV和Plant Village在内的数据集上显著优于现有的CNN、ViT和CNN-Transformer混合架构。
https://github.com/baboonzhang.Data

1-引言

清晰的病害分割信息使得治疗措施更加集中，从而降低了农药或其他治疗成本。
CNN限制了性能：（1）局部连接通常无法建模长期依赖关系，忽视复杂模式中的细粒度语义信息。（2）固定的卷积核和权重导致细节信息的损失。
是否可以设计一个轻量级的葡萄叶病害分割网络，同时挖掘低频全局和高频局部信息？
UPFormer能够在Transformer中实现频率表示学习，并基于以下方法提高推断速度和效率：
- (1) UPFormer利用U形层次结构生成具有优越代价效益的小词元。
- (2) 核心构建块意识增强模块旨在通过两个分支挖掘细粒度的疾病信息。原型感知（PP）擅长学习低频全局信息，而带有门控机制的像素感知广播（PB）通过共享权重和像素感知权重增强非线性，挖掘高频局部信息。
- (3) 设计了一种快速词元聚合方案（FTAR），以补偿牺牲的细节信息，而不增加参数数量。
UPFormer在高速度模式下，相对于Field-PV、Syn-PV和Plant Village数据集，在准确率和成本效益之间实现了优越的平衡。

2-相关工作

2.1 植物疾病分割

【疾病分割前人的相关工作】

2.2 Transformer框架与卷积的结合

CNN在参数较少的情况下不能有效执行上下文信息交互。基于Transformer的方法具有强大的全局表示能力但沉重的权重和计算。
前人方法不能有效处理高频全局信息，导致小疾病的详细信息损失。
我们设计了一个平行的感知增强模块架构，通过共享权重和像素感知权重来挖掘高频局部信息。

2.3 词元聚合方案

直接汇聚高分辨率和低频特征信息的弱点在于细节往往会被压制或丢失。
ASPP、PPM、DAPPM
快速词元汇聚方法在多尺度信息并行操作，并在每个尺度上减少通道数。

3-材料与方法

整体架构

UPFormer的整体架构采用MobileNetV2通过U型金字塔提取多尺度特征信息，以减少计算成本并生成更少的词元特征。随后，小规模的词元被送入感知增强模块，该模块由PP和PB分支组成，用于提取小病灶的低频和高频特征图。PP用于获取细粒度的低频全局信息，并通过降采样𝐾和𝑉来减少FLOPs和参数的数量。PB旨在通过共享权重和像素感知权重挖掘疾病的低频局部信息，从而增强非线性，使用了这样的门控机制。随后，通过FTAR对特征进行聚合，以减少因直接聚合低频和高频特征而导致的细节信息损失。最后，聚合后的词元被直接前向传递到轻量级分割头。

U形金字塔

采用轻量级的MobileNetV2来降低计算复杂度。U形金字塔旨在快速处理高分辨率图像以生成不同尺度的标记，而不是获取较大的感受野。此外，U形金字塔基于卷积神经网络模块，能够继承CNN的局部连接性和归纳偏好的特性。输入的分辨率为512 × 512，与直接将嵌入层的最后输出馈送到下游分割头的普通Transformer相比，平均汇聚运算符被用来将词元的分辨率降低到1/64 × 64的大小。随后，我们在通道维度上连结来自不同尺度的词元，以生成新的词元，这些词元用作上下文语义增强模块的输入。由于多尺度词元被下采样到较小的分辨率，新的词元具有大量的通道。因此，以更低的计算复杂度提取多尺度特征信息。

3.1 像素级感知广播

传统的注意力机制能够以高效的方式捕捉全局感受野，同时提取低频全局信息，但忽视了高频局部信息的重要性。PB模块是一种注意力风格的卷积运算符，通过共享权重和像素感知权重高效增强非线性。给定输入词元 𝐗 ∈ R𝐻×𝑊 ×𝐶，其中 𝐻 × 𝑊 和 𝐶 分别是词元的数量和每个词元的通道特征维度，它输出一个经过优化的特征。与普通注意力机制类似，我们使用一个线性层来生成键 𝐾、查询 𝑄 和值 𝑉。首先通过在 𝑉 上使用共享权重的深度卷积（DWconv）运算符提取局部特征。然后，对 𝑄 和 𝐾 进行像素感知权重的局部增强处理。

如图 3(a)所示，卷积运算符使用卷积核中的权重对其邻近的标记执行加权求和。与卷积不同，自注意力机制（图 3(b)）通过与其他标记的相似度生成权重。为了增强模型的非线性，我们用 Tanh 和 Awish 替代 Vanilla Attention 中的 Softmax，以获得介于 -1 和 1 之间的像素感知权重。这一值域的限制有助于维持梯度的稳定性，使模型更易于优化。与现有的注意力机制不同，我们采用门控机制来获得像素感知权重，这意味着比以往的注意力机制具有更强的非线性。

如图3(a)所示，传统卷积利用卷积的局部连接性和全局共享特性来捕捉高频局部特征信息。普通注意力主要是基于查询和键计算感知权重，然后根据权重系数对值的求和进行加权。也就是说，高频局部信息是通过像素之间的相似度得分或相关系数提取的。

3.2 原型感知

为了捕捉低频全局特征，我们利用了原型感知注意力机制为了捕捉低频全局特征，我们利用了原型感知注意力机制。

与传统的注意力机制不同，我们对 𝐾 和 𝑉 进行了汇聚降采样，以减少矩阵运算，从而降低计算负担。1 × 1 卷积层在空间维度上交换词元之间的信息，有效减少了重塑的数量。我们在每个卷积后附加了批量规范化，这在推断时比层规范化更快。Transformer 的残差映射有效地包容了词元中的细粒度语义信息。原型感知高效地获取全局感受野，并以更低的计算成本增强低频表示。

3.3 快速词元汇聚方法

直接整合来自词元金字塔的高层语义信息和低频上下文信息的弱点在于，详细特征容易被周围像素信息淹没，小目标则被忽视。

快速词元汇聚配方，涵盖低频和高频，并减少通道数量。将特征增强模块生成的1个64×64图像分辨率的特征映射作为输入。采用不同卷积核和步幅的全局平均汇聚以获取不同图像分辨率的特征映射。不同尺度的通道维度通过1 × 1卷积进行转换，并在特征图中上采样。然后，使用3 × 3卷积将原始特征与不同尺度的上下文信息进行汇聚。最后，利用1 × 1卷积来连结和压缩特征图。此外，引入了1 × 1投影快捷方式，以便于最优化。

3.4 轻量高效

UPFormer增强了传统Transformer和卷积的优点，以挖掘低频全局特征和高频局部特征。

在轻量化方面，以往的Transformer研究需要更多的参数来表示全局信息，这是因为缺乏CNN固有的归纳偏好。在性能方面，现有方法通过卷积将空间信息转化为潜在信息，重点关注空间注意力，以高效编码全局信息，而忽视了高频局部信息的重要性。

与这些方法不同，我们通过并行架构分别挖掘低频全局信息和高频局部信息。结合了卷积的归纳偏好和共享权重特性，以及像素感知权重在视觉表示中的优势，使用更少的参数。此外，我们采用更强的非线性方式生成像素感知权重，这些权重对所有操作进行卷积处理。

4-实验

4.1 数据集

我们在三个数据集上评估了所提出的模型，包括Field-PV数据集、Plant Village和Syn-PV。我们构建了Syn-PV数据集，通过替换Plant Village数据集中的背景合成自然田野图像。Syn数据集专注于葡萄黑斑病和黑腐病的研究。背景替换编码和数据集可在https://github.com/baboonzhang获取。

数据增强：第一阶段：从复杂背景中提取目标叶片。第二阶段是根据第一阶段提取的叶片图像对病斑进行分割。为了缓解过拟合并提高模型的稳健性和泛化能力，我们利用 Augmentor 模块进行几何变换，如随机左右翻转、随机裁剪、随机采样，以及颜色和亮度的增强或降低。此外，我们还应用了来自语义分割库 MMsegmentation的基础且强大的数据增强方法。

4.2 实验布置

优化器：使用AdamW（Loshchilov & Hutter, 2018）优化器进行训练，其超参数设置为：权重衰减为0.01，初始学习率设置为6×10−4，并采用“poly”学习率调度器。

评估指标：本实验的定量指标包括：查准、交并比（IoU、Dice系和查全。其中，较高的IoU和Dice值通常表示预测结果与真实结果之间的重叠程度更高，这代表着更准确的分割结果。我们从参数（params）、浮点运算每秒（FLOPs）和每秒帧数（FPS，推断速度）来量化模型的性价比。较低的params和FLOPs值意味着模型的大小更小、复杂度更低，而较高的FPS则表示处理速度更快。𝑇 𝑃 表示被分类为真正例的正例。𝑇 𝑁 表示被正确分类的真负例。𝐹 𝑃 表示被分类为叶片但实际上是背景的像素。𝐹 𝑁 表示被分类为背景但实际上是叶片的像素。