当前位置：首页 > news >正文

【目标检测】【医学图像目标检测】BGF-YOLO：脑肿瘤检测的多尺度注意力特征融合

news 2025/11/1 7:53:45

BGF-YOLO: ENHANCED YOLOV8 WITH MULTISCALE ATTENTIONAL FEATURE FUSION FOR BRAIN TUMOR DETECTION
BGF-YOLO：基于多尺度注意力特征融合增强的YOLOv8脑肿瘤检测模型

在这里插入图片描述
代码链接

摘要

基于YOLO（You Only Look Once）的目标检测器在自动化脑肿瘤检测中展现出卓越的准确性。本文通过将双层路由注意力机制（BRA）、广义特征金字塔网络（GFPN）和第四检测头集成至YOLOv8，提出新型BGF-YOLO架构。该架构采用注意力机制以聚焦关键特征，并通过融合高层语义特征与空间细节的特征金字塔网络增强特征表征能力。此外，我们探究了不同注意力机制、特征融合方式及检测头结构对脑肿瘤检测精度的影响。实验结果表明，BGF-YOLO相较于YOLOv8x实现了mAP50指标4.7%的绝对提升，并在Br35H脑肿瘤检测数据集上达到最先进性能。

索引术语——医学图像分析、病灶检测、YOLO算法、特征融合、注意力机制。

1.引言

早期检测脑肿瘤有助于实施更有效的治疗方案并改善预后，因此脑肿瘤检测是医学诊断的关键环节。磁共振成像（MRI）是显示脑部结构及识别肿瘤的最佳影像学检查手段。研究证实"You Only Look Once"（YOLO）系列算法能实现脑肿瘤的精准检测。Kang等学者[1]提出RCS-YOLO模型——一种基于通道重排的再参数化卷积新型YOLO架构——应用于脑肿瘤检测领域，在准确率与检测速度间实现了平衡。

YOLOv8架构[2,3]主要由骨干网络(backbone)和检测头(head)组成，其中颈部网络(neck)被包含在检测头部分。用于特征提取的骨干网络包含卷积模块(Conv)、C2f（含跨层连接）模块以及空间金字塔快速池化模块(SPPF)。其中卷积模块（即ConvBiSiLU/CBS）和SPPF模块与YOLOv5[4]架构[5]保持一致：卷积模块负责对输入图像执行卷积运算并辅助C2f模块进行特征提取，SPPF模块则实现自适应尺寸输出。相较于YOLOv5中的C3模块，C2f（含跨层连接）模块采用轻量化卷积结构，通过增加跨层分支连接来丰富梯度流，从而获得更强的特征表征能力。该模块通过密集残差结构增强特征表达能力，并依据缩放系数进行通道分割与拼接操作以降低计算复杂度与模型容量。骨干网络末端的SPPF模块可提升特征敏感性，捕获图像中不同层级的特征信息。

颈部网络采用特征金字塔网络(FPN)[6]与路径聚合网络(PANet)[7]结构进行多尺度特征融合。通过FPN-PANet结构与不含跨层连接的C2f模块，将骨干网络三个阶段的特征图进行跨尺度融合，实现浅层信息向深层特征的聚合。检测头采用解耦头结构，包含分类与回归（即定位）预测端以缓解分类与回归任务间的冲突，并采用无锚框(anchor-free)机制提升非常规宽高比目标的检测效果。在边界框分类任务中，YOLOv8默认采用二元交叉熵损失函数，亦可选用变焦损失(varifocal loss)[8]以改善类别不平衡问题并提升检测精度。边界框回归任务则采用分布聚焦损失(distribution focal loss)[9,10,11]解决类别不平衡与背景类别问题，使网络快速聚焦目标邻近位置的分布特征，同时采用完全交并比(CIoU)损失函数[12]缓解预测框与真实框的重叠偏差问题。

YOLOv8的最新改进主要聚焦于注意力机制、多尺度特征融合网络和回归损失函数。MHSA-YOLOv8[13]采用了多头自注意力机制；文献[14]提出轻量化YOLOv8，通过将双路径门控注意力与特征增强模块集成到原始YOLOv8s架构中；文献[16]基于渐进特征金字塔网络(AFPN)[15]的颈部结构改进了YOLOv8。UAV-YOLOv8[17]在模型中整合了BiFormer模块[18]、焦点快速网络块和Wise-IoU(WIoU)[19]；另一改进版YOLOv8[20]同样在骨干网络中引入Biformer用于绝缘子故障检测。DCA-YOLOv8[21]采用可变形卷积与坐标注意力机制(CA)[22]实现快速牛只检测。CSS-YOLO[23]则分别在骨干网络和颈部结构中引入Swin Transformer与卷积注意力模块(CBAM)[24]。

本文提出了一种名为BGF-YOLO的新模型，通过整合双层路由注意力机制（BRA）[18]、广义特征金字塔网络（GFPN）[25]和第四检测头来提升YOLOv8的检测性能。本工作的贡献可总结如下：（1）基于GFPN重构YOLOv8原始颈部结构，构建结构化特征融合网络以实现多层级有效特征融合；（2）利用BRA同时实现动态与稀疏注意力机制，聚焦显著特征并降低特征冗余；（3）增设第四检测头以丰富锚框尺度并优化检测回归损失；（4）据我们所知，这是首次将增强型YOLOv8应用于脑肿瘤检测。相比原版YOLOv8，所提改进显著提升了肿瘤检测性能。我们还评估了不同注意力机制、特征金字塔网络和回归损失对检测性能的影响。

2.方法

图1展示了所提出的BGF-YOLO架构。与YOLOv8中轻量级的颈部及头部结构不同，BGF-YOLO具有极深且复杂的颈部结构。该网络的骨干部分和头部设计基于YOLOv8的原有结构。本节将详细阐述BGF-YOLO网络各组成部分的具体设计。

在这里插入图片描述

图1. BGF-YOLO架构概览。该架构基于YOLOv8，新增了双层级路由注意力机制(Bi-level Routing Attention, BRA) [18]和跨阶段部分密集网络(Cross Stage Partial DenseNet, CSP) [26]模块（图中着色标注）。卷积层(Conv)、C2f（含跳跃连接）、空间金字塔池化快速模块(SPPF)、拼接层(Concat)、上采样层(Upsample)及检测头(Detect)均继承自原始YOLOv8架构[3]。

2.1 增强型GFPN用于多层级特征融合

FPN最初是为解决卷积神经网络（CNN）的层级特征融合问题而提出的，已被证实在提升深度学习模型处理目标检测任务（尤其是多尺度目标检测）能力方面具有显著效果。PANet通过加强特征传播与促进信息复用，增强了特征金字塔的表征能力。双向FPN（BiFPN）[27]在仅含自上而下路径的FPN基础上增加自下而上路径，形成双向跨尺度连接以高效利用多尺度特征。广义FPN（GFPN）[25]采用密集连接与女王融合结构生成更优融合特征，并通过拼接操作替代求和运算进行特征融合以减少信息损失。AFPN采用渐进式自适应空间融合策略：先融合两个低层特征，继而融合高层特征，最终融合顶层特征，从而强化关键层级的重要性并缓解不同目标间矛盾信息的干扰。

FPN和PANet后来被用于YOLOv5和YOLOv8颈部结构中的多尺度特征融合。YOLOv5与YOLOv8在颈部模块的主要区别在于：YOLOv8在上采样阶段采用不含快捷连接的C2f模块取代了YOLOv5的C3模块。FPN首先提取卷积神经网络中的特征图，随后通过上采样和粗粒度特征图以自上而下的方式实现特征图融合；而PANet则采用自下而上的特征图融合方式以确保空间信息精确保留。但FPN与PANet的组合仅能支持自上而下和自下而上的双向特征融合。BiFPN、AFPN及GFPN的结构旨在通过增加更多层级来快速整合不同层次的特征，从而提升跨层级特征融合的效果，满足多层级特征融合的需求。

我们对YOLOv8中的FPN-PANet结构进行改进，通过增强网络的多路径融合实现不同层级间的多级特征融合。受GFPN及基于重参数化GFPN的DAMO-YOLO[28]启发，我们采用跨阶段部分密集网络（CSP）[26]通过替换无捷径连接的C2f模块并与卷积层结合，添加跳跃连接以跨不同空间尺度及非相邻潜在语义层级共享密集信息。该设计使模型在颈部结构中能同等重视高层语义信息与低层空间信息处理。

2.2 基于BRA的注意力特征融合

多尺度特征融合网络在颈部结构中的核心思想是通过融合来自不同网络层提取的特征图，以提升多尺度目标检测性能。然而，YOLOv8中的特征融合层仍存在不同特征图间信息冗余的问题。为克服这一局限，我们考虑在YOLOv8模型中引入注意力机制以优化特征融合过程。

注意力机制最初被提出用于权衡特定特征相对于其他特征的重要性。在计算机视觉领域，有五种注意力机制在提升目标检测性能方面具有巨大潜力：挤压激励（SE）[29]、CBAM、高效通道注意力（ECA）[30]、CA、感受野注意力（RFA）[31]以及BRA。它们的区别在于：SE和ECA属于通道注意力机制，RFA和BRA处理空间注意力，而CBAM与CA则同时作用于通道和空间注意力。SE通过显式建模卷积特征通道间的相互依赖关系，实现通道维度特征响应的自适应重校准。ECA仅捕获局部通道依赖关系，无需依赖全局统计量以降低计算需求。RFA的优势在于提供有效的注意力权重以实现卷积核参数共享。BRA是一种动态、查询感知的稀疏注意力机制，能够以内容感知方式为每个查询选择最相关的少量键/值标记。

我们通过采用BRA注意力模块改进提出的GFPN特征融合结构，在实现有效多级特征融合的同时避免特征图间的冗余信息。动态稀疏注意力机制能通过分配不同尺度特征图在通道和空间位置上的权重，减少冗余特征信息并提升模型检测精度。在特征融合过程中，我们将BRA模块置于卷积或上采样模块后方，使模型仅在特征提取后聚焦特定区域。为进一步避免信息丢失，CSP模块中的跳跃连接实现了底层特征图知识在后续层的复用。BRA机制旨在从更广区域层面消除大量非关键键值对输入，仅保留少数相关区域。该模块将特征图输入后，先将其分割为多个区域并通过线性变换生成查询、键和值，再将查询与键的区域级关系输入邻接矩阵构建有向图，从而定位特定键值对的关联关系——本质上识别出各指定区域应关联哪些区域。最后利用区域到区域的路由索引矩阵，在单个令牌间执行多头自注意力计算。通过这种多头自注意力的双层路由优化机制，模型能更聚焦特征图中的脑肿瘤区域，从而提升脑肿瘤检测能力。

该方案仅采用BiFormer的注意力模块BRA，这与现有研究[17,20]将BiFormer整体嵌入YOLOv8的做法不同。

2.3 增强型检测头

原始YOLOv8模型配备三个检测头，其高度与宽度尺寸分别为20×20、40×40和80×80。然而在脑肿瘤检测场景中，这些检测头仍无法满足需求，导致模型对超出原尺度较大目标的检测精度表现欠佳。

我们在头部引入一个额外的160×160检测头，与颈部特征融合网络的新结构对齐，以提升多尺度目标的检测能力。新增的尺度检测头作为第四个检测头，置于YOLOv8原有80×80检测尺度旁。该检测头融合了输入图像中第一个C2f（捷径）模块的浅层信息，并整合了额外的特征融合网络。我们增加的这一预测头使模型能够检测更丰富尺度的目标。

3.实验数据

3.1 数据集

我们在公开的脑肿瘤图像数据集Br35H[32]上评估了所提出的CGFW-YOLOv8模型的性能，该数据集包含801张带有脑肿瘤标注的MRI图像。数据集被划分为500张训练集图像、201张验证集图像和100张测试集图像。所有结果均在测试集上进行验证。

3.2 实现细节

BGF-YOLO模型的训练与测试均在Intel®至强®铂金8255C处理器（主频2.50GHz）和NVIDIA® GeForce GTX® 1060（6GB显存）GPU上完成。我们在YOLOv8超大版本（YOLOv8x）基础上实现了所提出的方法。BGF-YOLO及其他对比方法训练时采用的超参数均与YOLOv8x保持一致：训练批次大小设置为5，训练阶段迭代次数为120轮；优化器采用随机梯度下降法，初始学习率0.01，最终学习率0.01，动量系数0.937。

3.3 结果

为进行公平比较，我们选用各竞争模型中性能最优的版本，并采用与其评估时相同的指标。如表1所示，BGF-YOLO在精确率、平均精度均值mAP和mAP三项指标上分别较YOLOv8x实现了1.2%、4.7%和0.7%的绝对提升，其性能亦优于DAMO-YOLO-L和RCS-YOLO。BGF-YOLO不仅超越了基线模型YOLOv8，更优于采用GFPN-neck结构的DAMO-YOLO检测器以及兼具高精度与快速特性的RCS-YOLO检测器。

在这里插入图片描述

表1. YOLOv8x、DAMO-YOLO、RCS-YOLO与所提BGF-YOLO的性能对比。*表示采用蒸馏策略，所有DAMO-YOLO版本的原始代码仅输出平均精度与平均召回率。最优结果以加粗形式呈现。

3.4 消融实验

我们通过以下一系列消融实验，评估了所提出的BGF-YOLO模型中各方法的优势，并探究了不同技术组合对检测性能的影响

3.4.1 整体架构消融研究

我们通过依次移除各方法评估了四个不完整的BGF-YOLO模型。表2显示，BRA、GFPN、第四检测头和GIoU均对BGF-YOLO的精度提升有所贡献。其中"w/o GFPN"表示采用YOLOv8原始的颈部结构FPN-PANet。增加第四检测头对整体精度提升（尤其是mAP50指标）影响最为显著，其次是GFPN和BRA。

在这里插入图片描述

表2. 所提BGFYOLO方法中各模块的消融实验。w/o表示"不含"。

3.4.2 不同多尺度特征融合结构的影响

我们将提出的BGF-YOLO与分别用BiFPN和AFPN替换BGF-YOLO颈部特征融合模块GFPN的BBFG-YOLO、BAFG-YOLO进行对比。如表3所示，采用GFPN结构的BGF-YOLO在精确率、mAP50和mAP50-95指标上均显著优于采用BiFPN与AFPN结构的模型，仅召回率指标略低。

在这里插入图片描述

表3. 多尺度特征融合结构的消融研究。BGF-YOLO颈部的GFPN结构被替换为BiFPN和AFPN。最佳结果以粗体显示。

3.4.3 不同注意力机制的影响

我们研究了所提出的BGF-YOLO模型中不同的注意力机制。表4列出的模型名称首字母代表所采用的注意力机制，即S、E、C、A、R和B分别表示SE、ECA、CBAM、CA、RFA和BRA。与其他五种备选注意力机制相比，BRA带来了最大的性能提升。与此同时，CBAM（即CGF-YOLO）在mAP50指标上仅次于BRA（即BGF-YOLO）位列第二，且其精确度数值高于BRA。尽管ECA（即EGF-YOLO）和CA（即AGF-YOLO）的mAP50-95值优于BRA，但二者的mAP50值显著低于BRA。

在这里插入图片描述

表4. 注意力机制消融实验。BGF-YOLO中的BRA模块分别被SE、ECA、CBAM、CA和RFA替换。最佳结果以粗体显示。

3.4.4 不同回归损失函数的影响

我们对回归损失函数的影响进行了消融研究，包括：计算两个轴对齐矩形距离的广义交并比（GIoU）[33]、优化目标值低于CIoU的距离交并比（DIoU）[12]、显式衡量三种几何因素差异的高效交并比（EIoU）[34]、重新定义惩罚指标的Scylla-IoU（SIoU）[35]，以及采用双层注意力机制和动态非单调聚焦机制的WIoU v3回归损失函数。这些损失函数在表5中以模型名称第四字母C、E、S、W表示。与其他回归损失相比，YOLOv8原有的CIoU回归损失在目标检测中具有更优的边界框鲁棒性。DIoU（即BGFD-YOLO）的mAP50指标与CIoU（即BGF-YOLO）接近，表明DIoU是CIoU的有力竞争者。在mAP50-95指标上，GIoU（即BGFG-YOLO）和EIoU（即BGFE-YOLO）的表现优于CIoU。选择何种回归损失函数需根据具体场景的评估标准而定。本研究选择mAP50作为脑肿瘤检测的主要指标，因此在提出的BGF-YOLO模型中采用CIoU作为回归损失函数。

4.总结

我们基于YOLOv8开发了新型BGF-YOLO模型，用于从MRI图像中精准检测脑肿瘤。研究表明，通过优化GFPN特征融合结构、引入BRA注意力机制以及增加检测头，BGF-YOLO显著提升了YOLOv8的目标检测能力。这些改进实现了多层级加权特征融合与更丰富的尺度特征整合，并利用动态聚焦机制生成高质量锚框。此外，针对不同特征融合结构、注意力机制和回归损失的系列实验评估表明，BGF-YOLO所提模块优于其他替代技术。我们的BGF-YOLO模型在脑肿瘤检测数据集Br35H上达到了当前最先进的性能水平。

5.引用文献

[1] M. Kang, C.-M. Ting, F. F. Ting, and R. C.-W. Phan, “Rcsyolo: A fast and high-accuracy object detector for brain tumor detection,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Interv. (MICCAI), 2023, in press.
[2] G. Jocher, A. Chaurasia, and J. Qiu, “Yolo by ultralytics (version 8.0.190),” GitHub, 2023, https://github.com/ultralytics/ ultralytics.
[3] R. King, “Brief summary of yolov8 model structure,” GitHub, 2023, https://github.com/ultralytics/ultralytics/issues/189.
[4] G. Jocher, “Yolo by ultralytics (version 5.7.0),” GitHub, 2022, https://github.com/ultralytics/yolov5.
[5] Z. Wu, “Yolov5 (6.0/6.1) brief summary,” GitHub, 2022, https://github.com/ultralytics/yolov5/issues/6998.
[6] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2017, pp. 2117–2125.
[7] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network for instance segmentation,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2018, pp. 8759–8768.
[8] H. Zhang, Y. Wang, F. Dayoub, and N. S ̈underhauf, “Varifocalnet: An iou-aware dense object detector,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2021, pp. 85108519.
[9] X. Li et al., “Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection,” in Proc. Annu. Conf. Neural Inf. Process. Syst. (NeurIPS), 2020, vol. 33, pp. 21002–21012.
[10] X. Li, W. Wang, X. Hu, J. Li, J. Tang, and J. Yang, “Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2021, pp. 11632–11641.
[11] X. Li, C. Lv, W. Wang, G. Li, L. Yang, and J. Yang, “Generalized focal loss: Towards efficient representation learning for dense object detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 45, no. 3, pp. 3139–3153, Mar. 2023.
[12] Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, “Distanceiou loss: Faster and better learning for bounding box regression,” in Proc. AAAI Conf. Artif. Intell. (AAAI), 2020, vol. 34, pp. 12993–13000.
[13] P. Li, J. Zheng, P. Li, H. Long, M. Li, and L. Gao, “Tomato maturity detection and counting model based on mhsa-yolov8,” Sens., vol. 23, no. 15, Jul. 2023, p. 6701.
[14] G. Yang, J. Wang, Z. Nie, H. Yang, and S. Yu, “A lightweight yolov8 tomato detection algorithm combining feature enhancement and attention,” Agron., vol. 13, no. 7, Jul. 2023, p. 1824.
[15] G. Yang, J. Lei, Z. Zhu, S. Cheng, Z. Feng, and R. Liang, “Afpn: Asymptotic feature pyramid network for object detection,” arXiv:2306.15988 [cs.CV], Jun. 2023.
[16] Z. Huang, L. Li, G. C. Krizek, and L. Sun, “Research on traffic sign detection based on improved yolov8,” J. Comput. Commun., vol. 11, no. 7, pp. 226–232, Jul. 2023.
[17] G. Wang, Y. Chen, P. An, H. Hong, J. Hu, and T. Huang, “Uavyolov8: A small-object-detection model based on improved yolov8 for uav aerial photography scenarios,” Sens., vol. 23, no. 16, Aug. 2023, p. 7190.
[18] L. Zhu, X. Wang, Z. Ke, W. Zhang, and R. W.H. Lau;, “Biformer: Vision transformer with bi-level routing attention,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2023, pp. 10323–10333.
[19] Z. Tong, Y. Chen, Z. Xu, and R. Yu, “Wise-iou: Bounding box regression loss with dynamic focusing mechanism,” arXiv:2301.10051v3 [cs.CV], Apr. 2023.
[20] Y. Zhang, Z. Wu, X. Wang, W. Fu, J. Ma, and G. Wang, “Improved yolov8 insulator fault detection algorithm based on biformer,” in Proc. IEEE Int. Conf. Power Intell. Comput. Syst. (ICPICS), 2023, pp. 962–965.
[21] W. Yang et al., “Deformable convolution and coordinate attention for fast cattle detection,” Comput. Electron. Agric., vol. 211, Aug. 2023, p. 108006.
[22] Q. Hou, D. Zhou, and J. Feng, “Coordinate attention for efficient mobile network design,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2021, pp. 13708–13717.
[23] L. Lu, “Improved yolov8 detection algorithm in security inspection image,” arXiv:2308.06452v3 [cs.CV], Aug. 2023.
[24] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 3–19.
[25] Y. Jiang, Z. Tan, J. Wang, X. Sun, M. Lin, and H. Li, “Giraffedet: A heavy-neck paradigm for object detection,” in Proc. Int. Conf. Learn. Represent. (ICLR), 2022.
[26] C.-Y. Wang, H.-Y. M. Liao, Y.-H. Wu, P.-Y. Chen, J.-W. Hsieh, and I.-H. Yeh, “Cspnet: A new backbone that can enhance learning capability of cnn,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops (CVPRW), 2020, pp. 15711580.
[27] M. Tan, R. Pang, and Q. V. Le, “Efficientdet: Scalable and efficient object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2020, pp. 10781–10790.
[28] X. Xu, Y. Jiang, W. Chen, Y. Huang, Y. Zhang, and X. Sun, “Damo-yolo : A report on real-time object detection design,” arXiv:2211.15444v4 [cs.CV], Apr. 2023.
[29] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2018, pp. 7132–7141.
[30] Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo, and Q. Hu, “Eca-net: Efficient channel attention for deep convolutional neural networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2020, pp. 11534–11542.
[31] X. Zhang et al., “Rfaconv: Innovating spatial attention and standard convolutional operation,” arXiv:2304.03198v4 [cs.CV], Apr. 2023.
[32] A. Hamada, “Br35h :: Brain tumor detection 2020,” Kaggle, 2021, https://www.kaggle.com/datasets/ahmedhamada0/braintumor-detection.
[33] H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, “Generalized intersection over union: A metric and a loss for bounding box regression,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2019, pp. 658–666.
[34] Y.-F. Zhang, W. Ren, Z. Zhang, Z. Jia, L. Wang, and T. Tan, “Focal and efficient iou loss for accurate bounding box regression,” Neurocomputing, vol. 506, pp. 146–157, Sep. 2022.
[35] Z. Gevorgyan, “Siou loss: More powerful learning for bounding box regression,” arXiv:2205.12740 [cs.CV], May 2022.