当前位置：首页 > news >正文

如何裁剪YOLOv8m的大目标检测头并验证其结构

news 2025/10/31 8:20:49

YOLOv8在速度和精度之间取得了卓越的平衡。然而，在许多实际应用场景中，我们可能并不需要模型具备检测所有尺寸目标的能力。例如，在针对行人或常规车辆的监控场景中，对超大尺寸目标的检测能力就显得有些多余。

这些“多余”的能力不仅占用了宝贵的计算资源，也拖慢了模型的推理速度，尤其是在资源受限的边缘设备上。那么能否通过“裁剪”模型中负责大目标检测的部分，来为速度“减负”，实现更高效的推理呢？

本文将以YOLOv8的中量级模型——YOLOv8m为例，详细记录一次完整的模型裁剪实验：从理解其多尺度检测头，到修改模型配置文件以移除大目标检测头（P5），再到最后对裁剪后模型的结构和性能进行验证的全过程。

第一部分：理解YOLOv8的多尺度检测头

要精确地裁剪模型，首先必须理解其工作原理。YOLOv8的架构主要分为三个部分：

Backbone（骨干网络）： 负责从输入图像中提取基础特征。YOLOv8采用了先进的CSPDarknet53结构。
Neck（颈部）： 该部分通常采用路径聚合网络（Path Aggregation Network, PANet）等结构，融合骨干网络在不同阶段提取的特征，生成具有丰富语义信息和空间信息的多尺度特征图。
Head（检测头）： 负责对来自Neck的特征图进行最终的预测，输出目标的边界框（bounding boxes）和类别。

YOLOv8的关键在于其多尺度检测能力，它在Neck部分输出了不同分辨率的特征图，通常称为P3、P4和P5，分别用于检测不同尺寸的目标：

P3特征图（小目标检测头）： 分辨率最高（步幅为8），感受野最小，专门用于检测图像中的小尺寸目标。
P4特征图（中目标检测头）： 分辨率中等（步幅为16），用于检测中等尺寸目标。
P5特征图（大目标检测头）： 分辨率最低（步幅为32），感受野最大，专门用于检测图像中的大尺寸目标。

这三个检测头最终由一个Detect模块统一处理，该模块接收来自P3, P4, P5三个分支的输入，并产生最终的检测结果。本文目标是移除掉P5这个分支。

第二部分：为何及如何裁剪大目标检测头

为何裁剪？

我们的核心假设是：移除处理P5特征图的检测头及其相关上游层，可以显著减少模型的参数量和计算量（GFLOPs），从而在几乎不影响中小目标检测精度的前提下，大幅提升推理速度（FPS）。

这对于部署在边缘计算设备（如NVIDIA Jetson系列、树莓派等）或对实时性要求极高的应用（如高帧率视频流分析）非常有价值。

如何裁剪？

YOLOv8的模型结构由.yaml配置文件定义。

我们通过修改yolov8.yaml文件，删除了构建P5检测头的相关层，并修改了最终Detect层的输入，生成了一个新的yolov8m-p3p4.yaml配置文件。

步骤如下：

复制并重命名配置文件： 在你的项目目录中，找到ultralytics/cfg/models/v8/yolov8.yaml文件，并复制一份，将其重命名为yolov8m-p3p4.yaml。

修改Head结构定义： 打开yolov8m-p3p4.yaml文件，找到head:部分。原始的head结构（以YOLOv8n为例，结构类似）如下所示：

# YOLOv8.0n head
head:# from, number, module, args- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 12- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]- [[-1, 9], 1, Concat, [1]] # cat head P5- [-1, 3, C2f, [1024]] # 21 (P5/32-large)- [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)

移除P5分支： 我们的目标是移除所有与第21层（P5/32-large）相关的计算。这包括第19、20、21层。同时，最终的Detect层也需要修改，不再接收第21层的输入。

修改后的yolov8m-p3p4.yaml的head部分：

# YOLOv8.0n head
head:# from, number, module, args- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 12- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 12], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 18 (P4/16-medium)# The following layers related to P5 are removed.# - [-1, 1, Conv, [512, 3, 2]]# - [[-1, 9], 1, Concat, [1]]  # cat head P5# - [-1, 3, C2f, [1024]] # 21 (P5/32-large)- [[15, 18], 1, Detect, [nc]]  # Detect(P3, P4)

关键改动：

删除了最后三行负责构建P5检测头的层。
将Detect层的输入从[15, 18, 21]修改为[15, 18]，表示它现在只接收来自第15层（P3）和第18层（P4）的特征图。

第三部分：结构与性能验证

修改完配置只是第一步，我们必须验证这个改动是否正确，并量化其带来的影响。

3.1 结构验证：深入`.pt`文件一探究竟

最直接的验证方法，就是加载我们根据新YAML文件训练生成的.pt权重文件，并打印出其内部的模型结构。一个.pt文件不仅仅是权重，它还是一个包含了模型结构、训练参数等信息的字典。

我们可以使用以下Python脚本来加载并探查它：

import torch# 替换成你的 .pt 文件路径，我们分别查看原始和裁剪后的模型
original_model_path = 'yolov8m.pt'
cropped_model_path = 'yolov8m-p3p4.pt' # 这是我们用新YAML训练后得到的模型def inspect_model(model_path):"""加载并分析模型检查点文件"""print(f"\n{'='*20} 正在分析模型: {model_path} {'='*20}")# 加载检查点文件。map_location='cpu'可以确保在没有GPU的机器上也能成功加载ckpt = torch.load(model_path, map_location='cpu')# 打印检查点字典的所有键 (keys)print("\n--- 检查点文件包含的键 ---")print(ckpt.keys())# 通常，模型本身存储在 'model' 键中if 'model' in ckpt:model_from_ckpt = ckpt['model']print("\n--- 从检查点中提取并打印模型结构 (仅展示Head部分) ---")# 为了清晰，我们只打印模型最后几层的结构print(model_from_ckpt.model[10:]) # 根据YOLOv8m结构，从第10层开始是Head部分if 'train_args' in ckpt:print("\n--- 模型训练时使用的部分参数 ---")# 仅展示部分关键参数args = {k: v for k, v in ckpt['train_args'].items() if k in ['model', 'data', 'epochs']}print(args)# 分析原始模型
inspect_model(original_model_path)# 分析裁剪后的模型
inspect_model(cropped_model_path)

运行结果与分析：

当我们运行上述脚本时，会得到两份模型的结构输出。通过对比，我们可以清晰地看到裁剪操作是否成功。

1. 原始 yolov8m.pt 的输出 (Head部分节选):

==================== 正在分析模型: yolov8m.pt ====================
...
--- 从检查点中提取并打印模型结构 (仅展示Head部分) ---
...(18): C2f((cv1): Conv(...)(cv2): Conv(...)(m): ModuleList((0-2): Bottleneck(...)))(19): Conv((conv): Conv2d(512, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)(bn): BatchNorm2d(512, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)(act): SiLU(inplace=True))(20): Concat()(21): C2f((cv1): Conv(in_channels=1536, out_channels=768, ...)(cv2): Conv(in_channels=768, out_channels=768, ...)(m): ModuleList(...))(22): Detect((cv2): ModuleList((0): Sequential(...)(1): Sequential(...)(2): Sequential(...))(cv3): ModuleList((0): Sequential(...)(1): Sequential(...)(2): Sequential(...))(dfl): DFL(...))
)

2. 裁剪后 yolov8m-p3p4.pt 的输出 (Head部分节选):

==================== 正在分析模型: yolov8m-p3p4.pt ====================
...
--- 从检查点中提取并打印模型结构 (仅展示Head部分) ---
...(18): C2f((cv1): Conv(...)(cv2): Conv(...)(m): ModuleList((0-2): Bottleneck(...)))(19): Detect((cv2): ModuleList((0): Sequential(...)(1): Sequential(...))(cv3): ModuleList((0): Sequential(...)(1): Sequential(...))(dfl): DFL(...))
)

分析结论：

通过对比两份输出，我们发现：

P5检测头被移除： 在原始模型中，第19、20、21层（Conv, Concat, C2f）是专门用于构建P5大目标检测头的。而在裁剪后的模型输出中，第18层C2f之后直接就是第19层的Detect模块，这几层已经完全消失。
Detect模块输入改变： 最关键的是Detect模块内部的变化。原始模型Detect模块内的cv2和cv3子模块都包含3个Sequential序列，分别对应P3, P4, P5三个输入。而在裁剪后的模型中，它们都只包含2个Sequential序列，这精确地对应了我们修改YAML后的P3和P4两个输入。