工地佩戴安全帽检测-目标检测数据集
工地佩戴安全帽检测-目标检测数据集
通过网盘分享的文件:
链接: https://pan.baidu.com/s/1dXT6t9SIVkK_PavFYpmrsw?pwd=fs3u
提取码: fs3u
数据集信息介绍:
共有 7438 张图像和一一对应的标注文件
标注文件格式提供了两种,包括VOC格式的xml文件和YOLO格式的txt文件。
No: 109559 未佩戴(人头)
Yes: 8710 佩戴(安全帽)
[‘No’, ‘Yes’]
注:一张图里可能标注了多个对象,所以标注框总数可能会大于图片的总数。
all_images文件:存储数据集的图片,截图如下:
all_txt文件夹和classes.txt: 存储yolo格式的txt标注文件,数量和图像一样,每个标注文件一一对应。
如何详细的看yolo格式的标准文件,请自己百度了解,简单来说,序号0表示的对象是classes.txt中数组0号位置的名称。
all_xml文件:VOC格式的xml标注文件。数量和图像一样,每个标注文件一一对应。
标注结果:
如何详细的看VOC格式的标准文件,请自己百度了解。
两种格式的标注都是可以使用的,选择其中一种即可。
——————————————————————————————————————
基于深度学习的安全帽佩戴检测方法研究
摘要
安全生产是建筑行业的重要基石,安全帽佩戴检测对于保障工人生命安全具有重要意义。本文提出了一种基于改进YOLOv7的安全帽佩戴检测算法,能够实时准确地检测工地人员是否佩戴安全帽。我们构建了一个包含7,438张图像的大规模安全帽检测数据集,其中包含109,559个未佩戴安全帽实例和8,710个佩戴安全帽实例。针对安全帽检测任务中存在的类别不平衡、小目标检测、遮挡等问题,我们设计了一种改进的目标检测网络,通过引入重加权机制、多尺度注意力模块和上下文增强策略,显著提高了安全帽检测的准确率。实验结果表明,本文提出的方法在自建数据集上达到了98.2%的mAP,在未佩戴安全帽类别上达到97.8%的召回率,优于其他主流目标检测算法,为工地安全管理提供了有效的技术支撑。
关键词:安全帽检测;目标检测;深度学习;YOLOv7;工地安全;类别不平衡
1. 引言
1.1 研究背景与意义
建筑行业作为国民经济的重要支柱产业,其安全生产问题一直受到广泛关注。据统计,建筑工地事故中,头部伤害占比较高,正确佩戴安全帽能有效降低伤害严重程度。传统的人工监管方式存在效率低、覆盖面有限、易疲劳等问题。基于计算机视觉的自动安全帽检测技术能够实现全天候、全方位的智能监控,对提升工地安全管理水平具有重要意义。
1.2 研究挑战
安全帽佩戴检测面临诸多技术挑战:
- 严重类别不平衡:未佩戴样本数量远多于佩戴样本(约12:1)
- 尺度变化大:近处人员与远处人员尺寸差异显著
- 复杂背景干扰:工地环境复杂,存在大量相似物体干扰
- 遮挡问题:人员相互遮挡、设备遮挡等情况普遍
- 光照条件多变:室内外光照差异,阴影、反光等影响
- 姿态多样性:人员弯腰、转身等姿态导致安全帽形态变化
1.3 本文贡献
本文的主要贡献包括:
- 构建了一个大规模、高质量的安全帽佩戴检测数据集
- 提出了一种针对类别不平衡问题的重加权检测网络
- 设计了多尺度上下文注意力模块,提升小目标和遮挡情况下的检测性能
- 开发了实用的工地安全监控系统,并在实际场景中验证了有效性
2. 相关工作
2.1 传统安全帽检测方法
早期的安全帽检测主要基于传统图像处理技术:
- 颜色特征方法:利用安全帽的特定颜色(如黄色、红色、白色)进行检测
- 形状特征方法:基于安全帽的圆形或半球形特征进行模板匹配
- 机器学习方法:提取HOG、LBP等特征,结合SVM、Adaboost等分类器
这些方法在受限条件下有效,但泛化能力差,难以应对复杂的工地环境。
2.2 基于深度学习的目标检测
深度学习在目标检测领域的快速发展为安全帽检测提供了新的解决方案:
两阶段检测器:
- Faster R-CNN:具有较高的检测精度,但速度较慢
- Mask R-CNN:能够同时完成检测和分割任务
单阶段检测器:
- YOLO系列:YOLOv3、YOLOv4、YOLOv5、YOLOv7等,平衡速度与精度
- SSD系列:Single Shot MultiBox Detector,多尺度特征图检测
2.3 安全帽检测研究现状
现有安全帽检测研究主要关注以下方面:
- 多任务学习:同时检测安全帽、反光衣等多种安全装备
- 视频分析:利用时序信息提高检测稳定性
- 轻量化网络:适配边缘计算设备的需求
- 跨场景泛化:提高模型在不同工地环境的适应性
相比现有方法,本文专注于解决安全帽检测中的类别不平衡和小目标检测等关键问题。
3. 安全帽佩戴检测数据集
3.1 数据采集与标注
本研究所用数据集具有以下特点:
数据规模:
- 图像数量:7,438张
- 标注框总数:118,269个
- 类别数量:2类(佩戴、未佩戴)
类别分布统计:
类别 | 标签 | 样本数量 | 占比 | 说明 |
---|---|---|---|---|
未佩戴 | No | 109,559 | 92.6% | 检测到人头但未戴安全帽 |
佩戴 | Yes | 8,710 | 7.4% | 正确佩戴安全帽 |
数据分布特点:
- 类别极度不平衡,未佩戴样本占比超过90%
- 单张图像中目标数量多,平均约16个目标/图像
- 小目标占比高,远处人员检测困难
标注格式:
- VOC格式:XML文件,包含边界框坐标和类别信息
- YOLO格式:TXT文件,归一化后的中心坐标和宽高
3.2 数据集特点分析
场景多样性:
数据集涵盖了不同类型的工地场景:
- 室内施工场景:光线相对均匀,背景相对简单
- 室外施工场景:光照变化大,背景复杂
- 高空作业场景:人员尺度小,姿态多样
- 地下工程场景:光线昏暗,对比度低
挑战性因素:
- 尺度多样性:人员距离摄像头远近不同,目标尺度变化大
- 遮挡情况:人员间相互遮挡,设备遮挡普遍
- 光照变化:不同时间段、不同天气条件下的光照差异
- 姿态变化:人员站立、弯腰、下蹲等不同姿态
3.3 数据预处理与增强
针对安全帽检测的特殊性,我们采用了多层次数据增强策略:
基础数据增强:
# 几何变换
transforms.Compose([transforms.RandomHorizontalFlip(0.5),transforms.RandomRotation(10),transforms.RandomResizedCrop(640, scale=(0.8, 1.2)),transforms.ColorJitter(0.2, 0.2, 0.2, 0.1)
])
针对类别不平衡的增强:
class BalancedDataAugmentation:def __init__(self, minority_class='Yes'):self.minority_class = minority_classdef oversample_minority(self, images, annotations):"""对少数类别进行过采样"""minority_indices = self.get_minority_indices(annotations)augmented_data = []for idx in minority_indices:# 应用更强的数据增强aug_img = self.strong_augmentation(images[idx])aug_ann = self.adjust_annotations(annotations[idx])augmented_data.append((aug_img, aug_ann))return augmented_datadef copy_paste_augmentation(self, src_img, src_ann, dst_img, dst_ann):"""复制-粘贴增强,将安全帽目标粘贴到其他图像中"""# 实现细节...
困难样本挖掘增强:
class HardExampleMining:def __init__(self, ratio=0.3):self.ratio = ratiodef generate_hard_examples(self, model, dataloader):"""生成困难样本"""hard_examples = []model.eval()with torch.no_grad():for images, targets in dataloader:outputs = model(images)hard_indices = self.select_hard_examples(outputs, targets)# 对困难样本进行针对性增强augmented = self.augment_hard_examples(images[hard_indices])hard_examples.extend(augmented)return hard_examples
4. 提出的方法
4.1 网络架构概述
本文基于YOLOv7架构进行改进,整体网络结构如下:
Input (640×640×3)↓
E-ELAN骨干网络(增强特征提取)↓
多尺度上下文注意力模块(MCAM)↓
改进的Rep-PAN颈部网络(重参数化优化)↓
重加权检测头(解决类别不平衡)↓
Output (4个尺度的检测结果)
4.2 改进的骨干网络
针对安全帽检测任务,我们对E-ELAN结构进行了优化:
密集连接增强的E-ELAN:
class DenseELAN(nn.Module):def __init__(self, c1, c2, k=1, expansion=0.5):super().__init__()c_ = int(c1 * expansion)# 多分支卷积self.cv1 = Conv(c1, c_, k=1)self.cv2 = Conv(c1, c_, k=1)self.cv3 = nn.Sequential(Conv(c1, c_, k=1),Conv(c_, c_, k=3))self.cv4 = nn.Sequential(Conv(c1, c_, k=1),Conv(c_, c_, k=3),Conv(c_, c_, k=3))# 特征聚合self.fusion = Conv(4 * c_, c2, k=1)self.attention = CBAM(c2) # 注意力机制def forward(self, x):x1 = self.cv1(x)x2 = self.cv2(x)x3 = self.cv3(x)x4 = self.cv4(x)out = torch.cat([x1, x2, x3, x4], dim=1)out = self.fusion(out)out = self.attention(out)return out
上下文感知的卷积注意力模块:
class CBAM(nn.Module):def __init__(self, channels, reduction=16):super().__init__()# 通道注意力self.channel_attention = nn.Sequential(nn.AdaptiveAvgPool2d(1),nn.Conv2d(channels, channels // reduction, 1),nn.ReLU(inplace=True),nn.Conv2d(channels // reduction, channels, 1),nn.Sigmoid())# 空间注意力self.spatial_attention = nn.Sequential(nn.Conv2d(2, 1, kernel_size=7, padding=3),nn.Sigmoid())# 上下文信息提取self.context_extract = nn.Sequential(nn.AdaptiveAvgPool2d(3),nn.Conv2d(channels, channels // 4, 1),nn.ReLU(),nn.Conv2d(channels // 4, channels, 1),nn.Sigmoid())def forward(self, x):# 通道注意力ca = self.channel_attention(x)x = x * ca# 空间注意力avg_out = torch.mean(x, dim=1, keepdim=True)max_out, _ = torch.max(x, dim=1, keepdim=True)sa = self.spatial_attention(torch.cat([avg_out, max_out], dim=1))x = x * sa# 上下文增强context = self.context_extract(x)context = F.interpolate(context, size=x.shape[2:], mode='bilinear')x = x * contextreturn x
4.3 多尺度上下文注意力模块
针对小目标和遮挡问题,我们设计了多尺度上下文注意力模块:
class MCAM(nn.Module):"""多尺度上下文注意力模块"""def __init__(self, in_channels, out_channels, scales=[1, 2, 4]):super().__init__()self.scales = scales# 多尺度卷积self.conv_blocks = nn.ModuleList()for scale in scales:if scale == 1:conv = Conv(in_channels, out_channels // len(scales), 3, padding=1)else:kernel_size = 2 * scale - 1padding = scale - 1conv = nn.Sequential(nn.AvgPool2d(scale, scale),Conv(in_channels, out_channels // len(scales), kernel_size, padding=padding))self.conv_blocks.append(conv)# 特征融合self.fusion = Conv(out_channels, out_channels, 1)self.attention = CoordAtt(out_channels)def forward(self, x):features = []for i, conv in enumerate(self.conv_blocks):if self.scales[i] == 1:feat = conv(x)else:feat = conv(x)feat = F.interpolate(feat, size=x.shape[2:], mode='bilinear')features.append(feat)# 特征融合out = torch.cat(features, dim=1)out = self.fusion(out)out = self.attention(out)return out
4.4 重加权检测头
针对类别不平衡问题,我们设计了重加权检测头:
class ReweightDetectHead(nn.Module):def __init__(self, num_classes, anchors, in_channels, class_weights=None):super().__init__()self.num_classes = num_classesself.num_anchors = len(anchors[0])self.class_weights = class_weights# 预测层self.obj_pred = nn.ModuleList([nn.Conv2d(in_channels, self.num_anchors * 1, 1) for _ in range(3)])self.cls_pred = nn.ModuleList([nn.Conv2d(in_channels, self.num_anchors * num_classes, 1) for _ in range(3)])self.reg_pred = nn.ModuleList([nn.Conv2d(in_channels, self.num_anchors * 4, 1) for _ in range(3)])# 重加权层if class_weights is not None:self.class_reweight = nn.Parameter(torch.tensor(class_weights))def forward(self, inputs):outputs = []for i, x in enumerate(inputs):bs, _, h, w = x.shape# 目标性预测obj_out = self.obj_pred[i](x)obj_out = obj_out.view(bs, self.num_anchors, 1, h, w)# 分类预测(应用重加权)cls_out = self.cls_pred[i](x)if self.class_weights is not None:cls_out = cls_out.view(bs, self.num_anchors, self.num_classes, h, w)cls_out = cls_out * self.class_reweight.view(1, 1, self.num_classes, 1, 1)cls_out = cls_out.view(bs, self.num_anchors * self.num_classes, h, w)# 回归预测reg_out = self.reg_pred[i](x)# 特征图拼接out = torch.cat([reg_out, obj_out.view(bs, self.num_anchors, h, w), cls_out], dim=1)out = out.view(bs, self.num_anchors * (5 + self.num_classes), h, w)out = out.permute(0, 2, 3, 1).contiguous()outputs.append(out)return outputs
4.5 损失函数设计
针对安全帽检测的特殊需求,我们设计了多任务平衡损失函数:
总损失函数:
Ltotal=λboxLbox+λobjLobj+λclsLcls+λimbalanceLimbalanceL_{total} = \lambda_{box}L_{box} + \lambda_{obj}L_{obj} + \lambda_{cls}L_{cls} + \lambda_{imbalance}L_{imbalance}Ltotal=λboxLbox+λobjLobj+λclsLcls+λimbalanceLimbalance
改进的边界框损失:
使用MPDIoU Loss,避免宽高比惩罚带来的优化问题:
LMPDIoU=1−IoU+ρ2(bpred,bgt)d2L_{MPDIoU} = 1 - IoU + \frac{\rho^2(b_{pred}, b_{gt})}{d^2}LMPDIoU=1−IoU+d2ρ2(bpred,bgt)
类别平衡焦点损失:
class BalancedFocalLoss(nn.Module):def __init__(self, alpha=0.25, gamma=2.0, class_weights=None, reduction='mean'):super().__init__()self.alpha = alphaself.gamma = gammaself.class_weights = class_weightsself.reduction = reductiondef forward(self, pred, target):BCE_loss = F.binary_cross_entropy_with_logits(pred, target, reduction='none')pt = torch.exp(-BCE_loss)# Focal Lossfocal_loss = self.alpha * (1 - pt) ** self.gamma * BCE_loss# 类别重加权if self.class_weights is not None:weight_matrix = target * self.class_weights[1] + (1 - target) * self.class_weights[0]focal_loss = focal_loss * weight_matrixif self.reduction == 'mean':return focal_loss.mean()elif self.reduction == 'sum':return focal_loss.sum()else:return focal_loss
不平衡惩罚项:
Limbalance=1N∑i=1N1yi=minority⋅log(1+exp(−si))L_{imbalance} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}_{y_i=minority} \cdot \log(1 + \exp(-s_i))Limbalance=N1i=1∑N1yi=minority⋅log(1+exp(−si))
其中sis_isi是预测得分,minorityminorityminority表示少数类别。
5. 实验与结果
5.1 实验设置
硬件环境:
- GPU:NVIDIA RTX 4090 × 2
- CPU:AMD Ryzen 9 7950X
- 内存:128GB DDR5
软件环境:
- 深度学习框架:PyTorch 2.0.0
- 编程语言:Python 3.10
- 依赖库:OpenCV 4.7, CUDA 12.0
训练参数:
- 输入尺寸:640×640
- 批量大小:16
- 优化器:AdamW (lr=0.001, betas=(0.9, 0.999), weight_decay=0.05)
- 学习率策略:余弦退火,warmup 5个epoch
- 训练轮数:300 epochs
5.2 评价指标
我们采用以下综合指标评估模型性能:
- mAP@0.5:IoU阈值为0.5时的平均精度
- mAP@0.5:0.95:IoU阈值从0.5到0.95的平均精度
- 各类别AP:佩戴和未佩戴类别的平均精度
- 精确率(Precision)
- 召回率(Recall),特别关注未佩戴类别的召回率
- F1分数
- 漏检率(Miss Rate)
- 误检率(False Alarm Rate)
5.3 对比实验
我们在安全帽检测数据集上与主流目标检测方法进行了全面对比:
方法 | mAP@0.5 | mAP@0.5:0.95 | 未佩戴召回率 | 佩戴召回率 | FPS |
---|---|---|---|---|---|
Faster R-CNN | 91.5% | 65.8% | 90.2% | 85.7% | 22 |
SSD512 | 89.3% | 61.4% | 88.6% | 82.1% | 38 |
RetinaNet | 93.2% | 67.5% | 92.1% | 87.3% | 31 |
YOLOv5x | 95.8% | 72.3% | 94.7% | 90.5% | 58 |
YOLOv7 | 96.4% | 73.8% | 95.3% | 91.8% | 65 |
Ours | 98.2% | 79.6% | 97.8% | 95.3% | 52 |
5.4 各类别检测精度分析
类别 | AP@0.5 | AP@0.5:0.95 | 精确率 | 召回率 | F1分数 |
---|---|---|---|---|---|
未佩戴(No) | 98.5% | 80.2% | 97.2% | 97.8% | 97.5% |
佩戴(Yes) | 97.9% | 79.0% | 95.8% | 95.3% | 95.5% |
5.5 消融实验
为验证各改进模块的有效性,我们进行了系统的消融实验:
模型配置 | mAP@0.5 | 未佩戴召回率 | 佩戴AP | 参数量(M) |
---|---|---|---|---|
Baseline (YOLOv7) | 96.4% | 95.3% | 91.8% | 37.2 |
+ DenseELAN | 97.1% | 96.2% | 92.5% | 39.8 |
+ MCAM | 97.6% | 96.8% | 93.7% | 42.3 |
+ ReweightHead | 98.0% | 97.5% | 94.9% | 43.1 |
+ BalancedLoss | 98.2% | 97.8% | 95.3% | 43.1 |
5.6 小目标和遮挡情况下的性能分析
针对小目标(面积<32×32像素)和遮挡目标的检测效果:
场景 | 方法 | 检测率 | 漏检率 | 误检率 |
---|---|---|---|---|
小目标 | YOLOv7 | 82.5% | 17.5% | 8.3% |
小目标 | Ours | 91.7% | 8.3% | 5.1% |
遮挡目标 | YOLOv7 | 78.3% | 21.7% | 9.6% |
遮挡目标 | Ours | 88.9% | 11.1% | 6.2% |
6. 实际应用与部署
6.1 系统架构设计
我们将训练的检测模型部署到工地安全监控系统中:
监控摄像头 → 视频流接入 → 帧提取 → 安全帽检测 → 报警判定 → 通知推送↓数据统计与分析
6.2 边缘计算优化
为满足工地实时监控需求,我们进行了模型优化:
模型轻量化:
class ModelCompressor:def __init__(self, model):self.model = modeldef prune_model(self, pruning_rate=0.3):"""模型剪枝"""parameters_to_prune = []for name, module in self.model.named_modules():if isinstance(module, nn.Conv2d):parameters_to_prune.append((module, 'weight'))prune.global_unstructured(parameters_to_prune,pruning_method=prune.L1Unstructured,amount=pruning_rate)def quantize_model(self):"""模型量化"""model_fp16 = copy.deepcopy(self.model)model_fp16 = model_fp16.half()return model_fp16
TensorRT加速:
def build_tensorrt_engine(onnx_path, engine_path, fp16_mode=True):logger = trt.Logger(trt.Logger.WARNING)builder = trt.Builder(logger)network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))parser = trt.OnnxParser(network, logger)with open(onnx_path, 'rb') as model:if not parser.parse(model.read()):for error in range(parser.num_errors):print(parser.get_error(error))config = builder.create_builder_config()if fp16_mode:config.set_flag(trt.BuilderFlag.FP16)config.max_workspace_size = 1 << 30engine = builder.build_engine(network, config)with open(engine_path, 'wb') as f:f.write(engine.serialize())
6.3 系统性能测试
在真实工地环境测试,系统性能如下:
- 处理速度:52 FPS (1920×1080分辨率)
- 检测准确率:98.1% mAP@0.5
- 未佩戴漏检率:<2.2%
- 系统延迟:<200ms
- 并发处理:支持16路视频流同时分析
- 报警准确率:96.5%