当前位置：首页 > news >正文

计算机视觉：安防智能体的实现与应用基于YOLOv8的实时无人机检测与跟踪

news 2025/9/26 7:36:14

摘要

随着无人机技术在民用与商用领域的快速普及，其在禁飞区域的非法活动已成为公共安全与空域管理的重要挑战。本文提出一种基于计算机视觉与深度学习的自动化解决方案，通过改进YOLOv8模型实现对无人机的实时检测与轨迹跟踪。研究采用Roboflow平台的无人机专用数据集进行模型微调，构建了一套完整的从数据预处理、模型训练到实时推理的技术流程。实验结果表明，该系统在复杂场景下仍能保持87%的检测精确率与81%的召回率，可有效集成至安防监控系统，为低空域安全提供智能化预警支持。
在这里插入图片描述

1. 引言

1.1 研究背景与意义

无人机技术的飞速发展使其在航拍测绘、物流运输、应急救援等领域得到广泛泛应用，但同时也带来了未经授权入侵敏感区域（如机场、军事基地、政府机关）的安全隐患。传统人工监控方式存在响应延迟、人力成本高、易疲劳误判等局限，亟需自动化的无人机检测与跟踪系统。

基于深度学习的目标检测技术为该问题提供了有效解决方案。YOLO（You Only Look Once）系列模型凭借其端到端的检测架构和优异的实时性能，已成为实时目标检测领域的主流选择。其中YOLOv8作为最新迭代版本，在精度与速度的平衡上实现了进一步突破，具备部署于安防监控场景的技术潜力。

1.2 研究目标与主要贡献

本文旨在构建一套基于YOLOv8的无人机检测与跟踪系统，主要贡献包括：

优化了针对无人机检测的模型训练策略，实现了预训练模型的高效微调
设计了多视频源实时监控的网格可视化方案，提升了安防监控的直观性
验证了系统在复杂环境下的鲁棒性，为实际安防场景的部署提供了技术参考

2. 系统环境配置与数据集准备

2.1 软硬件环境要求

本系统的运行依赖以下软硬件环境：

2.1.1 软件依赖

核心Python库包括计算机视觉处理、数值计算、深度学习框架等，具体列表如下：

图像处理：opencv-python（OpenCV）
数值计算：numpy、pandas
可视化工具：matplotlib、imageio
深度学习框架：ultralytics（YOLOv8官方库）

安装命令如下：

pip install opencv-python numpy pandas matplotlib imageio ultralytics

2.1.2 硬件加速支持

为提升模型训练与推理效率，建议配置GPU加速：

NVIDIA GPU：支持CUDA计算架构，可通过torch.cuda.is_available()检测
Apple Silicon（M1/M2系列）：支持Metal Performance Shaders（MPS），可通过torch.backends.mps.is_available()检测
若无GPU支持，可使用CPU运行（性能会显著下降）

2.2 数据集获取与预处理

2.2.1 数据集来源

实验采用Roboflow平台公开的无人机检测数据集（UAV Detection Dataset），该数据集包含4,950张带标注的无人机图像，标注信息采用归一化边界框坐标（范围0-1），可适应不同尺寸的图像输入。

2.2.2 数据集构成

数据集已预先划分为训练集与验证集，具体分布如下：

训练图像总数：3,958张
无无人机图像数：506张（12.8%）
单无人机图像数：3,180张（80.3%）
多无人机图像数：272张（6.9%）
每张图像平均无人机数：1.04个

这种数据分布设计增强了模型对复杂场景的适应能力，特别是对"无目标"情况的识别能力，可有效降低误报率。
在这里插入图片描述

2.2.3 数据集配置文件

从Roboflow下载数据集时需选择YOLOv8导出格式，获取的data.yaml配置文件需放置于项目根目录，内容如下：

train: ./data/train/images
val: ./data/valid/imagesnc: 1
names: ['uav']roboflow:workspace: dronedetection-jkeygproject: uav-detection-zlcin-1wcbmversion: 1license: CC BY 4.0url: https://universe.roboflow.com/dronedetection-jkeyg/uav-detection-zlcin-1wcbm/dataset/1

3. 模型训练与优化

3.1 YOLOv8模型选择

YOLOv8提供多种预训练模型变体，本研究考虑不同硬件条件下的部署需求，选择yolov8n.pt（纳米版）作为基础模型，其特点是模型体积小、推理速度快，适合边缘设备部署。各变体对比见表1：

模型变体	输入尺寸	参数量	推理速度	适用场景
yolov8n.pt	640×640	3.2M	最快	边缘设备/实时监控
yolov8s.pt	640×640	11.2M	快	平衡速度与精度
yolov8m.pt	640×640	25.9M	中	中等性能设备
yolov8l.pt	640×640	43.7M	慢	高性能GPU
yolov8x.pt	640×640	68.2M	最慢	服务器级GPU

3.2 模型训练参数设置

采用迁移学习策略，基于预训练模型在无人机数据集上进行微调，训练代码如下：

from ultralytics import YOLO
import os# 加载预训练模型
model = YOLO("yolov8n.pt")  # 从互联网下载模型
# model = YOLO("./yolov8n.pt")  # 使用本地模型# 模型训练配置
results = model.train(data="data.yaml",        # 数据集配置文件路径epochs=80,               # 训练轮次imgsz=120,               # 输入图像尺寸（加速训练）batch=16,                # 批次大小device="mps",            # 计算设备（'cpu'/'0'/'mps'）workers=max(1, os.cpu_count() - 1)  # 数据加载进程数
)

关键参数说明：

epochs=80：经过实验验证，80轮训练可在精度与训练时间间取得平衡
imgsz=120：为加速训练采用的缩减尺寸，实际部署时可使用更大尺寸（如640×640）
workers：设置为CPU核心数减1，避免系统资源耗尽

3.3 训练结果分析

在Apple MacBook M1设备上，80轮训练耗时约5.2小时。训练过程中主要监控以下指标：

损失函数：边界框损失（box_loss）、分类损失（cls_loss）、分布焦点损失（dfl_loss）
评估指标：精确率（Precision）、召回率（Recall）、平均精度均值（mAP@0.5、mAP@0.5:0.95）

最终训练结果：

精确率：0.87（预测为无人机的样本中实际为无人机的比例）
召回率：0.81（实际为无人机的样本中被正确检测的比例）
mAP@0.5：0.86（IoU阈值为0.5时的平均精度）

训练曲线如图3所示，损失函数呈现持续下降趋势，表明模型仍有提升空间，可通过增加训练轮次或使用更大模型（如yolov8s.pt）进一步优化性能。

图3：训练指标图表（损失曲线与精度曲线）

4. 实时检测与跟踪实现

4.1 视频推理与结果保存

模型训练完成后，使用最优权重（best.pt）对测试视频进行推理，代码如下：

import os
from ultralytics import YOLO# 指定模型版本与路径
TRAINING = "train7"
model = YOLO(f"runs/detect/{TRAINING}/weights/best.pt")  # 加载最优权重# 输入输出路径配置
input_folder = "./videos_resized_cropped"
output_folder = "./videos_pred"
os.makedirs(output_folder, exist_ok=True)# 批量处理视频文件
for filename in os.listdir(input_folder):if filename.endswith(".mov"):input_path = os.path.join(input_folder, filename)output_path = os.path.join(output_folder, filename)# 视频推理results = model.predict(source=input_path,save=True,       # 保存带检测框的视频save_txt=True,   # 保存预测标签（YOLO格式）project=output_folder,name=filename.split(".")[0],  # 为每个视频创建单独文件夹exist_ok=True    # 允许覆盖现有文件)

推理过程中，系统会自动在视频帧中绘制无人机边界框，并保存处理后的视频及详细预测数据（包括边界框坐标、置信度等）。

4.2 多视频源网格可视化

为实现多摄像头监控的集中展示，设计了3×3网格的视频汇总方案，将多个检测结果同步显示为GIF动画：

import cv2
import numpy as np
import imageio
import os# 配置参数
input_folder = "./videos_pred"
output_file = "videos_grid_5s.gif"
frame_width, frame_height = 300, 225  # 单个视频帧尺寸
grid_width = frame_width * 3          # 网格宽度（3列）
grid_height = frame_height * 3        # 网格高度（3行）
fps = 10                              # GIF帧率
max_frames = fps * 5                  # 总时长5秒# 收集视频文件
video_files = []
for root, dirs, files in os.walk(input_folder):for file in files:if file.endswith(".mp4"):video_files.append(os.path.join(root, file))# 取前9个视频构建网格
video_files = sorted(video_files)[:9]
num_videos = len(video_files)
caps = [cv2.VideoCapture(v) for v in video_files]# 帧处理与网格合成
finished = [False] * num_videos
frames_list = []while not all(finished) and len(frames_list) < max_frames:frames = []for i, cap in enumerate(caps):if finished[i]:# 视频结束后填充黑色帧frames.append(np.zeros((frame_height, frame_width, 3), dtype=np.uint8))continueret, frame = cap.read()if not ret:finished[i] = Trueframes.append(np.zeros((frame_height, frame_width, 3), dtype=np.uint8))else:# 调整尺寸并转换色彩空间frame = cv2.resize(frame, (frame_width, frame_height))frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)frames.append(frame)# 构建3×3网格grid_rows = [np.hstack(frames[i:i+3]) for i in range(0, 9, 3)]grid_frame = np.vstack(grid_rows)frames_list.append(grid_frame)# 释放资源
for cap in caps:cap.release()# 保存GIF
imageio.mimsave(output_file, frames_list, duration=1/fps, loop=0)
print(f"网格GIF已保存为 {output_file}")