当前位置: 首页 > news >正文

复杂环境下驾驶员注意力实时检测: 双目深度补偿 + 双向 LSTM

《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称项目名称
1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】8.【基于深度学习的行人跌倒检测系统】
9.【基于深度学习的PCB板缺陷检测系统】10.【基于深度学习的生活垃圾分类目标检测系统】
11.【基于深度学习的安全帽目标检测系统】12.【基于深度学习的120种犬类检测与识别系统】
13.【基于深度学习的路面坑洞检测系统】14.【基于深度学习的火焰烟雾检测系统】
15.【基于深度学习的钢材表面缺陷检测系统】16.【基于深度学习的舰船目标分类检测系统】
17.【基于深度学习的西红柿成熟度检测系统】18.【基于深度学习的血细胞检测与计数系统】
19.【基于深度学习的吸烟/抽烟行为检测系统】20.【基于深度学习的水稻害虫检测与识别系统】
21.【基于深度学习的高精度车辆行人检测与计数系统】22.【基于深度学习的路面标志线检测与识别系统】
23.【基于深度学习的智能小麦害虫检测识别系统】24.【基于深度学习的智能玉米害虫检测识别系统】
25.【基于深度学习的200种鸟类智能检测与识别系统】26.【基于深度学习的45种交通标志智能检测与识别系统】
27.【基于深度学习的人脸面部表情识别系统】28.【基于深度学习的苹果叶片病害智能诊断系统】
29.【基于深度学习的智能肺炎诊断系统】30.【基于深度学习的葡萄簇目标检测系统】
31.【基于深度学习的100种中草药智能识别系统】32.【基于深度学习的102种花卉智能识别系统】
33.【基于深度学习的100种蝴蝶智能识别系统】34.【基于深度学习的水稻叶片病害智能诊断系统】
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统】36.【基于深度学习的智能草莓病害检测与分割系统】
37.【基于深度学习的复杂场景下船舶目标检测系统】38.【基于深度学习的农作物幼苗与杂草检测系统】
39.【基于深度学习的智能道路裂缝检测与分析系统】40.【基于深度学习的葡萄病害智能诊断与防治系统】
41.【基于深度学习的遥感地理空间物体检测系统】42.【基于深度学习的无人机视角地面物体检测系统】
43.【基于深度学习的木薯病害智能诊断与防治系统】44.【基于深度学习的野外火焰烟雾检测系统】
45.【基于深度学习的脑肿瘤智能检测系统】46.【基于深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于深度学习的橙子病害智能诊断与防治系统】48.【基于深度学习的车辆检测追踪与流量计数系统】
49.【基于深度学习的行人检测追踪与双向流量计数系统】50.【基于深度学习的反光衣检测与预警系统】
51.【基于深度学习的危险区域人员闯入检测与报警系统】52.【基于深度学习的高密度人脸智能检测与统计系统】
53.【基于深度学习的CT扫描图像肾结石智能检测系统】54.【基于深度学习的水果智能检测系统】
55.【基于深度学习的水果质量好坏智能检测系统】56.【基于深度学习的蔬菜目标检测与识别系统】
57.【基于深度学习的非机动车驾驶员头盔检测系统】58.【太基于深度学习的阳能电池板检测与分析系统】
59.【基于深度学习的工业螺栓螺母检测】60.【基于深度学习的金属焊缝缺陷检测系统】
61.【基于深度学习的链条缺陷检测与识别系统】62.【基于深度学习的交通信号灯检测识别】
63.【基于深度学习的草莓成熟度检测与识别系统】64.【基于深度学习的水下海生物检测识别系统】
65.【基于深度学习的道路交通事故检测识别系统】66.【基于深度学习的安检X光危险品检测与识别系统】
67.【基于深度学习的农作物类别检测与识别系统】68.【基于深度学习的危险驾驶行为检测识别系统】
69.【基于深度学习的维修工具检测识别系统】70.【基于深度学习的维修工具检测识别系统】
71.【基于深度学习的建筑墙面损伤检测系统】72.【基于深度学习的煤矿传送带异物检测系统】
73.【基于深度学习的老鼠智能检测系统】74.【基于深度学习的水面垃圾智能检测识别系统】
75.【基于深度学习的遥感视角船只智能检测系统】76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统】
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】
79.【基于深度学习的果园苹果检测与计数系统】80.【基于深度学习的半导体芯片缺陷检测系统】
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统】82.【基于深度学习的运动鞋品牌检测与识别系统】
83.【基于深度学习的苹果叶片病害检测识别系统】84.【基于深度学习的医学X光骨折检测与语音提示系统】
85.【基于深度学习的遥感视角农田检测与分割系统】86.【基于深度学习的运动品牌LOGO检测与识别系统】
87.【基于深度学习的电瓶车进电梯检测与语音提示系统】88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统】
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统】90.【基于深度学习的舌苔舌象检测识别与诊断系统】
91.【基于深度学习的蛀牙智能检测与语音提示系统】92.【基于深度学习的皮肤癌智能检测与语音提示系统】
93.【基于深度学习的工业压力表智能检测与读数系统】94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

目录

  • 引言
  • 一、研究背景
  • 二、核心方法设计:RT-DASR
    • (1)模块 1:BV-DHPE(双目视觉深度补偿头部姿态估计)
    • (2)模块 2:MSTBi-LSTM(多源时间双向长短期记忆网络)
  • 三、实验验证与关键结果
    • (1)实验环境与数据集
    • (2)关键实验结果
  • 四、研究结论与未来方向

引言

在这里插入图片描述

为解决现有基于计算机视觉的驾驶员注意力检测方法中,单目相机精度低、多传感器融合实时性差的问题,本文提出RT-DASR(实时驾驶员注意力状态识别方法),其核心包含BV-DHPE(双目视觉深度补偿头部姿态估计)MSTBi-LSTM(多源时间双向长短期记忆网络) 两大模块。BV-DHPE 通过双目相机与 YOLO11n Pose 定位面部关键点,利用双目视差计算空间距离补偿单目深度缺陷,使头部姿态估计的平均绝对误差(MAE)较单目方法降低44.7%;MSTBi-LSTM 融合头部姿态角度、实时车速和注视区域语义,双向提取时间特征实现注意力判别。该方法在 NVIDIA Jetson Orin 部署时,注意力识别准确率达90.4%,平均延迟仅21.5 ms,经实际矿用卡车驾驶场景测试,为提升驾驶员安全性提供了高精度、低延迟的解决方案。

一、研究背景

  1. 交通安全需求:驾驶员分心是交通事故核心诱因,美国 2010 年机动车事故社会成本达 836 亿美元,其中 15% 由分心驾驶导致,因此高效可靠的驾驶员注意力检测方法对提升驾驶安全至关重要。

  2. 现有方法的局限性:

    • 生理信号法:通过 EEG(脑电图)、ECG(心电图)等监测,但依赖接触设备,存在成本高、舒适性差、干扰驾驶操作的问题。
    • 驾驶行为法:通过方向盘操作、刹车模式等间接推断注意力,但受交通环境、路况、个人驾驶习惯影响大,泛化性和实时性不足。
    • 计算机视觉法:因非侵入、低成本、可扩展性强成为主流,但存在两大缺陷 —— 单目相机缺乏深度信息导致精度低,多传感器融合技术实时性差。
  3. 场景特殊性:现有研究未适配矿用卡车场景(矿卡体积大、需更广视野、需监控多控制面板),缺乏针对矿卡驾驶员的快速高精度注意力检测技术。

二、核心方法设计:RT-DASR

在这里插入图片描述
RT-DASR (实时驾驶员注意力状态识别方法)由两大核心模块构成,通过 “高精度头部姿态估计 + 多源时间特征融合” 实现注意力检测,具体设计如下:

(1)模块 1:BV-DHPE(双目视觉深度补偿头部姿态估计)

  • 目标:解决单目相机深度信息缺失导致的头部姿态估计精度低问题。

  • 硬件配置:双目相机(基线 43mm,焦距 3.5mm),配备 940nm 近红外 LED 补光器,确保低光照环境稳定工作。

  • 关键步骤 :

    1. 面部关键点定位:采用 YOLO11n Pose 模型,直接回归 17 个面部关键点,筛选 8 个受表情影响小的点(内 / 外眼角、眉外端、鼻孔)作为候选点,避免传统 “人脸检测→关键点定位” 两阶段流程,提升精度与速度。
      在这里插入图片描述

    2. 深度计算:基于双目视差原理,通过立体匹配生成视差图,结合公式Z=dfB(f 为焦距,B 为基线,d 为视差)将视差转换为深度,获取候选点的 3D 世界坐标。

    3. 姿态角提取:利用相机内参矩阵K=f**x000f**y0cxc**y1和外参 [R|t],通过奇异值分解(SVD)求解旋转矩阵 R,再分解 R 得到头部的 3 个欧拉角(俯仰:绕 x 轴;滚转:绕 y 轴;偏航:绕 z 轴)。

  • 性能优势:头部姿态估计 MAE 较单目方法降低44.7%,极端头部运动时误差更可控(俯仰峰值误差从 12.1°→3.6°,偏航从 9.3°→6.5°)。

(2)模块 2:MSTBi-LSTM(多源时间双向长短期记忆网络)

在这里插入图片描述

  • 目标:融合多源时序数据,提升注意力状态判别的连续性与准确性。

  • 输入特征设计:

    特征类型维度说明
    头部姿态3俯仰、偏航、滚转 3 个欧拉角(归一化后)
    注视区域1cabin 内 12 个分区(用 1-12 数值表示)
    实时车速1矿用卡车实时行驶速度
    总输入维度16——
  • 网络结构:

    1. 双向 LSTM 层:包含前向 LSTM(按时间顺序提取特征)和反向 LSTM(按时间逆序提取特征),捕捉多源数据的长期时间依赖关系,隐藏单元 128 个,序列长度 300。
    2. 全连接层(FC)+ Softmax:将双向 LSTM 输出拼接后输入 FC 层,再通过 Softmax 分类为 “专注” 或 “分心” 两类。
  • 性能优势:多源特征融合后,注意力识别准确率达 93.2%(训练阶段),推理时间仅 0.1ms,兼顾精度与效率。

三、实验验证与关键结果

(1)实验环境与数据集

实验类型硬件配置软件配置数据集详情
模型训练Intel Xeon Silver 4210 + NVIDIA RTX 3090Ubuntu 22.04,PyTorch 2.3,CUDA 11.2YOLO11n Pose:9798 张图像(6:2:2 分拆);MSTBi-LSTM:5000 个 60s 样本(3000:1000:1000 分拆)
模型部署NVIDIA Jetson Orin(边缘设备)Ubuntu 20.04,JetPack 5.1.4,TensorRT 8.5——
实车测试矿用卡车(配备双目相机)——40 名司机 1440h 数据(53% 白天,47% 夜间),600 个分心片段 + 3000 个非分心片段

(2)关键实验结果

  1. YOLO11n Pose 性能(与同类模型对比)

    模型面部检测 AP50-95(%)关键点检测 AP50-95(%)参数量(M)推理时间(ms)
    YOLOv8n Pose89.293.03.31.1
    YOLO11n Pose90.794.52.91.1
    YOLO12n Pose89.293.12.81.7
    • 结论:YOLO11n Pose 在检测精度(AP50-95 最高)、参数量(2.9M,低于 YOLOv8n)、推理速度(1.1ms,与 YOLOv8n 相当,快于 YOLO12n)上综合最优。
  2. BV-DHPE 与单目方法头部姿态估计误差对比

    评估指标单目方法(俯仰)BV-DHPE(俯仰)单目方法(偏航)BV-DHPE(偏航)单目方法(滚转)BV-DHPE(滚转)
    MAE(°)2.00.81.41.01.10.6
    RMSE(°)2.70.92.01.41.30.8
    最大误差(°)12.13.69.36.57.73.5
    • 结论:BV-DHPE 在所有维度误差均显著降低,MAE 平均下降 44.7%,抗动态干扰能力更强。
  3. RT-DASR 实车测试性能(与单目方法对比)

    方法准确率(%)F1 分数TPR(%)FPR(%)推理延迟(ms)
    单目方法80.180.380.419.818.2
    RT-DASR90.492.390.78.821.5
    • 结论:RT-DASR 准确率提升 10.3%,FPR 降低 11.0%(减少误报警),虽延迟增加 3.3ms,但 21.5ms 仍满足实时预警需求。

四、研究结论与未来方向

  1. 核心结论:

    • RT-DASR 通过 BV-DHPE 补偿深度信息、MSTBi-LSTM 融合多源时序特征,实现了矿用卡车驾驶员注意力的高精度(90.4%)、低延迟(21.5ms)检测。
    • 边缘部署时,FP16 精度仅导致 0.3% 准确率损失,兼顾性能与硬件资源限制。
  2. 局限性:

    • 极端头部旋转时,关键点匹配易失效,导致误判;
    • 矿用卡车场景方法难以迁移至普通轿车(视野、监控需求不同);
    • 缺乏统一数据集,无法与现有主流方法直接对比。
  3. 未来方向:采用多相机构建多视图立体视觉系统,覆盖宽角度头部旋转场景,解决关键点缺失导致的姿态估计失效问题。


在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

http://www.dtcms.com/a/544350.html

相关文章:

  • 强化 门户网站建设wordpress添加视频插件吗
  • 用于电容器的绝缘材料中,所选用的电介质的相对介电常数应较大。用于制造电缆的绝缘材料中,所选用的电介质的相对介电常数应较小。
  • 用Lua访问DuckDB数据库
  • 制作人在那个网站能看情侣wordpress模板
  • Linux网络的HTTPS
  • 改进 shell 搜索
  • Rust异步并发:业务落地的三个关键细节
  • TDengine 数据函数 TAN 用户手册
  • 【数据结构】顺序结构二叉树详解
  • 魔法自助建站网站建设需要准备什么软件
  • 酒吧网站设计大连网站建设ewaylife
  • Oracle_E_Business 远程命令执行漏洞复现(CVE-2025-61882)
  • P1228 地毯填补问题(分治)
  • 苍穹外卖 —— 文件上传和菜品的CRUD
  • 高性能MySql阅读
  • 第3章、MySQL乱码的解决-字符集
  • Ubuntu 安装 Rancher
  • 什么是慢SQL
  • 【人工智能数学基础】多元高斯分布
  • 做网站加入广告联盟做网站的前端是做什么
  • 郑州网页网站制作汕头网站推广优化
  • python电影票房数据可视化分析系统 不同档期电影票房Flask框架 艺恩电影票房网站 requests爬虫(建议收藏)✅
  • webrtc弱网-VivaceUtilityFunction源码分析与算法原理
  • 科技行业ERP系统选择指南:Oracle NetSuite的全面解析
  • 第一个程序HelloWorld
  • 数据分析过程中,发现数值缺失,怎么办?
  • 电商网站设计图海口网站建设好
  • 【自动化测试函数 (上)】Web自动化测试实战精要:定位、操作与窗口管理三部曲
  • 超越传统管理:迈向无感衔接、全域协同的医美运营新范式
  • SUB设备电子狗加密狗开发