当前位置：首页 > news >正文

【论文阅读—智能驾驶】Diving Deeper Into Pedestrian Behavior Understanding

news 2025/9/16 5:53:50

论文链接：https://arxiv.org/abs/2407.00446

研究问题：文章研究的是“行人行为理解”，重点关注三个方面——行人的意图估计（比如行人是不是打算过马路）、动作预测（比如行人接下来会走还是停）、以及事件风险评估（比如是否可能发生危险）。

数据和任务：作者用到了两个常见的行人数据集 JAAD 和 PIE，并在这些数据上定义和说明了这三个任务。

新的评测基准：他们提出了一个新的“评测标准”，包括三类新的指标，用来更全面地衡量模型在这些任务上的表现。

实验与比较：他们用四个最先进的预测模型（SOTA）做了实验，对比了在不同任务、不同输入信息下的表现，特别分析了“意图估计”和“动作预测”的区别，以及两者之间如何互补。

发现与结论：通过实验，他们发现了一些关于数据、任务和模型的新规律，并提出了未来研究的方向。

一句话总结：这篇论文就是在比较和评估现有模型在“行人会怎么走、打算做什么、会不会有风险”这三个问题上的表现，并提出了一个新的测试方法，让研究者更清楚这些任务的区别和互补性。

Introduction

研究背景和问题

交通安全中，预测行人行为非常重要。简单来说，就是要判断行人会不会走到车的前面。现在很多方法会用车载摄像头或传感器的视频来预测，比如行人是不是要过马路。

现有问题

任务混淆：在研究中，常常把“意图预测”（行人是不是打算过马路）和“动作预测”（行人下一步会不会真的走）混在一起用，特别是一些数据集提供了两种任务的数据之后，研究者经常把两个概念当成一样的。

风险评估不足：单纯预测“意图”或“动作”只能说明有潜在风险，但不能直接反映预测结果对车本身的实际影响。

评估方法局限：目前大多数评估方式只是计算平均准确率，但这不够。因为对于安全来说，更重要的是：

模型能不能提前预测？
预测在车辆逐渐接近行人时，能不能保持稳定一致？
模型结果能不能容易解释？

本文贡献

作者提出了几个新的改进点：

明确区分并给出“意图预测”和“动作预测”的正式定义；
引入一个新的任务——事件风险评估，用来衡量预测的行人行为对车辆的影响；
提出新的评价指标，重点考察预测的及时性、平衡性和一致性；
在三个任务上测试最新的模型，特别比较了意图预测和动作预测的区别、影响因素，并分析模型在两个任务上的一致性。

一句话总结：这部分介绍了行人行为预测的重要性，同时指出目前研究中“意图”和“动作”经常混为一谈，现有评估方法也不够科学。作者提出要明确区分任务、增加风险评估，并设计新指标来更真实地评价模型对交通安全的作用。

Related Work

三个任务的定义

作者把“理解行人行为”拆成三个连续的任务：

意图估计 (Intention Estimation)：行人有没有“打算”过马路（这是心理上的想法，看不见，只能通过一些迹象推测）。
动作预测 (Action Prediction)：行人会不会真的开始过马路（这是能看见的动作，发生在未来）。
事件风险评估 (Event Risk Assessment)：行人的动作会不会对车造成危险，比如会不会进入车的行驶路线。

换句话说：先有意图 → 再有动作 → 最后看动作是否对车有风险。

意图 vs 动作

早在19世纪，人类行为理论里就区分了“意图”和“行动”：意图是心理目标，行动是可见行为。

在智能驾驶研究里，很多论文虽然写着“意图预测”或“动作预测”，但其实大多数都是在做“动作预测”。作者在这篇论文里，严格区分这两者：

意图存在于现在（比如行人打算过马路）。
动作是即将发生的未来行为（比如行人真的走出来）。

实际上，很多系统会结合两者使用，以提高预测准确率，但作者选择单独评估，来更清楚地比较二者的区别。

事件风险评估

单纯预测行人的意图或动作，还不能直接说明“车会不会受到威胁”。

轨迹预测模型会预测行人未来的坐标点，但需要额外分析才能判断风险。

作者提出一种更直接的方法：在“车的视角”（驾驶员看到的画面里），定义一个与车身位置对齐的“风险区域”，然后判断行人未来是否会进入这个危险区域，从而评估风险。

模型与数据集

目前研究中最常用的两个行人数据集是 JAAD 和 PIE，它们包含：

视频（车内单目摄像头拍的）、
标注（行人位置、姿态、行为描述、车辆信息）。

模型会用不同的输入特征来做预测：

视频画面
行人姿态
行人边框位置
或者这些的组合。

模型评估的不足

过去的评估方法主要用分类指标：准确率、召回率、精度、AUC、F1 等。

这些方法虽然能反映整体表现，但有几个问题：

过于平均化：只看整体分数，掩盖了不同情况下的差异。
缺乏一致性分析：没法看模型在不同时间点、不同预测时长下的稳定性。
风险敏感度不足：没法衡量模型对不同危险级别的应对。

作者提出了新的指标，用来专门衡量模型在及时性（预测得早不早）、一致性（预测稳不稳定）、和风险敏感性方面的表现。

一句话总结：这部分回顾了已有研究，指出大家常常混淆“意图”和“动作”，风险评估也不够直接，评估方法又过于平均化。于是，作者提出要把三类任务分开，并设计新的指标，才能更真实地评价模型对安全的帮助。

Experiment Setup

实验对象

作者挑选了 4 个最先进的行人预测模型来做对比：

SFGRU
BiPed
PCPA
PedFormer

他们在两个常用的行人数据集上测试：

PIE
JAAD

数据处理

意图和动作标注

PIE中注释和抽样的概述。意图标签由人类观察者的聚合投票来表示，他们观看从实验开始到临界点的行人视频。行为标签是基于观察到的在自我车前穿越的行为。对动作预测任务的序列进行采样，使观测值在1 ~ 3s TTE之间结束。观测起始点是送入模型的最早一帧。

在 PIE 里，意图是让人类观察视频后打分（比如觉得行人是不是有过马路的想法），这些分数取平均作为“意图标签”，所以是概率性的（0~1之间）。
在 JAAD 里，意图只是简单的“有/没有”，但因为存在偏差，所以作者只用了 PIE 的意图数据。
动作（是否真的过马路）在两个数据集里都有，比较明确。

数据划分

事件风险区域的例子覆盖在从自我车辆的视图上。从红色到绿色分别代表从最高到最低的相关风险。

每个样本的“观察时间”设为 0.5 秒（15 帧）。
意图预测：把 0~1 的意图分成三类：不打算过马路、不确定、打算过马路。
动作预测：只保留距离“开始过马路事件”还有 1~3 秒的数据。
风险评估：把画面分成 12 个竖直区域，代表不同风险等级（中间 = 高风险，边缘 = 低风险），预测 3 秒后的风险情况。

模型说明

BiPed 和 PedFormer：多任务模型，既预测行人轨迹（未来位置），也预测动作。
SFGRU 和 PCPA：单任务模型，只预测“会不会过马路”。
作者对这些模型稍微改了一下，让它们也能做意图预测和风险评估。

评价指标

(1) 基础指标

常见的分类指标：准确率（Acc）、AUC、F1、精确率（Prec）、平衡准确率（bAcc）、平均精度（mAP）。

(2) 加权指标

动作预测：越接近过马路那一刻越容易预测，但越早预测越有价值 → 所以给离事件更远的预测更高权重。
风险评估：行人出现在正前方更危险 → 所以正中间区域的预测权重更高，边缘更低。

(3) 每个行人级别的指标（稳定性）

为了衡量模型预测的一致性，作者提出了新方法：

Soft metrics：平均每个行人轨迹上多个片段的结果。
Hard metrics：如果一个行人轨迹中有一次预测错了，就算整体错。
Confidence delta：看模型对同一个行人的预测置信度，随时间是不是波动很大。

Evaluation: Intention and Action

模型在基准测试上的表现

意图预测 (Intention Estimation)

SFGRU 在区分不同行人意图方面表现最好，特别是它的 soft precision（精度）比第二名高 33%。
不过所有模型在 一致性（hard metrics） 上都很差，也就是说，同一个行人的预测结果经常波动。
在稳定性指标（conf∆，置信度变化）上，SFGRU 波动最小，所以算是最稳定。

动作预测 (Action Prediction)

在 PIE 数据集 上，PedFormer 最好，尤其在 hard metrics 上比其他模型高出 6~14%。说明预测动作时，行人轨迹和车辆动态信息特别重要。
在 JAAD 数据集 上（动态信息不精确），结果就混合了：PedFormer 在大多数指标上好一些，但 SFGRU 在准确率和精度上更好。
总体来看，PIE 更适合测试动作预测，而 JAAD 的数据噪声更多。

上下文对表现的影响

意图预测：意图主要是人的“目标”，比如要去对面商店 → 这种目标不容易受环境因素影响。

模型需要依赖 视觉特征（比如头部朝向、姿态）来判断意图。
所以用图像和姿态的模型（SFGRU、PCPA）在意图预测上表现更好。

动作预测：预测行人会不会真的走出来，主要取决于 动态因素（行人走向、车辆速度）。

所以在动作预测上，依赖轨迹和车辆动态的模型（PedFormer）效果最好。

不同场景下的表现

用 PIE 数据集 分场景分析：

针对不同场景在PIE上进行意图估计和动作预测任务的mAP。颜色是在每个任务的所有细胞中计算的。绿色和红色分别表示最佳和最差的性能。

行人因素：

走着的行人 → 更容易预测意图和动作。
站着的行人 → 最难预测，模型性能大幅下降。
行人的“大小（scale）”影响不明显，结果有些随机性。

车辆因素：

动作预测对车速特别敏感：
- 车停着时，预测准确率很高（95%）。
- 车速快时，准确率掉到只有 8%。
意图预测对车速影响不大，因为意图更多取决于行人的目标。

环境因素：

红灯 → 行动预测更难，因为行人行为变数更多。
双向路比单向路预测更容易，可能是数据集中双向路更“规矩”，而单向路里乱穿马路多。
总体来说，环境对 意图预测 影响不大，但对 动作预测 影响显著。

意图与动作的一致性

意图估计与动作预测协议。阴影区域的列对应意图( I )和动作( A )的联合结果，颜色表示预测正确或错误。例如，I - A意味着只有意图被正确预测。

作者测试了同一个模型（PedFormer）在意图和动作两个任务上的预测是否一致：

两个都对：63%
两个都错：3.5%
只对一个：33.5%
- 只预测对意图（11%）：说明有些线索能看出意图，但不能保证一定会行动。
- 只预测对动作（22.6%）：多数情况是“没有走”，但很难从站着的行人看出他们有没有想走。

结论是：意图预测和动作预测是互补的，有些场景下意图更有用，有些场景下动作更可靠。

Event Risk Assessment

1. 任务目标

事件风险评估的目的，就是判断某个行人未来的位置会不会对车（ego-vehicle）造成危险。方法是：预测行人未来会出现在画面中的哪个区域，越靠近车辆中心，风险越高。

2. 模型表现

PedFormer：整体上最好，因为它更依赖“动态信息”（行人运动 + 车辆运动），适合判断风险。
PCPA：在 JAAD 数据集上，在稳定性指标（conf∆）上表现最好。
SFGRU：有些场景下也比 PedFormer 更好，特别是需要更多视觉信息时。

3. 结果分析

边缘区域预测更准：在画面边缘，模型表现最好。原因是：
- 边缘区域的数据更多；
- 那里的行人大多数只是站着，并不会突然走到路中间，所以风险不大，也更容易预测。
中心区域更难：
- 行人如果在画面正中（也就是车前方），就更可能过马路。
- 这种情况下，预测就更困难，因为需要精确判断运动趋势。
- PedFormer 在这种情况更强，但它的表现波动也大，比如在某些风险等级上，准确率会突然下降 20%。
视觉 vs 动态信息：
- PIE 数据集：有些场景下，单靠动态信息不够，还需要视觉线索（例如行人姿态、外观）。
- JAAD 数据集：因为车的动态信息不准确，所以两个模型都只能靠“行人边框的变化”来推理，整体效果差一些。