DRIVER SCANPATH PREDICTION BASED ON INVERSE REINFORCEMENT LEARNING
ABSTRACT
通过扫描路径预测建模驾驶员注意力分配在推动自动驾驶能力发展和提高事故预判方面起着关键作用。现有研究主要预测人类扫描路径以应用于视觉搜索、视觉问答和自由观看等任务,而很少有研究关注驾驶场景中的扫描路径预测。
为了解决这一问题,我们提出了一种基于逆强化学习(IRL)的对抗学习方法,以有效预测不同驾驶任务中的类人扫描路径。具体而言,我们引入了一种基于Transformer的架构来构建生成器(Generator)和判别器(Discriminator)模型,同时结合自上而下(top-down)、自下而上(bottom-up)及历史信息,并通过注意力状态编码(SEA)实现动态状态更新。受人类视觉系统启发,SEA 采用中央凹(fovea)运动策略。实验结果表明,我们的方法在BDD-X-diverse基准数据集上验证了其有效性。
关键词:扫描路径预测、视觉注意力、逆强化学习、自动驾驶
INTRODUCTION
扫描路径(Scanpath)由一系列注视点(fixation points)组成,反映了人类注视的顺序。作为动态视觉注意力(dynamic visual attention)的指标,它揭示了更深层次的决策过程和推理策略,能够编码更全面、自然的注意力表示。
目前,已有大量研究致力于人类扫描路径预测 [1–5]。这些方法通常将扫描路径预测视为迭代过程:
- 根据当前表示预测下一个注视点;
- 根据注视点的变化更新表示。
由于强化学习(Reinforcement Learning, RL) [6] 和逆强化学习(Inverse Reinforcement Learning, IRL) [7] 在与环境交互和学习最优策略方面具有优势,它们被广泛应用于自动驾驶、机器人控制和游戏等领域。
扫描路径可以被视为序列决策过程。近年来,一些研究开始尝试基于强化学习的方法来预测人类扫描路径 [8–10]。
扫描路径(Scanpath)由一系列注视点(fixation points)组成,反映了人类注视的顺序。作为动态视觉注意力(dynamic visual attention)的指标,它揭示了更深层次的决策过程和推理策略,能够编码更全面、自然的注意力表示。
目前,已有大量研究致力于人