高海拔和远距离的人员识别:面部、体型和步态的融合
大家读完就觉得有帮助记得关注和点赞!!!
摘要
我们解决了在无约束环境中进行全身人体识别的问题。这个问题出现在诸如IARPA高空和远距离生物识别与身份识别(BRIAR)计划等监视场景中,其中生物识别数据是在长距离、高角度以及不利的大气条件下(例如,湍流和高风速)捕获的。为此,我们提出了FarSight,一个统一的端到端人体识别系统,它集成了跨越面部、步态和体型模态的互补生物特征线索。FarSight整合了四个核心模块中的新型算法:多目标检测和跟踪、识别感知视频恢复、模态特定生物特征编码以及质量引导的多模态融合。这些组件旨在在退化的图像条件、大的姿势和尺度变化以及跨域差距下协同工作。在BRIAR数据集上的大量实验证明了FarSight的有效性,BRIAR数据集是用于远程、多模态生物识别的最全面的基准之一。与我们的初步系统[1]相比,该系统在1:1验证准确率(TAR@0.1% FAR)上实现了34.1%的绝对增益,在闭集识别(Rank-20)上实现了17.8%的提升,并在开集识别错误(FNIR@1% FPIR)上实现了34.3%的降低。此外,FarSight在2025 NIST RTE视频人脸评估(FIVE)中进行了评估,该评估在BRIAR数据集上进行标准化的人脸识别测试。这些结果确立了FarSight作为在具有挑战性的现实条件下进行操作性生物识别的最先进解决方案的地位。
索引词—全身生物特征识别,大气湍流缓解,生物特征编码,多模态融合,开放集生物特征识别,人脸识别,步态识别,体型识别
1 引言
在远距离和高视角下进行的无约束生物特征识别对于各种应用至关重要,包括执法、边境安全、广域监控和公共媒体分析[2]–[4]。在现有方法中,全身生物特征识别[1],[5]–[9]已成为该领域的核心,因为它捕捉了丰富的解剖和行为特征组合——例如面部外观、步态和体型——与单模态系统相比,它对遮挡、退化和模态损失具有更强的抵抗力。尽管全身识别系统具有潜力,但在现实场景中部署此类系统在技术上仍然具有挑战性。高性能系统不仅必须包含稳健的多模态生物特征建模,还必须支持以下模块:
精确的人员检测与跟踪、低质量图像增强、大气湍流缓解以及用于处理不可靠数据的自适应融合策略。
为了开发和评估满足这些需求的生物识别系统,必须能够访问反映真实世界监控条件全部复杂性的数据集。IARPA 高空和远距离生物识别与身份识别 (BRIAR) 计划1 是朝着这个方向共同努力[8],[9],旨在促进生物识别系统的开发,使其能够在这些不受约束的场景中可靠地执行。图 1 展示了 BRIAR 全身图像捕获场景,包括受控的室内注册集合和具有挑战性的室外探测集合。这些场景模拟了人员识别中面临的真实世界挑战,包括:(i) 由远距离捕获(高达 1000 米)和大气湍流引起的低质量视频帧,折射率结构常数范围从 Cn2 = 10−17 到 10−14 m−2/3; (ii) 来自高达 400 米高度的升高平台(无人机)的大偏航角和俯仰角(高达 50◦);(iii) 由于低视觉质量而导致的功能集退化,其中瞳孔间距 (IPD) 在 15–100 像素之间;(iv) 开放集搜索的复杂性,其中必须将探测图像与包含干扰项的图库进行匹配;以及 (v) 由 lim 引起的显着域间隙
https://www.iarpa.gov/research-programs/briar
有限的训练数据和真实世界条件的多样性。
图 1:IARPA BRIAR 全身图像捕获场景示意图。(a) 注册室内采集:在受控条件下从多个视角捕获的高质量静态图像和视频。(b) 探测室外采集:在室外环境中以不同的距离和仰角捕获的视频,具有大气湍流等挑战性因素。这些设置反映了远程生物识别中遇到的真实世界条件。已获得拍摄对象许可,允许在出版物中使用图像。
为了应对不受约束的远距离生物特征识别所带来的挑战,我们提出了FarSight,一个集成的端到端系统,旨在利用多模态生物特征线索进行稳健的行人识别。FarSight结合了面部、步态和体型模态,以确保即使在个体线索不可靠或退化的情况下也能保持识别性能。该系统包含四个紧密耦合的模块,每个模块都解决了识别流程中的一个关键组成部分:
(1)一个多目标检测和跟踪模块,能够在动态、杂乱和低分辨率条件下准确地定位视频序列中的个体。
(2)一个识别感知的视频恢复模块,通过联合优化图像质量和生物特征保真度来减轻视觉退化——特别是由于湍流和远距离模糊造成的退化。
(3)一个生物特征编码模块,利用大型视觉模型和特定于模态的架构设计的最新进展,为每个模态提取稳健的表示。
(4)一个质量引导的多模态融合模块,自适应地整合跨模态的分数,同时考虑可变的输入质量和部分观测。
我们系统的初步版本[1]先前已在IEEE/CVF计算机视觉应用冬季会议(WACV 2024)上发表。在这一基础上,我们大幅升级了每个模块,以提高在验证、闭集识别和开集搜索任务中的识别性能。目前的系统还整合了关键的架构增强功能,以支持更低的延迟、更少的内存使用和更高的可扩展性。下面,我们总结了更新后的FarSight系统中每个模块引入的主要改进:
•多目标检测与跟踪:我们的初步
系统[1]采用了一种基于R-CNN的联合人体-面部检测器[10],[11],该检测器缺乏对多目标跟踪的支持,并且表现出较高的推理延迟。为了解决这些局限性,我们引入了两个关键升级:首先,我们采用了一个双检测器框架,使用BPJDet[12]进行粗略的人体-面部定位,然后通过YOLOv8[13]进行验证,以减少误报。这种替换提高了检测精度和运行时效率。其次,我们开发了PSR-ByteTrack,这是一种基于ByteTrack[14]构建的增强型多目标跟踪器。PSR-ByteTrack通过引入一种基于补丁的检索机制来缓解诸如ID切换、碎片化轨迹和小目标再识别失败等问题,该机制在内存中维护特定于主体的外观特征。
• 识别感知视频恢复:我们介绍了门控循环湍流缓解(GRTM)网络,这是一种新颖的基于视频的恢复模型,专为远距离、湍流退化的图像设计。使用轻量级分类器有选择地触发恢复,从而减少不必要的计算并避免潜在的特征失真。该系统的一个关键贡献是其紧密集成的恢复-识别协同优化框架,该框架将识别目标直接集成到恢复训练过程中,引导模型增强对身份判别至关重要的特征。
• 生物特征(面部、步态和体型)特征编码:我们对每个特定模态的模型进行升级,采用与任务对齐的架构改进和训练策略,以应对远距离、无约束生物特征识别的挑战。i) 面部:我们提出 KP-RPE [15],一种关键点相关的相对位置编码技术,可显著改善对未对齐和低质量面部图像的处理。ii) 步态:我们引入 BigGait [16],这是第一个基于
大型视觉模型(LVM)。该方法从特定任务先验知识转向通用视觉知识,从而提高了在各种条件下的步态识别能力。iii) 身体形状:我们提出了CLIP3DReID [17],通过将语言描述与视觉感知协同集成,显著增强了身体匹配能力。该方法利用预训练的CLIP模型来开发具有区分性的身体表征,从而有效地提高了识别准确率。
•质量引导的多模态融合:我们提出质量评估器(QE),这是一种评估模态质量的通用方法,以及一种由模态特定质量权重引导的可学习的分数融合方法,称为质量引导的分数融合专家混合模型(QME),以提高分数融合性能。
• 开放集搜索:我们引入了一种新的训练策略[18],该策略明确地纳入了非配对主体。这种方法使训练目标与开放集条件对齐,从而使模型能够区分已注册身份和未知身份。因此,它显著提高了开放集识别的准确性,同时也通过更好的泛化能力增强了封闭集性能。
• 系统集成:我们整合了若干系统级增强功能,包括:i) 自动化多GPU容器化,使每个GPU能够独立处理客户端请求;以及 ii) 支持多主体探针视频,允许单个输入生成多个主体跟踪条目。
总而言之,我们提出的FarSight系统的贡献包括:
采用基于双YOLO的检测方法,结合我们的PSR-ByteTrack,实现稳健、准确和低延迟的多目标检测和跟踪。
一个物理信息驱动的视频恢复模块(GRTM),它显式地对大气湍流进行建模,并集成了一个任务驱动、识别感知的优化框架,以增强保持身份的图像质量。
针对面部、步态和体型的有效特征编码,并由大型视觉模型框架增强。
该方法整合了一种新颖的开放集搜索和多模态特征融合方法,显著提高了各种场景下的识别性能。
依照API规范的更新,实现可扩展的系统集成,该集成具有自动化的每GPU多处理能力,并支持多被试探针处理。
对BRIAR数据集(协议v5.0.1)进行全面评估,并通过2025年NIST RTE视频人脸评估(FIVE)[19]进行独立验证,证实了FarSight在真实条件下运行的生物特征识别方面的最先进性能。
2 相关工作
全身人体识别。全身人体识别整合了多种生物特征,如面部、步态和体型,以在具有挑战性的场景中实现最先进的识别精度。这种整体方法与传统生物识别系统形成鲜明对比,后者通常侧重于单一模态[20]–[28]。通过整合多种模态,FarSight克服了单个特征的局限性,同时利用了它们的互补优势。例如,当面部识别在严重的姿势变化和不良光照条件下会遇到困难时,步态分析可能会受到行走速度和服装变化的影响。类似地,体型提供了持续的线索,但可能会因服装和姿势的变化而改变。最近的研究[1],[5],[6]越来越多地采用整合检测、图像恢复和生物特征分析的整体系统。然而,许多现有系统仍然依赖于在受限数据集上训练的相对小规模网络,并且未能充分利用不同生物特征模态和系统组件之间的潜在协同作用。这促使我们开发一个集成系统,该系统在整个识别流程中进行联合优化。我们的工作建立在这一趋势之上,通过将大型视觉模型、任务感知恢复、开放集训练和自适应多模态融合整合到一个可扩展的端到端系统中,并在真实世界环境中进行评估。
湍流成像的物理建模。大气湍流是远程和高空人员识别中图像退化的主要来源,严重影响视觉清晰度和生物识别准确性。这一挑战需要逼真的模拟方法,以支持训练产生稳健的识别系统,并支持开发有效的恢复算法。模拟技术范围广泛——从基于计算光学的物理模型[29](以计算成本为代价提供高保真度),到基于计算机视觉的方法[30](优先考虑效率但通常缺乏物理基础)。中间方法包括基于亮度函数的模拟[31]和基于学习的技术[32],尽管后者与运行时约束不同,尤其是在深度学习设置中[33]。为了平衡真实性和效率,我们采用了一种基于Zernike多项式表示的随机相位畸变的湍流模型。我们的方法通过将数值导出的卷积核应用于清晰图像并注入白噪声来合成湍流效应,从而产生逼真的退化观测结果。
用于生物特征识别的图像恢复。生物特征识别依赖于从各种视觉输入中提取鲁棒特征。当图像质量欠佳时,恢复技术可以提高图像的保真度,进而提高识别性能。然而,这些方法可能会通过臆造特征而无意中改变身份,或者通过引入伪影而降低准确性。此外,传统的恢复流程通常针对诸如PSNR或SSIM等感知指标进行优化,这些指标不能很好地反映识别准确率[34]–[37]。在大气湍流下,重建已被发现是有益的[38]。虽然这些努力主要依赖于单帧数据,但多帧湍流缓解可以带来更稳定和可靠的恢复[39],[40]。相比之下,FarSight引入了一个确定性的多帧恢复框架,该框架与生物特征识别准确率目标共同优化。该策略将恢复与识别准确率显式对齐,在减轻视觉幻觉风险的同时,保留身份特征。
行人检测与追踪。在多个帧中检测和关联行人对于开发精确的行人识别系统至关重要。早期方法[41],[42]使用基于R-CNN的检测器,该检测器具有多个头部,用于独立的身体和面部检测,然后是一个匹配模块。BFJDet [11]提出了一个框架,用于转换任何单阶段或双阶段检测器以支持身体和面部检测。最近,PairDETR [43]使用受DETR启发的二分框架来匹配身体和面部边界框。FarSight [1]使用Faster R-CNN [44]来联合检测人体和面部。由于实时检测算法的最新进展,特别是YOLO系列[13],[45]–[47],BPJDet开发了一种使用YOLOv5 [45]的联合检测算法和一个关联解码来匹配身体和面部。Farsight利用BPJDet作为主要检测器,并使用YOLOv8 [13]来消除错误的身体检测。
图 2:所提出的 FarSight 系统概述,该系统包含四个模块:(i)多目标检测与跟踪;(ii)识别感知图像恢复;(iii)面部、步态和体型的模态特定编码;以及(iv)质量引导的多模态生物特征融合。
通过关联(边界框或分割掩码)进行跟踪是一种成熟的多目标跟踪方法 [14], [48]–[50]。在关联范式下,ByteTrack [14] 缓存低置信度的边界框,从而为高置信度和低置信度的检测提供准确的跟踪器。由于其在多目标跟踪方面的出色性能,我们使用 ByteTrack 作为我们的基础跟踪器,并配备了具有外观感知能力的基于补丁的后处理技术,以实现准确的 track-id 分配,从而实现稳健的行人识别。
多模态生物特征融合。分数层融合是多模态生物特征识别系统中一种广泛使用的方法,其中来自个体模态(如面部、步态或体型)的相似度分数被组合起来,以形成最终的个人识别决策。传统技术包括基于归一化的方法(例如,Z-score、Min-Max),然后进行均值、最大值或最小值分数融合[51]。基于似然比的方法[52]也被提出,以提供概率可解释性。尽管这些融合方法很简单,但它们通常无法解释模态特异性的可靠性或输入中动态的质量变化。一个关键的挑战在于确定真实世界中个体内部差异下的最佳模态对齐和加权。最近的一些工作已经转向特征层融合[53],结合跨模态(例如,面部和步态)的信息,以利用跨模态相关性。然而,这些方法可能受到表示不兼容或缺乏对缺失模态的鲁棒性的影响。为了解决这些局限性,我们的方法引入了一种质量引导的分数融合框架,该框架根据探针的估计质量动态地权衡每个模态的贡献。
开放集生物特征搜索。开放集搜索是全身生物特征识别系统中的一项关键需求,其中探针必须与已注册的主体进行匹配(如果存在),或者如果未在图库中注册,则将其拒绝。尽管其具有重要的实际意义,但先前在全身生物特征识别方面的大部分工作都集中在封闭集识别上,而很少关注显式建模开放集动态。一种常见的基线是极值机(EVM)[54],它估计探针属于每个图库主体的可能性,并拒绝低置信度的匹配。在我们的工作[18]中,我们引入了一种训练策略,该策略通过在训练期间纳入非配对身份来显式模拟开放集条件。训练和评估之间的这种对齐提高了泛化能力,并提高了在开放集和封闭集场景中的性能。
3 提出的方法
3.1 FarSight系统概述
如图2所示,所提出的FarSight系统由四个紧密集成的模块组成:多目标检测与跟踪、识别感知图像恢复、模态特定特征编码(面部、步态和体型)以及质量引导的多模态融合模块。这些组件在一个统一的端到端框架内进行协调,旨在解决第节中概述的现实挑战。1——即远距离捕获、姿势变化、图像质量下降和域偏移。
该系统针对可扩展性和效率进行了优化,可处理约 99,000 张静态图像和 12,000 个视频轨道,同时在使用 NVIDIA RTX A6000 GPU 的情况下,在 1080p 视频上保持 7.0 FPS 的端到端处理速度。它支持动态批量大小调整以进行 GPU 资源管理,并通过基于 Google RPC 构建的 API 与外部系统通信。视频输入通过配置文件指定,提取的生物特征以 HDF5 格式导出,用于下游评估和评分。识别流程始于人员检测和跟踪。对于每个轨迹片段,裁剪后的帧被传递到步态和体型编码器。同时,面部区域在进入面部编码器之前会进行修复,以减轻退化。每个探针包含单个视频片段,而图库注册(由多个视频和静态图像组成)被聚合为每个模态的单个特征向量。
3.2 多目标检测与跟踪
3.2.1 行人检测
为了在无约束的设置下实现可靠的主体定位,我们采用了一种双检测器策略,该策略结合了BPJDet [12]和YOLOv8 [13],以实现稳健的身体-面部检测。BPJDet作为主要检测器,独立预测身体和面部边界框,并通过计算内部IoU(定义为候选身体-面部对之间的交集与面部边界框面积之比)来关联它们。
在开发过程中,我们观察到BPJDet在存在干扰对象(例如,交通锥或机器人装置)时偶尔会产生假阳性,这对下游生物特征编码产生负面影响。为了缓解这个问题,我们引入了一个使用YOLOv8 [13]的验证步骤。具体而言,只有当YOLOv8也检测到置信度阈值为0.7的相应人体时,才会保留来自BPJDet的检测结果。此交叉验证步骤可显著减少假阳性,而不会影响召回率。在进行人体-面部检测之后,使用我们下文描述的PSR-ByteTrack跟踪器,在各个帧中对对象进行时间关联。
吞吐量优化。虽然BPJDet和YOLOv8的朴素集成是准确的,但由于冗余的预处理,引入了计算瓶颈。两种检测器共享相似的输入转换,导致冗余的CPU操作和次优的GPU利用率。为了解决这个问题,我们实现了两个关键的优化:(i)一个统一的预处理流程,以消除检测器之间的共享步骤;(ii)一个GPU高效的流程,从而减少CPU负载。这些改进在单个GPU上实现了5倍的吞吐量提升,而没有影响检测精度。
3.2.2 人员跟踪
对于多目标跟踪,我们以ByteTrack算法[14]为基础,该算法采用两阶段关联机制——首先关联高置信度检测结果,然后关联低置信度检测结果。虽然ByteTrack在一般条件下表现良好,但我们观察到其在远距离监控设置中存在两个主要限制:(i)遮挡期间频繁的ID切换,以及(ii)当重新识别暂时离开并重新进入场景的主体时,出现碎片化的轨迹。为了解决这些问题,我们引入了基于块相似性检索的ByteTrack(PSR-ByteTrack),这是一个基于块的后处理框架,它使用基于外观的重识别来改进ByteTrack的输出。
图 3:FarSight 中多目标检测和跟踪的概述。一种双检测器方法结合了用于身体-面部定位的 BPJDet [12] 和用于抑制假阳性的 YOLOv8 [13]。然后使用 PSR-ByteTrack [14] 跨帧关联检测到的目标,该方法通过基于补丁相似性的检索和轨迹 ID 校正来改进 ByteTrack 的输出。这确保了在遮挡、目标重入和远距离退化情况下的持续跟踪。
如图3所示,我们维护一个补丁记忆库,其中每个条目对应于一个跟踪ID,并包含来自身体补丁的ResNet-18 [55]编码的特征。流程如下:(i)使用身体检测从ByteTrack获得初始轨迹。(ii)对于每个新的检测,如果关联的跟踪ID在记忆库中尚不存在,则我们存储其补丁特征。(iii)每隔
N
帧,追加新的补丁以考虑时间外观变化。(iv)对于每个传入的补丁,我们计算与记忆库中存储的特征的均方误差(MSE),并分配具有最低误差的跟踪ID,前提是相似度超过预定义的阈值。(v)与所有现有条目的相似度较低的检测被视为新对象,并分配新的ID。
3.3 识别感知视频修复
3.3.1 大气湍流建模与仿真 大气湍流造成的图像退化是远程人脸识别中的一个关键挑战,它引入了空间和时间上变化的模糊。这种失真的严重程度受到传播距离、相机参数和湍流强度的影响 [56],[57]。为了训练在这种条件下具有鲁棒性的模型,我们使用基于泽尼克多项式湍流模拟的无退化图像对进行合成 [33],[58],[59],应用于静态 [60] 和动态 [61] 场景 [62]。我们的模拟涵盖了一系列湍流强度(例如,D/r0 ∈ [1, 10]) 和相机配置(例如,f-数、传感器尺寸),提供了与 FarSight 真实世界采集对齐的各种训练数据。
3.3.2 GRTM网络和选择性恢复 为了增强严重大气畸变下的面部图像,我们设计了一种高效的门控循环湍流缓解(GRTM)网络,该网络基于最先进的视频湍流缓解框架DATUM [40]。为了提高效率和鲁棒性,我们移除了[40]中的光流对齐,因为它需要大量的计算资源,并且可能会引入伪影,从而损害下游的识别任务。为了进一步减少恢复伪影可能造成的负面影响,我们采用了一个在真实视频及其恢复对上训练的视频分类器,以指示恢复是否可能提高识别性能。
3.3.3 恢复与识别的协同优化 传统的恢复模型通常优化通用的视觉指标(例如,PSNR、SSIM),这些指标与生物识别的目标不一致,并且可能会产生改变身份的幻觉特征。为了克服这个问题,我们提出了一个恢复-识别协同优化框架,如图4所示。该框架采用教师-学生配置,其中冻结的教师模型提供高质量的视觉参考,而学生模型经过微调,以共同优化视觉保真度和身份保持。
形式上,此协同训练过程的组合优化目标定义如下:
其中Ldistill是蒸馏损失,通过最小化教师和学生修复模型输出之间的距离来保持原始的修复能力,从而有效地保持修复图像的视觉质量和真实感。同时,Ladaface[21]将特定于生物特征的人脸分类损失引入到协同训练过程中。该组件明确地引导修复模型增强有助于提高身份区分能力的面部特征。
所提出的联合优化策略使得每个恢复和对齐的帧都能在视觉质量和身份保持方面得到评估。通过迭代反馈,恢复模型学习优先考虑对准确生物特征识别至关重要的视觉特征,同时抑制可能引入歧义或身份漂移的细节。与强调感知吸引力的传统方法相比,我们的方法确保恢复不仅在视觉上连贯,而且还经过优化以提高识别性能。
3.4 基于大型视觉模型的增强型生物特征编码
3.4.1 面部
传统的面部识别模型通常难以提取有意义的面部特征,特别是由于它们依赖于正确对齐的面部图像。为了解决这一局限性,我们引入了关键点相对位置编码(KP-RPE)[15]机制,该机制直接操纵视觉Transformer(ViT)模型中的注意力机制。通过编码面部关键点的相对位置,KP-RPE增强了模型对未对齐和未见几何仿射变换的鲁棒性。
相对位置编码 (RPE)。相对位置编码 (RPE) 最早于 [63] 中提出,并在 [64]、[65] 中得到改进,它对序列相对位置信息进行编码,以增强自注意力机制。与绝对位置编码不同,RPE 考虑输入元素之间的相对空间关系,使其特别适用于视觉和语言任务。改进的自注意力机制将相对位置嵌入 RQ ij、RK ij和 RV ij纳入查询-键交互中,其中每个 Rij都是一个可学习的向量,用于编码第 i 个查询和第 j 个键或值之间的相对距离。这些嵌入允许基于序列相对距离而不是固定位置来调整注意力分数。已经探索了各种距离度量,例如量化的欧几里得距离。来计算这些关系 [66]、[67]。
图 4:所提出的恢复-识别协同优化框架的训练流程。孪生模型和我们的人脸识别模型之间的蒸馏损失有助于我们定义人脸识别模型的损失。如图所示,并非所有帧都可能有检测结果,只有具有检测结果的帧才会在 Ladaface中使用。
关键点相对位置编码(KP-RPE)通过将关键点信息纳入位置偏置矩阵 Bij中,从而改进了传统的RPE。矩阵 Bij被定义为关键点的函数:Bij = F(P)[d(i, j)],而不是使距离函数 d(i, j) 显式地依赖于关键点,因为这会由于预计算约束而限制效率。函数 F(P) 将关键点转换为可学习的偏移表,确保注意力机制能够根据关键点相关的关系进行调整。最终的公式通过允许偏移函数相对于查询-键位置和关键点,从而增强了标准RPE。这使得RPE能够依赖于图像内容的位置,从而使模型对不对齐具有鲁棒性。在图 5 中,我们提供了KP-RPE的说明。
3.4.2 步态
传统的步态识别方法主要依赖于由监督学习驱动的多个上游模型来提取显式的步态特征,例如轮廓和骨骼点。我们打破了这一趋势,推出了BigGait [16] 方法,该方法利用强大的大型视觉模型 (LVM) 生成的通用知识来取代传统的步态表示。如图 6 所示,我们设计了三个分支,以无监督的方式从 LVM 中提取与步态相关的表示。这种前沿的步态方法在域内和跨域评估中均实现了最先进的性能。
图 5:关键点相对位置编码 (KP-RPE) 的说明 [15]。在标准 RPE 中,注意力偏移偏差是基于查询
Q和键 K之间的距离计算的。在 KP-RPE 中,RPE 机制通过结合面部关键点位置得到进一步增强,从而使 RPE 能够动态调整到图像的方向和对齐方式。
BigGait 并行处理输入 RGB 视频的所有帧。为了保持准确的身体比例,它应用了一种 Pad-and-Resize 技术,在将每个检测到的身体区域输入到上游模型之前,将其调整大小为 448 × 224 像素。上游 DINOv2 [68] 是一个可扩展的 ViT 主干网络,选择 ViT-S/14 (21M) 和 ViT-L/14 (302M) 用于 BigGait-S 和 BigGait-L。调整大小后的 RGB 图像被分割成 14 × 14 的图像块,从而产生维度为 32 × 16 的标记化向量。如图 6 所示,
f1、f2、f3和 f4 是由 ViT 主干网络的各个阶段生成的特征图,其对应的语义层次结构从低到高。我们将这四个特征图沿通道维度连接起来,形成 fc。形式上,特征图 f4和 fc通过 MaskAppearance 和 Denoising 分支进行处理。
掩码分支。此分支充当一个自编码器,生成前景掩码以使用 f4:抑制背景噪声。
其中E和D表示线性卷积层,其卷积核大小为1 × 1,输出通道的维度分别为2和384。然后,使用前景掩码m来屏蔽fc中的背景区域,从而产生前景分割特征fm:
其中“·”表示乘法运算符。
外观分支。该分支从fm:中提取身体形状特征。
图 6:BigGait [16] 的工作流程。我们采用 DINOv2 [68] 作为上游模型来生成特征图:
f1、f2、f3、f4,这些特征图来自 ViT 主干网络的不同阶段,具有从低到高的语义层级结构。步态表示提取器 (GRE) 包含三个分支,分别用于背景去除、特征转换和去噪。改进的 GaitBase 用于步态度量学习。
其中 Eap是一个线性卷积层,具有 1 × 1 的卷积核和 C的输出通道维度。
去噪分支。为了抑制高频纹理噪声并获得类似骨骼的步态特征,该分支采用了平滑度损失
Lsmo和多样性损失Ldiv。具体而言,平滑度损失为:
其中Ede包含一个非线性块,该块由一个1 × 1卷积、批归一化、GELU激活以及随后的另一个1 × 1卷积组成。多样性损失为:
其中fdei表示第i个通道的激活图,而pi是第i个通道的激活比例,相对于所有通道的总激活。常数项
(logC)表示最大熵,包含该项是为了防止负损失。最后,我们使用注意力权重融合fap和fde
其中Attn是一个注意力模块,遵循[69],并且ffusion将被送入GaitBase [22]。
3.4.3 身体形态
为了克服诸如衣着和颜色等基于外观的属性的局限性,我们引入了 CLIP3DReID [17],这是一种显著增强人体形状特征编码的新方法。如图 7 所示,该方法利用预训练的 CLIP 模型进行知识蒸馏,整合语言描述与视觉感知,以实现稳健的行人识别。CLIP3DReID 自动使用语言描述符标记人体形状,采用最优传输来对齐局部视觉特征与来自 CLIP 语言输出的形状感知令牌,并将全局视觉特征与来自 CLIP 图像编码器和 3D SMPL 身份空间的特征同步。这种整合在行人重识别(ReID)中实现了最先进的结果。
图 7:所提出的 CLIP3DReID [17] 概述,其由基于 CLIP 的语言身体形状标注、来自 CLIP 的双重蒸馏以及 3D 重建的正则化组成。将这三个模块整合到行人 ReID 框架中,使我们能够学习具有区分性的身体形状特征。
形式上,对于每个包含B个训练样本的小批量数据,记为{(Ii, yi, Li)}B i=1,输入包括人体图像Ii,图像的身份标签yi,以及一组描述体型的语言描述符Li。我们将预训练且冻结的CLIP教师文本和图像编码器分别表示为EL和EI。我们优化的重点是学生的视觉编码器,表示为E。
源于CLIP的双重提炼。CLIP3DReID采用了一种双重
CLIP模型文本和图像组件的蒸馏方法。这涉及到使用最优传输对齐学生编码器的视觉特征与CLIP生成的语言描述。这种对齐优化了学习过程,使学生编码器能够内化领域不变的特征,这些特征对于在不同条件下保持一致的识别性能至关重要。
图 8:所提出的开放集损失 [18] 的可视化。Rτdet 的情况如图顶行所示,阈值由非匹配样本
nj 确定。梯度 ∂Lopen/∂pi 在其与图库 gi的距离和与 nj的距离相似时具有最大幅度。对于相对阈值最小化,如图底行所示,随着非匹配样本 n2远离图库,其梯度减小。而 n1保持在相同位置,其梯度增加,因为它比 n2更接近 gi。关于真值分数的梯度适应于非匹配分数,而关于非匹配分数的梯度适应于其他非匹配分数。
3D重建正则化。如图7所示,我们采用了一种新颖的3D重建正则化方法,该方法利用从SMPL模型导出的合成人体形状。该技术强调学习跨不同领域的不变特征,从而显著提高我们模型的泛化能力。合成网格图像及其生成的语言描述符用于进一步完善模型辨别和重建精确人体形状的能力
3.4.4 开放集搜索
如图8所示,我们处理三种类型的错误:(1)未能以阈值τ检测到已配对的探针,(2)未能在前r个位置中识别出已配对的探针,以及(3)为未配对的探针分配了非常高的相似度分数。
此损失会惩罚检测和识别方面的失败。(3)相对阈值最小化。为了减少假阳性,我们使用其加权平均值来惩罚较高的未配对分数:
其中λ控制着权衡。这种表述使优化与开放集评估相一致,从而降低阈值,并利用非匹配的分数幅度进行稳健的特征学习。
为了优化模型以区分评估过程中图库中的近距离数据和探测中的远距离数据,我们对三元组损失进行如下修改。在标准三元组损失中,近距离和远距离数据都可以作为锚点、正样本和负样本。我们对此进行了调整,限制近距离数据仅作为锚点,而远距离数据则专门用作正样本和负样本。
3.5 质量引导的多模态融合
后续完善内容