当前位置: 首页 > news >正文

【论文精读】Back to Newton’s Laws:基于可微物理的视觉化敏捷飞行学习

标题:Back to Newton’s Laws: Learning Vision-based Agile Flight via Differentiable Physics

作者:Yuang Zhang†, Yu Hu†, Yunlong Song†, Danping Zou∗, Weiyao Lin∗

单位:上海交通大学

发表:2024(arXiv:2407.10648v2)

论文链接:https://arxiv.org/pdf/2407.10648v2

视频演示链接:https://youtu.be/LKg9hJqc2cc

关键词:视觉化飞行,空中机器人,可微物理,群体导航,无里程计飞行,高速避障,低成本硬件部署


一、研究背景与领域痛点

1.1 无人机导航的核心需求与挑战

现代空中机器人需在动态、未知环境中执行复杂任务,从森林搜救、电力巡检到物资配送,均要求其在有限传感与计算资源下实现高速、稳健的自主导航。然而,现有方法在鲁棒性、灵活性与可扩展性上存在明显短板:

  • 高动态场景适配难:高速飞行时(如超过 10 m/s),传统定位与地图构建易出现帧间特征匹配失效,导致状态估计漂移。
  • 多智能体协作成本高:现有群体导航多依赖通信或集中式规划,在无信号、高干扰环境(如深山、废墟)中难以部署。
  • 硬件与计算门槛高:主流方案依赖 GPU 或高精度传感器(如 UWB 定位),硬件成本常超过 400 美元,限制大规模应用。

1.2 现有方法的局限性

当前无人机导航技术主要分为两类,均存在难以克服的缺陷:

(1)传统映射规划方法

这类方法将导航拆解为定位→建图→规划→控制四个串联步骤,典型代表如 Ego-Planner、Fast-Planner。

  • 优势:在低速、结构化环境中(如实验室)精度高,已应用于火星探测、森林巡检等场景。
  • 缺陷:
    1. ** latency 累积 **:串联流程导致端到端延迟高,高速飞行时(>5 m/s)易因 “感知 - 决策 - 控制” 脱节引发碰撞。
    2. 计算成本高:建图(如 ESDF 地图)与定位(如 VIO)占用大量 CPU/GPU 资源,Ego-v2 系统中定位模块的 CPU 占用甚至超过其他模块总和。
    3. 动态环境适配差:地图更新速度无法跟上障碍物运动(如突然出现的行人、摆动的树枝),易出现规划失效。
(2)基于学习的方法

这类方法通过数据驱动学习端到端策略,主要分为强化学习(RL)与模仿学习(IL):

  • 强化学习:如基于 PPO 的无人机竞速方法,通过大量轨迹采样优化策略。
    • 缺陷:样本效率极低,需数十万次仿真迭代,且对复杂视觉输入(如深度图)的处理能力弱。
  • 模仿学习:如 Agile 方法,通过专家轨迹(如最优控制器生成)训练模型,直接映射深度图到控制指令。
    • 缺陷:
      1. 泛化性差:依赖专家演示的质量与覆盖度,在未训练过的环境(如从森林切换到城市)中成功率骤降。
      2. 灵活性低:专家策略针对特定任务设计(如固定速度避障),无法自适应调整速度或应对群体协作需求。
      3. 硬件依赖:需 GPU 加速推理,硬件成本高,难以部署在微型无人机上。

1.3 研究核心突破点

本文提出 “可微物理驱动的端到端学习” 范式,核心思路是:不将物理模型视为 “黑盒”,而是通过可微仿真将牛顿力学规律融入策略优化,直接从视觉输入(深度图)输出控制指令。这一范式解决了三大关键问题:

  1. 效率:利用物理梯度实现一阶优化,样本效率比 RL 高 10 倍,训练时间从数天缩短至小时级。
  2. 泛化性:基于简单点质量模型与抽象障碍物训练,却能零样本迁移到真实森林、城市环境。
  3. 低成本:策略可在 21 美元的 ARM 电脑(Mango Pi)上实时运行,硬件成本仅为现有方案的 5%。

二、核心方法:可微物理与端到端策略设计

核心架构围绕 “可微物理仿真→物理驱动损失函数→时序梯度衰减→轻量化网络” 四个模块展开,实现从视觉感知到控制输出的端到端优化。

2.1 问题建模:导航即优化问题

首先将无人机导航抽象为离散时间动态系统优化问题,定义关键变量与目标:

  • 状态空间x_k = [p_k, v_k],其中 p_k 为位置,v_k 为速度(点质量模型简化)。
  • 控制输入u_k 为推力加速度向量(含大小与方向,对应无人机的升力与姿态)。
  • 观测输入o_k = [depth_k, att_k],其中 depth_k 为深度图,att_k 为姿态(滚转、俯仰、偏航角)。
  • 策略模型:神经网络 \pi_\theta(o_k) = u_k,输入视觉观测,输出控制指令。
  • 优化目标:最小化总损失 \mathcal{L}_\theta = \sum_{k=0}^{N-1} l(x_k, u_k),通过梯度下降更新策略参数 \theta\theta \leftarrow \theta - \gamma \nabla_\theta \mathcal{L}_\theta,其中 \gamma 为学习率,\nabla_\theta \mathcal{L}_\theta 是通过可微仿真反向传播得到的策略梯度。

2.2 可微物理仿真:连接物理与学习的核心

传统仿真(如 MuJoCo、Flightmare)仅能输出状态轨迹,无法计算梯度;而可微仿真可直接将损失梯度从输出状态 x_k 反向传播至控制输入 u_k,进而更新策略参数 \theta。这是本文方法的核心创新。

(1)简化物理模型:点质量模型

为平衡仿真效率与真实性,论文未采用复杂的四旋翼刚体模型,而是用点质量模型近似无人机动力学:

  • 速度更新(梯形积分):v_{k+1} = v_k + \frac{a_k + a_{k+1}}{2} \Delta t

  • 位置更新(匀加速运动):p_{k+1} = p_k + v_k \Delta t + \frac{1}{2} a_k \Delta t^2其中 a_k 为加速度(由推力与空气阻力共同决定),\Delta t = 1/15\ \text{s}(与深度相机帧率同步)。

  • 关键设计理由

    1. 高效梯度计算:点质量模型的雅可比矩阵(\partial x_{j}/\partial x_{j-1})解析可求,避免数值微分的误差与耗时。
    2. 鲁棒泛化:忽略复杂的姿态动力学细节(如电机延迟、陀螺效应),反而降低仿真与现实的 “域 gap”,实现零样本迁移。
    3. 硬件适配:简单模型的推理速度快,可在低性能 ARM 芯片上实时运行(15 FPS 以上)。
(2)真实物理效应建模

为提升仿真真实性,论文补充了两项关键物理效应:

  1. 飞行控制器延迟:四旋翼的电机响应存在延迟(约 1/15 s),论文用指数移动平均建模:\eta(t) = \begin{cases}0, & t<\tau \\ \lambda e^{-\lambda(t-\tau)}, & t \geq \tau\end{cases}, 其中 \tau = 1/15\ \text{s}(固定延迟),\lambda = 12(平滑系数),通过真实飞行数据校准(如图 S1)。

注:(A)滚转响应、(B)俯仰响应、(C)推力响应:仿真曲线与真实无人机响应高度吻合,验证延迟模型的准确性。


2. 空气阻力:高速飞行时(>9 m/s)空气阻力不可忽略,论文用二次阻力模型:a_{drag} = -\theta_1 \|v\| v - \theta_2 v其中 \theta_1(二次项系数)与 \theta_2(一次项系数)通过网格搜索校准,确保仿真速度与真实飞行误差 < 0.5 m/s(如图 S2)。

注:(A)仿真速度与真实 GPS 速度对比;(B)不同阻力参数下的速度误差,红色区域为训练时采用的参数范围,确保鲁棒性。

2.3 物理驱动损失函数:引导策略学习

损失函数设计直接决定策略的行为偏好,论文提出由四部分组成的物理驱动损失,无需人工设计协作奖励或任务特定权重:

(1)速度跟踪损失 \mathcal{L}_v

确保无人机在避障的同时,跟踪目标速度(由当前位置与目标位置的方向决定):\mathcal{L}_v = \frac{1}{T} \sum_{k=1}^T \text{SmoothL1}\left( \|v_k^{set} - \bar{v}_k\|_2, 0 \right)其中 \bar{v}_k 是 2 秒滑动窗口内的平均速度,避免瞬时速度波动导致的控制震荡;v_k^{set} 是目标速度(大小不超过预设最大值,如 20 m/s)。

(2)避障损失 \mathcal{L}_c

基于无人机与障碍物的最近距离 d_k 和接近速度 v_k^c(沿障碍物方向的速度分量),设计分段惩罚:\mathcal{L}_c = \frac{1}{T} \sum_{k=1}^T v_k^c \left[ \max\left(1 - (d_k - r_q), 0\right)^2 + \beta_1 \ln\left(1 + e^{\beta_2 (d_k - r_q)}\right) \right]

  • 关键逻辑:
    • 当无人机远离障碍物(v_k^c \leq 0):惩罚为 0,不影响速度跟踪。
    • 当无人机接近障碍物(v_k^c > 0):距离越近(d_k < r_q + 1),惩罚越强,强制减速或转向。
    • 参数设置:\beta_1=2.5\beta_2=32(软边界函数,避免硬阈值导致的梯度突变),r_q 为无人机半径(约 0.15 m)。
(3)控制平滑损失 \mathcal{L}_a + \mathcal{L}_j

避免控制指令剧烈波动导致无人机失稳:

  • 加速度平滑:\mathcal{L}_a = \frac{1}{T} \sum_{k=1}^T \|a_k\|^2(惩罚过大推力变化)。
  • 加加速度(Jerk)平滑:\mathcal{L}_j = \frac{1}{T-1} \sum_{k=1}^{T-1} \left\| \frac{a_k - a_{k+1}}{\Delta t} \right\|^2(惩罚推力突变)。
(4)总损失加权

最终损失为四部分的加权和,兼顾速度、安全与控制稳定性:\mathcal{L} = \lambda_v \mathcal{L}_v + \lambda_c \mathcal{L}_c + \lambda_a \mathcal{L}_a + \lambda_j \mathcal{L}_j参数设置:\lambda_v=1\lambda_c=2(优先保证避障安全),\lambda_a=0.01\lambda_j=0.001(弱平滑约束,避免过度保守)。

2.4 时序梯度衰减:解决梯度爆炸问题

可微仿真的核心挑战是梯度爆炸:当梯度沿时间步反向传播时,远距离未来帧的梯度会累积放大(如 10 步后梯度可能扩大 10 倍),导致优化不稳定(如图 4A、B)。

注:(A)仿真计算图:状态沿时间步传递;(B)无衰减时梯度累积(g + 2g + 3g + ...),导致爆炸;(C)有衰减时梯度逐步减小(g + 2e^{-\alpha }g + 3e^{-2\alpha }g + ...),优化稳定。

(1)问题本质

无人机的感知范围有限(深度相机有效距离约 5-10 m),但未衰减的梯度会强制模型 “预测并避开” 10 秒后才会遇到的障碍物 —— 这既超出感知能力,又引入不必要的优化噪声。

(2)解决方案:指数梯度衰减

在反向传播时,对状态转移的雅可比矩阵乘以指数衰减因子 e^{-\alpha \Delta t},其中 \alpha=0.92(衰减率),\Delta t=1/15\ \text{s}(时间步)。修改后的策略梯度为:\frac{\partial \mathcal{L}_\theta}{\partial \theta} = \frac{1}{N} \sum_{k=0}^{N-1} \left( \sum_{i=0}^k \frac{\partial l_k}{\partial x_k} \prod_{j=i+1}^k \left( \frac{\partial x_j}{\partial x_{j-1}} e^{-\alpha \Delta t} \right) \frac{\partial x_i}{\partial \theta} + \frac{\partial l_k}{\partial u_k} \frac{\partial u_k}{\partial \theta} \right)

  • 效果
    1. 梯度随时间步呈指数衰减,10 步后梯度幅度降低至初始值的 30% 以下,避免爆炸。
    2. 强制模型聚焦 “近未来”(1-2 秒内)的障碍物,与深度相机的感知范围对齐(如图 4C、S3)。

注:(A)无人机接近障碍物的场景,感知范围(虚线)约 5 m;(B)无衰减梯度(蓝色)持续增大,超出感知范围;有衰减梯度(橙色)先升后降,与感知范围匹配。

2.5 轻量化网络架构:适配低成本硬件

为在 21 美元的 Mango Pi(1.5GHz A53 CPU,1GB RAM)上实时运行,论文设计了卷积循环神经网络(CRNN),兼顾特征提取与时序记忆:

(1)输入处理
  • 深度图:将 640×480 原始深度图反转(障碍物区域为高值)后下采样至 16×12,减少计算量。
  • 辅助信息:将目标速度、姿态角线性投影为 192 维特征,与图像特征拼接(可选加入速度估计,用于无里程计场景)。
(2)网络结构
  1. 卷积层:3 层轻量级 CNN(滤波器数量 32→64→128,核大小 2→3→3),步长 1,LeakyReLU 激活,提取深度图中的障碍物特征。
  2. 全连接层:将 CNN 输出展平后投影为 192 维特征,与辅助信息特征拼接。
  3. GRU 层:1 层 GRU(隐藏层维度 192),建模时序依赖(如障碍物运动趋势、无人机历史速度)。
  4. 输出层:全连接层输出两个结果 —— 期望推力加速度 u_k、当前速度估计(用于无里程计场景)。
  • 推理效率:单帧推理时间约 6.7 ms(15 FPS),CPU 占用率 < 30%,远低于模仿学习方法(如 Agile 需 20 ms/GPU)。

2.6 硬件系统:低成本、高敏捷性

论文设计的四旋翼硬件总重仅 365 g,成本控制在 200 美元以内(核心计算模块仅 21 美元),具体配置如下:

  • 机架与动力:Roma 3 英寸机架,GEMFAN 3 英寸螺旋桨,1606 3750KV 电机,推力重量比 3.6(支持高速机动)。
  • 飞行控制:Aocoda F7mini 飞控(定制 BetaFlight 固件),HAKRC 4in1 电调(支持高速电机响应)。
  • 感知模块:Intel RealSense D435i 深度相机(15 FPS,有效距离 0.1-10 m)。
  • 计算模块:Mango Pi 微型电脑(Cortex-A53 CPU,30×65×6 mm,11 g),集成在机身中层,形成 “3 层飞行塔” 结构(飞控→计算模块→相机)。

三、实验验证:性能与泛化性全面评估

论文通过真实环境测试仿真基准对比,从高速飞行、群体导航、无里程计飞行、硬件效率四个维度验证方法的优越性。实验设置与核心结果如下:

3.1 实验基础设置

  • 数据集与仿真环境
    • 训练集:自定义 CUDA 仿真环境,含平面、立方体、球体、圆柱体四种抽象障碍物,随机生成位置与尺寸,64 个环境并行训练。
    • 测试集:
      • 真实环境: dense 森林、城市公园、室内动态场景(含摆动门、移动障碍物)。
      • 仿真环境:Flightmare、AirSim,与 Ego-v2(传统方法)、Agile(模仿学习)、PPO(强化学习)对比。
  • 评价指标
    • 成功率:无碰撞到达目标区域(半径 1.2-5 m)的试验比例。
    • 飞行速度:GPS(室外)或动捕系统(室内)测量的平均速度与峰值速度。
    • 推理时间:单帧从输入到控制输出的耗时(硬件:Mango Pi/A100 GPU)。

3.2 关键实验结果

实验 1:复杂动态环境下的高速飞行

任务:无人机在真实森林、城市公园中,以 4-20 m/s 的目标速度避障,同时应对动态障碍物(如摆动的树枝、移动的轮子、关闭的门)。

结果(如图 5):

  • 成功率:在静态环境中(如森林、城市),目标速度 20 m/s 时成功率仍达 90%;动态环境中(如移动障碍物),成功率保持 80% 以上。
  • 飞行速度:森林中峰值速度达 20 m/s,是现有模仿学习方法(Agile,10 m/s)的 2 倍。
  • 泛化性:训练时仅用抽象障碍物,却能零样本迁移到真实场景,未见过的动态障碍物(如突然摆动的门)也能成功避开。
实验 2:无通信的群体自组织导航

任务:6 架无人机分为两组,从狭窄门的两侧出发,交换位置且无碰撞,不依赖任何通信或集中式规划(如图 6)。

结果

  • 成功率:10 次试验全部成功,无人机自主实现 “等待 - 跟随 - 避让” 的自组织行为(如图 6C):

    • 等待:当门被占用时,后到达的无人机悬停等待。
    • 跟随:形成单队列依次通过门,避免拥堵。
    • 避让:对向飞行时,主动后退给对方让路。
  • 与传统方法对比:与依赖 UWB 通信的 Ego-v2 相比,成功率(100% vs 95%)与任务完成时间(25 s vs 28 s)相当,但无需通信与全局定位。

  • 关键发现:群体协作行为并非人工设计,而是通过最小化个体避障损失自然涌现 —— 无人机将其他无人机视为移动障碍物,通过避障损失实现自发协调。

实验 3:无里程计(Odometry-free)飞行

任务:移除外部定位输入(如 VICON、VIO),仅用深度图与姿态角,测试无人机在 4-10 m/s 目标速度下的避障能力(如图 7)。

结果

  • 成功率:无里程计的无人机与使用 VICON 动捕的无人机成功率持平(90% 以上),远高于依赖 VIO 的无人机(60%,高速时 VIO 漂移导致碰撞)。

  • 速度稳定性:平均速度与目标速度偏差 < 0.5 m/s,证明 GRU 网络能通过历史控制与视觉信息隐式估计速度。

  • 意义:首次实现无需独立里程计模块的高速视觉导航,解决了传统方法中 VIO 高速失效的痛点,同时降低硬件成本(省去 VIO 传感器)。

实验 4:与主流方法的基准对比

任务:在仿真环境(Flightmare/AirSim)中,与传统方法(Ego-v2)、模仿学习(Agile)、强化学习(PPO)对比成功率、收敛速度与样本效率。

结果(如图 8):

  • 成功率:目标速度 20 m/s 时,本文方法成功率 90%,Ego-v2 为 10%,Agile 为 40%,PPO 为 30%(如图 8A-C、F)。
  • 收敛速度:训练 1k 迭代时,本文方法成功率达 100%,Agile 仅 20%(如图 8D)。
  • 样本效率:达到最大奖励所需样本量仅为 PPO 的 10%(如图 8E),因可微物理的一阶梯度比 RL 的零阶估计更高效。
  • 硬件效率:Mango Pi 上推理时间 6.7 ms,Agile 需 GPU(20 ms),Ego-v2 需 CPU(50 ms)。

3.3 消融实验:关键组件的必要性

论文通过消融实验验证核心设计的作用:

(1)时序梯度衰减的影响
  • 无衰减(BPTT):训练不稳定,目标速度 10 m/s 时成功率仅 40%,远低于有衰减的 90%。
  • 结论:梯度衰减是避免优化爆炸、保证高速飞行稳定性的关键。
(2)输入分辨率的影响
  • 高分辨率(128×96):训练时成功率高,但测试时因真实深度图噪声,成功率降至 70%(过拟合)。
  • 低分辨率(16×12):训练时成功率略低,但测试时鲁棒性强,成功率保持 90%。
  • 结论:低分辨率输入能缩小仿真与现实的 “感知 gap”,提升泛化性。
(3)物理模型简化的影响
  • 刚体模型(复杂):梯度计算耗时增加 3 倍,训练时间从 4 天增至 12 天,且仿真与现实 gap 更大,成功率降至 75%。
  • 点质量模型(简单):训练高效,成功率 90%。
  • 结论:简单物理模型反而能更好地平衡效率与泛化性,无需追求高保真仿真。

3.4 方法局限性

尽管性能优异,本文方法仍存在两点不足:

  1. 极端遮挡鲁棒性:当无人机快速运动导致大面积遮挡(如旋转时机身挡住相机),深度图缺失关键区域,可能出现 “幻觉” 避障(如误判空白区域为障碍物)。
  2. 长距离导航精度:无里程计场景下,长期飞行(>100 m)会因速度估计累积误差,导致目标位置偏移(误差约 5-10%)。

四、总结与未来方向

4.1 核心贡献

  1. 范式创新:提出 “可微物理驱动学习” 范式,将牛顿力学与深度学习结合,解决了传统方法 latency 高、学习方法样本效率低的问题。
  2. 性能突破
    • 速度:真实森林中 20 m/s 高速飞行,是现有方案的 2 倍。
    • 群体:无通信自组织导航,实现 “等待 - 避让” 自发行为。
    • 泛化:零样本从仿真迁移到真实场景,动态障碍物适应能力强。
  3. 工程价值
    • 低成本:21 美元计算模块,硬件成本仅为现有方案的 5%。
    • 低依赖:无需 GPS/VIO/ 通信,适用于无基础设施的极端环境。

4.2 未来研究方向

  1. 多模态感知融合:加入视觉惯性数据(IMU),提升极端遮挡场景下的鲁棒性。
  2. 任务自适应策略:扩展损失函数,支持更复杂任务(如目标跟踪、编队飞行)。
  3. 更大规模群体:探索 10 架以上无人机的协作,优化群体行为的效率(如减少等待时间)。
  4. 能量优化:在损失函数中加入能耗项,延长无人机续航时间(尤其适用于巡检、搜救任务)。
http://www.dtcms.com/a/507388.html

相关文章:

  • 中国空间站设计在轨飞行几年WordPress自定义图床
  • 依赖管理不卡顿!Nexus+cpolar构建企业级私有仓库访问通道
  • 中国建设银行网站用户桂林网站建设服务
  • 【面试】 Java中级开发工程师面试精选:深度问题与实战解析..
  • 投资理财学习笔记
  • 在openEuler 24.03 (LTS) 上配置 Python 开发环境教程
  • Claude Skill 编写最佳实践
  • 4D毫米波雷达MIMO天线阵列布局设计
  • Agent框架
  • 网站建设 岗位职责 智联设计wordpress页面模板下载地址
  • 网站建设专项检查中国建筑招聘信息
  • ADAPT论文阅读
  • 具身智能论文阅读:Nav-R1: Reasoning and Navigation in Embodied Scenes
  • MySQL JDBC Driver URL参数配置规范
  • python基础知识2
  • 如何做织梦手机网站网站被墙301怎么做
  • 网页网站原型图占位符怎么做凡客诚品为什么失败
  • 【初识数据库】索引
  • Linux服务器编程实践59-管道通信:pipe函数创建匿名管道的方法与使用
  • 容器化安装新玩法
  • JVM内存分配机制
  • 企业网站的基本内容有哪些首页排名关键词优化
  • Qt C++ 调用 YOLO / SAM2的方案
  • AD导出FPGA管脚的方法
  • 邯郸做网站的公司郴州建设网站公司
  • 基于 ComfyUI + Wan2.2 animate实现 AI 视频人物换衣:完整工作流解析与资源整合(附一键包)
  • wdaaw
  • 做个企业网网站怎么做西安注册公司虚拟地址
  • [Java数据结构与算法]详解排序算法
  • 工业级时序数据库选型指南:技术架构与场景化实践