通俗解读:Occupancy Network与端到端架构
1. Occupancy Network:汽车的“三维扫雷”能力
核心逻辑:把周围环境切成小方块(体素),每个方块标注“有障碍物”或“没障碍物”。
• 传统感知的痛点:
传统方法像用“框子”套物体(如车、人),但遇到翻倒的卡车、地锁、垃圾堆等不规则物体就失效。
• Occupancy的突破:
不管障碍物是什么,只要占用了空间就标记为危险。比如:
• 翻倒的公交车:特斯拉用Occupancy识别车头和车尾的运动状态(蓝色体素动,红色体素静)。
• 地锁:小米方案通过三维体素区分地锁开/关状态,避免BEV视角下高度信息丢失的问题。
通俗比喻:
像玩《我的世界》游戏,把世界切成小方块,车能“看到”每个方块是否被占据,哪怕是一堆形状乱七八糟的石头。
2. 端到端架构:让车像人类一样“凭直觉开车”
核心逻辑:从摄像头/雷达输入到方向盘/刹车输出,全交给一个“大脑”(AI模型)处理,省去中间步骤。
• 传统模块化架构:
分步骤处理:摄像头→识别物体→预测轨迹→规划路线→控制方向盘。就像工厂流水线,步骤多、耗时长。
• 端到端的优势:
• 更高效:特斯拉FSD V12用端到端模型,决策速度比Waymo快40%。
• 更灵活:遇到“鬼探头”,模型直接综合视觉和运动趋势决策,无需依赖预设规则。
通俗比喻:
传统方法像新手司机:先看后视镜→再看仪表盘→再打方向盘;端到端像老司机:眼睛看到路况,手脚直接反应。
3. 两者的关系:Occupancy是地基,端到端是建筑
• Occupancy为端到端提供“三维地图”:
端到端模型需要知道哪里有障碍物,Occupancy提供精确的3D空间占用信息。比如小米HAD用Occupancy生成动态环境模型,再让端到端模型规划路径。
• 端到端让Occupancy更智能:
传统Occupancy只标记障碍物位置,端到端模型还能预测障碍物运动趋势(比如行人下一秒会不会闯进车道)。
通俗总结:
Occupancy让车“看清世界”,端到端让车“思考如何行动”,两者结合才能实现真正的自动驾驶。
4. 未来趋势:成本与算力的博弈
• Occupancy的挑战:
计算三维体素需要大量算力,相当于同时播放100部4K电影。小米通过“超分矢量算法”压缩体素尺寸,成本降至激光雷达方案的1/10。
• 端到端的瓶颈:
需要海量数据训练,比如特斯拉用数百万辆车的影子模式收集数据,小公司难以复制。
行业共识:到2030年,Occupancy+端到端将成为L4级自动驾驶的标配,而传统感知模块将退化为备用系统。