自动驾驶大模型---聊一聊特斯拉的FSD端到端系统
1 前言
众所周知,特斯拉是自动驾驶量产领域的强者,在2025年6月底,特斯拉交付的汽车自动驾驶到用户家,并且也开始逐步营运RobotTaxi。
特斯拉FSD在近几年掀起了自动驾驶的热潮,先后引领了多项技术的落地,笔者在之前的博客《自动驾驶---Tesla的自动驾驶技术进化史(Perception&Planning)》已经详细描述过特斯拉转向端到端之前的技术迭代路线,但2023年以后,特斯拉没有再进行AI Day的活动,因此很多关于端到端的技术并没有公开。
很多对自动驾驶感兴趣的读者,对特斯拉之后的技术更迭还是非常感兴趣的,包括笔者自己。随着笔者对行业技术的跟踪逐渐深入,综合特斯拉用户放出的测试视频,笔者尝试对特斯拉的端到端技术进行一定程度的剖析,不妥之处,欢迎讨论。
2 一般端到端方案
在传统的感知-规划-控制框架里,感知的目的是全量化尽可能多的获取精确的场景感知信息,让规划模块能有完备的输入以得出好的规划结果。这是由于传统框架模块化的设计使得感知无法获得规划的需求,所以只能尽可能多的提取有效信息给下游模块使用。
在笔者之前介绍的端到端中,不少方案使用的是如下的形式:
那比如最近比较热的VLA(理想和小鹏之后会落地),其中的中间部分(BEV/OCC Features)主要被VLM代替。
《自动驾驶大模型---理想汽车下一代MindVLA大模型》
《自动驾驶大模型---小鹏汽车VLA大模型》
目前主流的端到端方案也大都延续了这一思路,无非是把Box,Map这些信息换成query来表征,把原来的各种感知任务当成auxiliary loss加进来进行监督。
但有一个问题,很多人都忽略了,不同的人驾驶风格是迥异的。
比如Planning任务不同于检测任务的唯一性,是多模态的。面对前面慢行的三轮车,张三会选择慢速跟车,李四会选择加速换道超车,这俩行为都是合理正确的,但采集的车辆数据却只有一条真值,该如何监督呢?这也从侧面说明了,当前很多评测集去计算ADE / FDE等开集指标的不合理性。
笔者认为自动驾驶最终形态,是希望车辆能够根据用户的驾驶习惯,而生成一套符合用户驾驶特征的端到端系统(这种模式难度比较大,代价也比较大,因此符合大多数用户的驾驶习惯是当前最优解)。
3 特斯拉的端到端
特斯拉的 FSD(Full Self-Driving)端到端(End-to-End) 系统是其技术迭代的结果,尤其是从 FSD V12 开始,特斯拉彻底转向了基于纯视觉和端到端神经网络的架构。
3.1 FSD端到端
-
传统自动驾驶架构
传统系统采用 模块化设计(感知→规划→控制),每个模块独立开发(如目标检测、预测决策、路径规划),根据不同的ODD,设计不同的策略。缺点是模块间误差累积、难以应对复杂场景、迭代效率低。 -
FSD端到端
-
通用定义:端到端架构通过 单一神经网络 直接处理从传感器输入(摄像头)到车辆控制输出(转向、加速、制动)的完整流程,无需人工定义中间步骤。
-
实际定义:端到端架构通过 单一神经网络 直接处理从传感器输入(摄像头)到车辆轨迹输出的完整流程,后续增加一个轨迹跟踪控制器即可。笔者目前更认可这个方案,因为考虑到不同车型之间的控制差异较大。
-
核心思想:模仿人类驾驶的“直觉”,通过海量真实驾驶数据训练神经网络,让系统像人类一样“看路→思考→操作”。
-
3.2 FSD实现原理
-
数据驱动
-
依赖 数百万辆特斯拉车辆 收集的实时驾驶数据(包括极端场景和长尾问题)。
-
通过 影子模式(Shadow Mode) 持续验证模型决策,不断优化。
-
-
整体模型架构
-
输入
-
视觉信息:8个摄像头的原始视频流(360°覆盖)。
-
定位信息:组合导航定位信息。
-
地图信息:导航标准地图或者高精地图。
-
-
神经网络
-
视觉编码器:提取图像特征(如道路特征,车辆、行人等障碍物)
-
时空融合:通过 Transformer 模型融合多摄像头、多帧时序信息,构建3D矢量空间(Vector Space),输出一系列query。注意:这里Transformer 模型表述不够准确,应该是这个中间环节的模型里,包含Transformer 等,肯定也不局限于Transformer ,可能还包括其它结构。(笔者依据特斯拉对于异型障碍物(树枝、山路杂草等)的避让,推断该部分的结构一部分继承了此前的Occ网络)
-
轨迹解码:依据中间模型输出的query,解码输出自车未来一段时间内的轨迹(无需中间感知预测决策代码)。
-
-
控制器:依据上游的轨迹,轨迹跟踪控制器输出方向盘转角、油门、刹车等控制信号。
-
输出:车辆控制指令(如方向盘转角、车速等)。
-
整体框架如下图所示:
-
训练方式:
使用 监督学习 + 强化学习,通过海量真实驾驶视频(带驾驶员操作标签)训练模型,使其学会从场景到动作的映射。
3.3 专利信息
虽然特斯拉的专利发布也有几年时间了,但大概能看出一点点苗头。首先是基于一个视觉机器学习模块输出障碍物,交通标志等信息。
下面这张图,说明针对VRU和非VRU做了特殊处理。在很多网友特斯拉测试视频中确实看到对行人的处理比较保守(相对国内其它厂商而言)。
3.4 实际表现
-
测试进展:
-
FSD V12已在北美广泛测试,部分用户报告其在城市道路、无保护左转、环岛等场景表现接近人类驾驶员。
-
马斯克称V12版本已“几乎无需人工接管”,但实际仍需驾驶员保持注意力。
-
FSD中国版本,目前由于数据原因,存在不遵守交通规则的现象,但其它能力还是优秀的。
-
-
版本特点:
《自动驾驶---Tesla FSD Version 13》
《自动驾驶---Tesla FSD Version12》
- 其它高光时刻(图片来自B站网友)
在之前的博客中,笔者介绍过,其他品牌在雪覆盖的路面(参考电动知士的测试视频)以及曲率比较大的山路上,接管率非常高,但是从市面上看到特斯拉的视频,在雪路以及山路的表现是非常出色的。
3.5 FSD V14
随着FSD V13.2.6 持续推送至配备AI4硬件的车辆,自两个多月前FSD V13版本推出以来,特斯拉一直在对其完全自动驾驶(FSD)功能进行一系列小幅度的改进。 FSD V13版本带来了一系列新功能,包括从停车位启动FSD、倒车以及在目的地泊车。它还引入了使用AI4摄像头以36赫兹频率进行的全分辨率视频输入,并利用新的Cortex超级计算机实现了更快、更精确的决策。
FSD V14版本的突出特点将是自回归Transformers(auto-regressive transformers)。
-
自回归(Auto-Regressive)
自回归Transformers会及时处理序列数据,并利用这些信息,根据之前的数据来预测未来的数据元素。想象一下完成一个句子的过程:你会根据已经写下的单词来猜测接下来的内容。这个过程不仅仅是填空,而是要理解句子的逻辑连贯性,并推测说话人的意图。 FSD系统可以分析一系列的摄像头图像,以识别行人,并根据他们当前的移动情况和周围环境来预测他们可能的行走路线。该系统的自回归特性使其能够从过去的序列数据中学习,并随着时间的推移改进其预测能力,从而适应不同的驾驶场景。 如今,FSD会对所看到的情况做出反应,但很快它将能够像人类一样,预判哪些信息会有所帮助。
- Transformers
Transformers是一个用于理解时间序列内元素之间关系的组件。它能识别输入中哪些部分对于做出准确预测最为关键,从而使系统能够像人类一样对信息进行优先级排序。可以把它想象成权衡不同的证据以得出结论。例如,在预测车辆变道时,变换器可能会认识到闪烁的转向灯比汽车的颜色更重要。 归根结底,FSD将能够通过做出更明智、更像人类的决策来做出更好的决策并规划行驶路线。这将是对已经具备一些非常有效决策能力的V13版本的一大改进。
- 更大的模型和上下文规模
特斯拉的人工智能副总裁阿肖克·埃卢斯瓦米(Ashok Elluswamy)表示,FSD V14版本的模型和上下文规模将会更大,而这恰好也列在了FSD V13.2.6版本即将推出的改进部分中。如果我们将阿肖克所说的内容与即将推出的功能部分中列出的内容进行对比,模型和上下文规模应该会扩大3倍。 有趣的是,阿肖克表示,AI4的内存限制了上下文规模。上下文本质上是车辆所记忆的历史信息,这些信息会被用于未来的决策。由于这些信息是存储在内存中的,所以它总是会受到内存的限制,但值得注意的是,阿肖克提到特斯拉受到AI4计算机内存的限制。
- 利用音频输入
特斯拉已经在现有FSD版本中收集音频数据,以便也能开始用音频数据来训练模型,真正让FSD更具人性化。据阿肖克称,FSD V14将是首个在FSD驾驶中利用音频输入的版本。这主要将用于检测紧急车辆,但我们可以预见,这一功能会扩展到其他有助于人类调整驾驶行为的声音,比如车祸声、巨大声响、汽车喇叭声等等。至少,当FSD听到与事故或汽车鸣笛相匹配的声音时,它可以更加谨慎地驾驶。
3.6 行业影响
-
技术路线争议:
-
特斯拉的端到端方案挑战了行业主流(Waymo、Cruise等依赖高精地图+激光雷达)。
-
其他车企(如小鹏)开始探索类似架构(纯视觉)。
-
-
长期目标:
特斯拉计划将FSD技术扩展至 Robotaxi(自动驾驶出租车) 和 Optimus人形机器人,构建全自动驾驶生态。
4 总结
特斯拉的端到端FSD代表了自动驾驶领域的一次范式革命,其核心是通过数据驱动和AI泛化能力替代传统规则代码。尽管面临技术、法规和伦理挑战,但其迭代速度和实际表现已展现巨大潜力。未来,随着数据积累和算法优化,端到端架构将会成为自动驾驶的主流方向,重新定义人车关系和交通系统的运作方式。