Cosmos
Cosmos拥有非常强大的性能和充足的数据量,
核心包括了4个部分
Autoregressive Model
Diffusion Model
Video Tokenizers
Video Processing and Curation Pipeline
本次介绍内容主要是NVIDIA Cosmos世界基础模型如何通过物理级AI仿真技术赋能汽车行业,Cosmos这是 NVIDIA推出的一个基于 AI 的仿真平台,结合了生成式 AI、物理引擎和合成数据技术等,用于构建接近真实的虚拟世界来实现自动驾驶的仿真测试。Cosmos具备对物理世界的抽象和模拟能力(类似 AI 领域的“World Model”概念),可动态生成符合真实物理规律的场景(如车辆运动、光线变化、天气效果等)。
在仿真系统中获得数据的意义在于成本具有很大的优势,真实世界中获取数据的成本非常高昂,并且真实世界中完成如AEB和AES等测试非常危险,并且成本高昂。而Cosmos世界基础模型可以很好地解决这些问题。
Cosmos世界基础模型的数据策略、训练资源和技术规模都相当夸张,输入数据量:2000 万小时视频 + 9000 万亿输入 token(可能包含文本、传感器数据等多模态输入);算力资源:10000块NVIDIA H100 GPU(基于 Hopper 架构,专为AI训练优化),通过 NVIDIA DGX Cloud(云端超算平台)完成训练,该平台具备大规模分布式计算能力。
训练时长:2000+小时。
数据构成模型训练数据来源的多样性及其占比:
自然动态(Nature Dynamics):20%
模拟天气、光照、植被等自然环境变化。
人类运动与物体操控(Human Motion & Object Manipulation):16%
行人、驾驶员行为等交互场景。
空间感知与导航(Spatial Awareness & Navigation):16%
道路结构、交通标志、多视角地图数据。
驾驶场景(Driving):11%
车辆轨迹、复杂路况(如拥堵、突发事故)。
动态摄像机运动(Dynamic Camera Movements):8%
模拟车载摄像头抖动、视角切换。
第一人称视角(First Person POV):8%
驾驶员或行人视角数据。
合成渲染(Synthetically Rendered):4%
通过 Omniverse 生成的 3D 合成数据。
其他(Other):7%
特点:
高度多样化,覆盖真实世界长尾场景(如极端天气、罕见事故)。
依赖合成数据(如 Omniverse 生成)弥补真实数据不足。
Cosmos世界基础模型可供各种智能驾驶模型训练,构成一套蒸馏系统,通过大容量的基础模型给小容量的落地部署模型提供更加soft的标签,从而获取到更加准确和鲁棒的知识。
基于世界基础模型的蒸馏系统结构如下:
Digital Twin(数字孪生):通过数字化手段模拟物理实体或系统的技术,实现虚实交互。
Physical AI Foundation Model(物理AI基础模型):支撑数字孪生的核心AI模型,整合了物理规律与数据驱动的方法。
关键组成部分
Sensor Tokens(传感器令牌):代表从物理世界(Real World)采集数据的传感器输入,通过Cosmos等模块实现数据传递。
Action Tokens(动作令牌):数字孪生对物理世界输出的控制或反馈指令,形成闭环。
技术流程
Closed Loop Training & Simulation(闭环训练与仿真):通过持续迭代优化模型,中文标注提到包括:
模型蒸馏(Model Distillation):简化复杂模型以提高效率。
合成数据生成(Synthetic Data Generation):补充真实数据不足的问题。
目标 实现物理世界与数字模型的实时交互与动态优化,可能应用于工业、自动驾驶等领域。
通过对每个像素分类来指导Cosmos,能够实现像素级的信息输出。
Cosmos Transfer是Cosmos世界基础模型的核心功能之一,专注于单控制输入(Single Control)下的场景生成与迁移。通过单一控制参数(如天气、光照、道路类型等),快速生成高度逼真的仿真场景,用于自动驾驶算法的训练和测试。
技术亮点:
高效性:单控制输入简化了场景配置流程,适合快速生成特定条件下的仿真环境。
灵活性:虽然基于单一控制,但支持与其他模块(如多控制输入)结合,扩展场景多样性。
逼真性:生成的场景具有物理级精度,贴近真实世界。
Cosmos Transfer输入:仅需 单一数据源(如高清地图HD Map),即可生成多种复杂场景。Cosmos Transfer的输出基于同一输入,动态生成不同环境条件的仿真结果,例如:天气变化:白天、雾天、雪天;时间与天气组合:夜间雨天的组合等。NVIDIA 通过高精度仿真技术模拟真实世界的物理规律(如车辆动力学、传感器数据、环境交互),为自动驾驶系统提供逼真的训练和测试环境,目标是降低自动驾驶开发的实车测试成本,加速算法迭代,并覆盖极端场景(如恶劣天气、复杂交通流)。
技术亮点:
高效性:无需为每种场景单独建模,显著提升数据生成效率。
多样性:覆盖极端或罕见场景(如暴雪、浓雾),解决真实数据不足的问题。
一致性:所有输出基于同一输入,确保场景结构(如道路布局)的物理合理性。
Cosmos Transfer可以用于机器人领域的数据生成,Structural Conditioning For Controlled Photoreal World Generation是指通过结构化条件控制,生成高度逼真(Photorealistic)的虚拟世界,用于机器人(如自动驾驶车辆)的仿真训练。Cosmos Transfer支持多模态输入控制(如场景参数、天气条件、交通流等),动态生成多样化仿真场景。
技术亮点:
Cosmos Transfer:是NVIDIA的专有技术,实现真实世界数据到虚拟环境的迁移,如将真实路况数据转化为仿真场景。
Photoreal Video:生成逼真视频流,用于视觉算法的训练和验证。
Cosmos Transfer的应用场景有:
自动驾驶开发:
在虚拟环境中测试极端场景(如暴雨、夜间行驶),降低实车测试成本。
机器人训练:
为机器人提供高保真仿真环境,加速算法迭代。
合成数据生成:
补充真实数据不足的问题,解决AI模型训练的数据瓶颈。
Cosmos Transfer for AV:Cosmos Transfer将真实世界数据(如路况、传感器数据)迁移到虚拟环境中,实现“数字孪生”。
Photoreal Video:
生成逼真的视频流,用于训练自动驾驶的视觉感知算法(如目标检测、语义分割)。
自动驾驶训练与测试:
在虚拟环境中模拟极端场景(如暴雨、夜间、交通事故),无需实车冒险。
合成数据生成:
补充稀缺的真实数据(如罕见事故场景),解决AI模型训练的数据短板。
快速迭代验证:
通过仿真加速算法开发周期,减少对物理原型车的依赖。