当前位置：首页 > news >正文

Cosmos

news 2025/11/5 9:14:23

Cosmos拥有非常强大的性能和充足的数据量，

核心包括了4个部分

Autoregressive Model
Diffusion Model
Video Tokenizers
Video Processing and Curation Pipeline

本次介绍内容主要是NVIDIA Cosmos世界基础模型如何通过物理级AI仿真技术赋能汽车行业，Cosmos这是 NVIDIA推出的一个基于 AI 的仿真平台，结合了生成式 AI、物理引擎和合成数据技术等，用于构建接近真实的虚拟世界来实现自动驾驶的仿真测试。Cosmos具备对物理世界的抽象和模拟能力（类似 AI 领域的“World Model”概念），可动态生成符合真实物理规律的场景（如车辆运动、光线变化、天气效果等）。

在仿真系统中获得数据的意义在于成本具有很大的优势，真实世界中获取数据的成本非常高昂，并且真实世界中完成如AEB和AES等测试非常危险，并且成本高昂。而Cosmos世界基础模型可以很好地解决这些问题。

Cosmos世界基础模型的数据策略、训练资源和技术规模都相当夸张，输入数据量：2000 万小时视频 + 9000 万亿输入 token（可能包含文本、传感器数据等多模态输入）；算力资源：10000块NVIDIA H100 GPU（基于 Hopper 架构，专为AI训练优化），通过 NVIDIA DGX Cloud（云端超算平台）完成训练，该平台具备大规模分布式计算能力。

训练时长：2000+小时。

数据构成模型训练数据来源的多样性及其占比：

自然动态（Nature Dynamics）：20%

模拟天气、光照、植被等自然环境变化。

人类运动与物体操控（Human Motion & Object Manipulation）：16%

行人、驾驶员行为等交互场景。

空间感知与导航（Spatial Awareness & Navigation）：16%

道路结构、交通标志、多视角地图数据。

驾驶场景（Driving）：11%

车辆轨迹、复杂路况（如拥堵、突发事故）。

动态摄像机运动（Dynamic Camera Movements）：8%

模拟车载摄像头抖动、视角切换。

第一人称视角（First Person POV）：8%

驾驶员或行人视角数据。

合成渲染（Synthetically Rendered）：4%

通过 Omniverse 生成的 3D 合成数据。

其他（Other）：7%

特点：

高度多样化，覆盖真实世界长尾场景（如极端天气、罕见事故）。

依赖合成数据（如 Omniverse 生成）弥补真实数据不足。

Cosmos世界基础模型可供各种智能驾驶模型训练，构成一套蒸馏系统，通过大容量的基础模型给小容量的落地部署模型提供更加soft的标签，从而获取到更加准确和鲁棒的知识。

基于世界基础模型的蒸馏系统结构如下：

Digital Twin（数字孪生）：通过数字化手段模拟物理实体或系统的技术，实现虚实交互。
Physical AI Foundation Model（物理AI基础模型）：支撑数字孪生的核心AI模型，整合了物理规律与数据驱动的方法。

关键组成部分

Sensor Tokens（传感器令牌）：代表从物理世界（Real World）采集数据的传感器输入，通过Cosmos等模块实现数据传递。
Action Tokens（动作令牌）：数字孪生对物理世界输出的控制或反馈指令，形成闭环。

技术流程

Closed Loop Training & Simulation（闭环训练与仿真）：通过持续迭代优化模型，中文标注提到包括：
- 模型蒸馏（Model Distillation）：简化复杂模型以提高效率。
- 合成数据生成（Synthetic Data Generation）：补充真实数据不足的问题。

目标实现物理世界与数字模型的实时交互与动态优化，可能应用于工业、自动驾驶等领域。

通过对每个像素分类来指导Cosmos，能够实现像素级的信息输出。

Cosmos Transfer是Cosmos世界基础模型的核心功能之一，专注于单控制输入（Single Control）下的场景生成与迁移。通过单一控制参数（如天气、光照、道路类型等），快速生成高度逼真的仿真场景，用于自动驾驶算法的训练和测试。

技术亮点：

高效性：单控制输入简化了场景配置流程，适合快速生成特定条件下的仿真环境。
灵活性：虽然基于单一控制，但支持与其他模块（如多控制输入）结合，扩展场景多样性。
逼真性：生成的场景具有物理级精度，贴近真实世界。

Cosmos Transfer输入：仅需单一数据源（如高清地图HD Map），即可生成多种复杂场景。Cosmos Transfer的输出基于同一输入，动态生成不同环境条件的仿真结果，例如：天气变化：白天、雾天、雪天；时间与天气组合：夜间雨天的组合等。NVIDIA 通过高精度仿真技术模拟真实世界的物理规律（如车辆动力学、传感器数据、环境交互），为自动驾驶系统提供逼真的训练和测试环境，目标是降低自动驾驶开发的实车测试成本，加速算法迭代，并覆盖极端场景（如恶劣天气、复杂交通流）。

技术亮点：

高效性：无需为每种场景单独建模，显著提升数据生成效率。
多样性：覆盖极端或罕见场景（如暴雪、浓雾），解决真实数据不足的问题。
一致性：所有输出基于同一输入，确保场景结构（如道路布局）的物理合理性。

Cosmos Transfer可以用于机器人领域的数据生成，Structural Conditioning For Controlled Photoreal World Generation是指通过结构化条件控制，生成高度逼真（Photorealistic）的虚拟世界，用于机器人（如自动驾驶车辆）的仿真训练。Cosmos Transfer支持多模态输入控制（如场景参数、天气条件、交通流等），动态生成多样化仿真场景。

技术亮点：