当前位置: 首页 > news >正文

Cosmos

Cosmos拥有非常强大的性能和充足的数据量,

核心包括了4个部分

  • Autoregressive Model

  • Diffusion Model

  • Video Tokenizers

  • Video Processing and Curation Pipeline

本次介绍内容主要是NVIDIA Cosmos世界基础模型如何通过物理级AI仿真技术赋能汽车行业,Cosmos这是 NVIDIA推出的一个基于 AI 的仿真平台,结合了生成式 AI、物理引擎和合成数据技术等,用于构建接近真实的虚拟世界来实现自动驾驶的仿真测试。Cosmos具备对物理世界的抽象和模拟能力(类似 AI 领域的“World Model”概念),可动态生成符合真实物理规律的场景(如车辆运动、光线变化、天气效果等)。

在仿真系统中获得数据的意义在于成本具有很大的优势,真实世界中获取数据的成本非常高昂,并且真实世界中完成如AEB和AES等测试非常危险,并且成本高昂。而Cosmos世界基础模型可以很好地解决这些问题。

Cosmos世界基础模型的数据策略、训练资源和技术规模都相当夸张,输入数据量:2000 万小时视频 + 9000 万亿输入 token(可能包含文本、传感器数据等多模态输入);算力资源:10000块NVIDIA H100 GPU(基于 Hopper 架构,专为AI训练优化),通过 NVIDIA DGX Cloud(云端超算平台)完成训练,该平台具备大规模分布式计算能力。

训练时长:2000+小时。

数据构成模型训练数据来源的多样性及其占比:

自然动态(Nature Dynamics):20%

模拟天气、光照、植被等自然环境变化。

人类运动与物体操控(Human Motion & Object Manipulation):16%

行人、驾驶员行为等交互场景。

空间感知与导航(Spatial Awareness & Navigation):16%

道路结构、交通标志、多视角地图数据。

驾驶场景(Driving):11%

车辆轨迹、复杂路况(如拥堵、突发事故)。

动态摄像机运动(Dynamic Camera Movements):8%

模拟车载摄像头抖动、视角切换。

第一人称视角(First Person POV):8%

驾驶员或行人视角数据。

合成渲染(Synthetically Rendered):4%

通过 Omniverse 生成的 3D 合成数据。

其他(Other):7%

特点:

高度多样化,覆盖真实世界长尾场景(如极端天气、罕见事故)。

依赖合成数据(如 Omniverse 生成)弥补真实数据不足。

Cosmos世界基础模型可供各种智能驾驶模型训练,构成一套蒸馏系统,通过大容量的基础模型给小容量的落地部署模型提供更加soft的标签,从而获取到更加准确和鲁棒的知识。

基于世界基础模型的蒸馏系统结构如下:

  • Digital Twin(数字孪生):通过数字化手段模拟物理实体或系统的技术,实现虚实交互。

  • Physical AI Foundation Model(物理AI基础模型):支撑数字孪生的核心AI模型,整合了物理规律与数据驱动的方法。

关键组成部分

  • Sensor Tokens(传感器令牌):代表从物理世界(Real World)采集数据的传感器输入,通过Cosmos等模块实现数据传递。

  • Action Tokens(动作令牌):数字孪生对物理世界输出的控制或反馈指令,形成闭环。

技术流程

  • Closed Loop Training & Simulation(闭环训练与仿真):通过持续迭代优化模型,中文标注提到包括:

    • 模型蒸馏(Model Distillation):简化复杂模型以提高效率。

    • 合成数据生成(Synthetic Data Generation):补充真实数据不足的问题。

目标 实现物理世界与数字模型的实时交互与动态优化,可能应用于工业、自动驾驶等领域。

通过对每个像素分类来指导Cosmos,能够实现像素级的信息输出。

Cosmos Transfer是Cosmos世界基础模型的核心功能之一,专注于单控制输入(Single Control)下的场景生成与迁移。通过单一控制参数(如天气、光照、道路类型等),快速生成高度逼真的仿真场景,用于自动驾驶算法的训练和测试。

技术亮点:

  • 高效性:单控制输入简化了场景配置流程,适合快速生成特定条件下的仿真环境。

  • 灵活性:虽然基于单一控制,但支持与其他模块(如多控制输入)结合,扩展场景多样性。

  • 逼真性:生成的场景具有物理级精度,贴近真实世界。

Cosmos Transfer输入:仅需 单一数据源(如高清地图HD Map),即可生成多种复杂场景。Cosmos Transfer的输出基于同一输入,动态生成不同环境条件的仿真结果,例如:天气变化:白天、雾天、雪天;时间与天气组合:夜间雨天的组合等。NVIDIA 通过高精度仿真技术模拟真实世界的物理规律(如车辆动力学、传感器数据、环境交互),为自动驾驶系统提供逼真的训练和测试环境,目标是降低自动驾驶开发的实车测试成本,加速算法迭代,并覆盖极端场景(如恶劣天气、复杂交通流)。

技术亮点:

  • 高效性:无需为每种场景单独建模,显著提升数据生成效率。

  • 多样性:覆盖极端或罕见场景(如暴雪、浓雾),解决真实数据不足的问题。

  • 一致性:所有输出基于同一输入,确保场景结构(如道路布局)的物理合理性。

Cosmos Transfer可以用于机器人领域的数据生成,Structural Conditioning For Controlled Photoreal World Generation是指通过结构化条件控制,生成高度逼真(Photorealistic)的虚拟世界,用于机器人(如自动驾驶车辆)的仿真训练。Cosmos Transfer支持多模态输入控制(如场景参数、天气条件、交通流等),动态生成多样化仿真场景。

技术亮点:

  • Cosmos Transfer:是NVIDIA的专有技术,实现真实世界数据到虚拟环境的迁移,如将真实路况数据转化为仿真场景。

  • Photoreal Video:生成逼真视频流,用于视觉算法的训练和验证。

Cosmos Transfer的应用场景有:

  • 自动驾驶开发:

    • 在虚拟环境中测试极端场景(如暴雨、夜间行驶),降低实车测试成本。

  • 机器人训练:

    • 为机器人提供高保真仿真环境,加速算法迭代。

  • 合成数据生成:

    • 补充真实数据不足的问题,解决AI模型训练的数据瓶颈。

Cosmos Transfer for AV:Cosmos Transfer将真实世界数据(如路况、传感器数据)迁移到虚拟环境中,实现“数字孪生”。

  • Photoreal Video:

    • 生成逼真的视频流,用于训练自动驾驶的视觉感知算法(如目标检测、语义分割)。

  • 自动驾驶训练与测试:

    • 在虚拟环境中模拟极端场景(如暴雨、夜间、交通事故),无需实车冒险。

  • 合成数据生成:

    • 补充稀缺的真实数据(如罕见事故场景),解决AI模型训练的数据短板。

  • 快速迭代验证:

    • 通过仿真加速算法开发周期,减少对物理原型车的依赖。

http://www.dtcms.com/a/290294.html

相关文章:

  • PostgreSQL 终端命令详解及实际应用案例
  • 【LINUX操作系统】搭建web网络服务器
  • Softhub软件下载站实战开发(二十):Docker部署全攻略
  • 前后端分离项目进阶1---前端
  • 对称加密技术详解:原理、算法与实际应用
  • 在本地WSL中的CentOS 7子系统中部署Ewomail邮件服务器
  • 面试150 全排列
  • Claude Code 启动提示 Note: Claude Code might not be available in your country. 解决
  • mac安装node的步骤
  • 线程池与ThreadPoolExecutor源码解析(上)
  • Consumer<T>
  • Chatbox AI使用指南与功能详解:打造你的专属智能工作平台
  • Zabbix企业级分布式监控
  • OpenCV学习(二)-二维、三维识别
  • 技术演进中的开发沉思-41 MFC系列:定制 AppWizard
  • 【爬虫】06 - 自动化爬虫selenium
  • Zabbix 企业级分布式监控系统深度解析
  • 计算机发展史:人工智能时代的智能变革与无限可能
  • Laravel 后台登录 403 Forbidden 错误深度解决方案-优雅草卓伊凡|泡泡龙
  • NVM的安装使用:nvm管理多个 Node.js 版本的工具
  • gRPC深度解析:原理、实践与性能优化指南
  • 将 RustFS 用作 GitLab 对象存储后端
  • uniapp使用uni-ui怎么修改默认的css样式比如多选框及样式覆盖小程序/安卓/ios兼容问题
  • 测量误差溯源:系统误差与随机误差的数学建模与分离方法
  • 大模型——Prompt 优化还是模型微调
  • 【PTA数据结构 | C语言版】求单源最短路的Dijkstra算法
  • AI学习--本地部署ollama
  • 6.String、StringBuffer、StringBuilder区别及使用场景
  • 第3章通用的服务可用性治理手段——3.1 微服务架构与网络调用
  • Tomcat的部署、单体架构、session会话、spring