当前位置: 首页 > news >正文

存算一体架构在空间计算中的应用

空间计算作为融合物理世界与数字世界的发展方向之一,已经有自动驾驶和虚拟现实的两大领域支撑。然而,海量三维空间数据的实时处理带来了巨大的算力与功耗问题。 存算一体(Computing-in-Memory, CIM)通过将计算单元与存储单元融合,从根本上减少了数据搬运,本文将从硬件设计、底层算力架构及能效比三个维度,深入探讨存算一体如何赋能空间计算,并结合英伟达(NVIDIA)的cosmos模型、世界模型及车载雷达等前沿实例,展望其广阔应用前景。

空间计算的核心定义在于将数字信息无缝地集成到我们所处的物理世界。借助空间计算,用户得以在三维空间中与数据和虚拟对象进行交互。要实现这一愿景,离不开几项关键技术的支撑:感知与定位,通过即时定位与地图构建(SLAM)及摄像头、激光雷达(LiDAR)等传感器融合技术,赋予设备理解自身空间位置与姿态的能力;三维重建与渲染,要求系统能实时构建并渲染3D环境与对象,同时展示数字内容与现实场景;多模态交互,支持手势、语音或眼动追踪等符合人类直觉的交互方式,改变人机协作的传统形态。

图一 空间计算概念示意图,通过控制视角展示3D交互

这些功能的技术落地还有一定距离,因为空间计算应用,像”世界模型”(World Model)这样的前沿概念对硬件性能提出了非常高的要求。在算力方面,世界模型作为AI对环境的内部模拟与预测系统,构建和实时渲染一个可交互的3D世界需要处理几何、纹理和物理状态等数据,几乎只有大型企业服务器可以支持;在时效方面,空间计算的许多应用场景有很高的实时性要求,例如车载雷达系统、眼动体感系统。传统冯·诺依曼架构已然成为制约空间计算性能与能效的核心瓶颈。

图二 世界模型生成方法在复杂度与视觉细节上的权衡

为了尝试打破困局,业界正在探索新的硬件结构,例如NVIDIA Cosmos这类物理AI模型已经可以为世界模型构建硬件基础。NVIDIA Cosmos平台通过对物理世界进行大规的模拟渲染,可以加速机器人和自动驾驶汽车等物理AI的开发进程。然而,尽管NVIDIA Cosmos的传统GPU平台在并行计算方面表现强大,但在处理海量模拟数据时,依旧面临着能耗和数据带宽问题。在此背景下,存算一体(Computing-in-Memory, CIM)架构通过将计算单元与存储单元深度融合,有望为下一代物理AI模型提供更高效的硬件。通过在内存中直接处理数据,存算一体架构消除了大部分数据搬运的瓶颈,能够显著加速模型的训练推理,为真正的空间计算时代指出了一条道路。

空间计算应用的底层算法均为大规模的矩阵向量运算,即矩阵乘加(Multiply-Accumulate, MAC操作,包括实时三维渲染、即时定位与地图重构以及环境建模等。在传统架构中执行MAC运算需要将数据集从内存加载到GPU的高速缓存中,计算完成后再将结果写回内存。”取数-计算-存数”的循环导致功耗延迟开销很大,而存算一体架构利用存储器阵列将存储单元(如SRAM、DRAM)本身转变为兼具数据存储和并行计算能力的处理单元。

在空间计算领域中已有多个可行的研究方向,随着国内新能源汽车的高速发展,“世界模型”(World Model)已经成为当前具身智能车载应用领域的研究核心。不同于侧重统计学习的传统视频生成模型,如Sora,先进的世界模型如WoW(World-Omniscient World Model)可以负责物理精确因果推理,能够模拟摩擦、碰撞、流体等复杂的动力学过程并作出对应决策。在自动驾驶和高级驾驶辅助系统(ADAS)中,世界模型收集来自摄像头、车载雷达和运动传感器等多方面信息,实现精确环境感知,其工作流程对实时性和可靠性有很高要求。

图三 自动驾驶传感器产生的数据

按照计算任务和场景区分,空间计算可以分为延迟不敏感的云端计算和延迟敏感的边缘计算。在空间计算的云端,训练能够模拟真实世界复杂动态的”世界模型”成为核心任务之一。麻省理工学院的相关研究表明,构建一个理想的世界模型其计算量远超传统的语言或图像模型。在处理AI任务时,数据搬运所消耗的能量甚至占到了总能耗的60%以上。当算力需求呈指数级增长时,数据中心的能耗也随之增长,导致IT巨头甚至需要规划自建电网来满足能源需求。例如近日,Intel持有了大量NVIDIA的计算卡却找不到合适的场地铺设服务器机房和电力线路,无奈向美国政府求助划分地权。

如果说云端的挑战在于能源成本与供给,那么在空间计算的边缘侧,功耗则决定了产品的实用性。以智能驾驶为例,自动驾驶汽车依赖于摄像头、激光雷达、毫米波雷达等多种传感器,在行驶过程中会产生峰值接近1TB/s的数据量,处理数据过程会产生额外的整车功耗。一个用于感知和视觉应用的高性能GPU自身功耗可达到300-350瓦时/百公里,这种算力功耗影响了电动车的续航里程,也对车辆的散热系统和硬件稳定性提出了更多的要求。

近年来,以后摩智能、知存科技为代表的创新企业,已经成功将存算一体技术从理论推向量产,并在空间计算、世界模型等领域取得突破。后摩智能推出的面向智能驾驶的存算一体芯片鸿途®H30基于12nm工艺,在35W的典型功耗下,能够提供256TOPS的算力。其SoC能效比达到7.3 TOPS/W,展示了在有限功率预算内满足高阶自动驾驶算力需求的潜力。当前,即便是轻量级的空间感知或交互模型,也大多需要在云端进行处理。而借助存算一体芯片数十倍的能效提升,未来在智能手机、AR眼镜甚至更小型的IoT设备上,直接运行百亿参数级别的”世界模型”或空间感知大模型将成为可能。

图四 后摩智能H30

在人工智能算力需求持续井喷的宏观背景下,存算一体技术不仅能降低数据中心的碳排放,助力实现”碳中和”目标,也能延长边缘设备的电池寿命,减少电子废弃物。在追求更高、更快、更强的计算能力的同时,存算一体技术确保了AI的发展是可持续的、对环境友好的,符合全球向绿色经济转型的长期趋势。

参考

【世界模型】一文读懂世界模型:从核心原理到前沿争议 - 知乎

智能汽车仿真 | 用例 | NVIDIA

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

Challenges and Opportunities for Computing-in-Memory Chips | Proceedings of the 2023 International Symposium on Physical Design

近似边缘人工智能在节能自动驾驶服务中的调查 |IEEE 期刊和杂志 |IEEE Xplore

http://www.dtcms.com/a/596683.html

相关文章:

  • docker swarm集群搭建,对比k8s
  • 为什么网站需要维护需要网站建设
  • 25年05月架构甄选范文“论多模型数据源”,软考高级,系统架构设计师论文
  • 重庆做网站公司哪家比较好图片设计在线
  • Ubuntu 上使用 VSCode 调试 C++ (CMake 项目) 指南
  • opencv 学习: 07 使用迭代器 (iterator) 遍历像素
  • Two Sigma 面经分享|智商检测级别的面试,逻辑与细节缺一不可
  • 【STM32项目开源】STM32单片机物联网门禁控制系统
  • Ubuntu 系统部署 PostgreSQL 主从复制 + 流复制(Streaming Replication)完整操作指南
  • 福州企业网站推广定制wordpress国人模板
  • 场景落地绘就创新图景,人工智能迎来应用浪潮
  • 数据结构(20)
  • 线性代数 - 理解求解矩阵特征值的特征方程
  • Swift的逃逸闭包
  • ESP32基础-GPIO_LED进阶
  • AT指令连接onenet平台(mqtt协议)
  • 二分搜索中 `right = mid` 而非 `right = mid + 1` 的解释
  • 走进Linux的世界:进程优先级
  • 蛙蛙写作网站中国建设银行网站-个人客
  • jetson开机之前自启脚本sudo ifconfig 如何不需要输入密码
  • 环评登记表在哪个网站做php网站开发试题
  • K8S RD: Kubernetes核心技术之管理、高可用与配置详解
  • Rust:Trait 抽象接口 特征约束
  • 【Windows】tauri+rust运行打包工具链安装
  • 网站被人抄袭怎么办哪家做网站的公司
  • 在 Linux 上实现 Spring Boot 程序的自动启动与守护运行
  • 得物TiDB升级实践
  • uni-app微信小程序相机组件二次拍照白屏问题的排查与解决
  • 邯郸大名网站建设网站服务器类型查询
  • 远程在线诊疗|在线诊疗|基于java和小程序的在线诊疗系统小程序设计与实现(源码+数据库+文档)