布局具身智能时代(上):深兰科技“具身视觉导航大脑”技术的商业化探索
人工智能正在迎来从“对话”到“行动”的关键跃迁。继语言大模型引爆全球AI热潮之后,具身智能(Embodied AI)正成为下一场技术变革的主战场。深兰科技前瞻布局这一领域,作为世界计算机视觉顶级赛事CVPR四连冠和世界CVPR、ECCV、ICCV三大计算机视觉赛事连续两年大满贯冠军团队,深兰科技率先发布“具身视觉导航大脑”技术路线,旨在赋予机器人更强的环境理解与行动能力,为智能体进入真实世界奠定基础。
深兰科技具身智能团队汇聚了来自斯坦福大学、中科大、清华大学、北大、佐治亚理工、卡内基梅隆、阿里达摩院等多家顶尖科研机构的技术力量,为核心技术研发和产业化落地提供强劲支撑。
这一趋势不仅正在全球范围内加速成形,也正在成为科技公司竞逐的焦点。谁能率先让 AI 从“能说”走向“能动”,谁就能在新一轮技术浪潮中占得先机。
全球巨头争夺“行动智能”高地
在AI发展早期,技术焦点集中在“能说会答”的对话式大模型。但进入2025年,产业趋势正在发生实质性转向:AI竞争的核心正从“对话能力”升级为“行动能力”。这不仅是技术范式的变化,更是产业进入下一阶段的信号。
今年,“具身智能”首次被写入中国政府工作报告,标志其已上升为国家级战略方向。行业数据也印证了这一趋势:根据行业预测,2025年中国具身智能产业规模有望接近53亿元,占全球约三成,成为全球最活跃的应用市场之一。在这样一个高速增长的赛道上,卡位“行动智能”正成为科技企业的战略焦点。
在国际上,头部企业早已展开布局。OpenAI首席执行官Sam Altman近日直言:“世界尚未迎来人形机器人时刻,但这一天已经不远。”OpenAI不仅研发了GPT-4、GPT-o1等通用大模型,还大举进军机器人领域:与人形机器人公司Figure合作构建AI导航模型,并投资1X等企业,力图在下一轮竞争中占得先机。
Google则凭借PaLM-E和RT-2等多模态模型,开创了“视觉—语言—动作”一体化的新范式。PaLM-E将大模型与机器人视觉传感深度结合,让机器能够“看懂环境”并生成行动规划;RT-2则通过引入互联网图文数据,让机器人具备跨场景推理与行动能力,被视为Embodied AI发展的关键里程碑。
特斯拉CEO马斯克也明确表示,人形机器人Optimus将是公司未来价值的核心。特斯拉放弃昂贵的动作捕捉,转向纯视觉学习路径,让机器人通过观看人类视频“以视学技”完成搬运、折叠等任务。这与其自动驾驶FSD的发展逻辑一脉相承。
初创企业同样风起云涌。美国Figure AI今年发布第三代人形机器人Figure 03,估值突破390亿美元,并放言未来十年“每个家庭都将拥有一个人形机器人”。具身智能已经不再是实验室里的概念,而是资本和技术竞逐的主战场。
“具身视觉导航大脑”:迈向行动智能的关键路径
面对这场产业级转型,深兰科技选择了一条技术门槛高、战略价值大的路线——“具身视觉导航大脑”。这一概念的核心,是让机器人通过计算机视觉和少量传感器信息,实现对环境的理解、路径规划与自主行动。与传统依赖激光雷达进行环境建图和定位的方案不同,深兰科技“具身视觉导航大脑”采用纯视觉为主、少量传感器辅助的技术架构,使智能体能够在开放环境中通过端到端视觉感知与自监督学习,完成环境理解与运动规划。这种方式不仅大幅降低硬件依赖和成本,还显著增强泛化能力,为通用智能体的规模化铺平了技术路径。与此同时,“具身视觉导航大脑”让机器人能够通过“看”和“想”实时决策,摆脱对预设地图的依赖,在复杂、动态、开放的真实场景中灵活移动。这意味着机器不再只是被动执行预设动作,而是真正具备了“理解环境—规划路径—自主行动”的能力,是迈向具身智能的关键一步。
深兰科技具身智能团队正加速推进“具身视觉导航大脑”的工程化与产品化进程。在技术层面,该系统已在自主导航与路径规划等核心环节实现高稳定性运行;在应用层面,团队计划于2025年11月完成首个抓取场景Demo的展示,实现从“会走”到“会干”的关键跨越。
据团队介绍,这一Demo将在复杂真实场景中实现物体识别、路径规划与动作执行的闭环能力,标志着“具身视觉导航大脑”从算法验证迈向工程化验证阶段。与此同步,深兰科技团队已启动机械结构定型与供应链体系布局,对接多家核心零部件与结构件厂商,为后续的小批量生产与规模化落地打下基础。不同于仍停留在静态任务或仿真训练阶段的企业,深兰科技以“技术创新—工程验证—产业布局”三线并进的策略,率先构建起从感知、认知到行动的完整闭环能力。这不仅体现了深兰科技在具身智能领域的技术前沿性,更展现出其将前沿技术快速转化为现实生产力的体系化能力。
前瞻布局:从视觉大模型走向具身智能
与许多仍停留在对话大模型阶段的企业不同,深兰科技的技术布局始于视觉,进而迈向认知与行动:
第一阶段:打造业内领先的视觉大模型与多模态感知算法,为机器人提供“眼睛”和“大脑”;
第二阶段:以“具身视觉导航大脑”为核心,打通感知—认知—行动闭环;
第三阶段:赋能机器人进入真实世界,从自动驾驶、服务机器人到未来的人形智能体,实现通用化行动能力。
在这一过程中,深兰科技坚持“软硬一体”的发展策略,通过自研算法与自有机器人平台的结合,打造适配多场景的技术生态。这不仅是一条企业路线图,更是卡位未来AI主战场的战略抉择。
行动智能的时代,已经来临
语言大模型打开了AI认知智能的大门,而具身智能则将开启机器“动手”的新时代。从OpenAI到特斯拉,从谷歌到Figure,全球科技巨头都已入局。展望未来,深兰科技将在“具身视觉导航大脑”的基础上,持续推进具身智能的产品化落地。
2026年,公司计划推出基于具身视觉导航大脑、视觉大模型以及群体智能核心技术的双足人形和底盘式人形机器人、底盘式立柱双臂型人形机器人,面向工厂提供机器人“打工仔”;家用视觉跟随机器人,以及面向机场、商场等场所的厕所清洁作业机器人“珍妮”等,目标是让更多的机器人能够在动态变化的开放环境中实现自主移动与作业。
深兰科技正以前瞻性的“具身视觉导航大脑”技术布局,率先占据行动智能的技术制高点。深兰科技具身智能团队认为,未来的竞争焦点,不仅是谁训练了更大的模型,更是谁能率先打通感知、认知与行动的闭环——这将决定下一轮AI产业格局的主动权。