当AI学会叠衣服,我们才会真正需要它
2008年,当托尼·斯塔克在大银幕上召唤出他的智能助手J.A.R.V.I.S.时,全球无数工程师心中燃起了同样的梦想。15年后的今天,我们拥有了能写诗、能画画、能通过律师资格考试的AI,却仍然找不到一个能帮我们叠好衬衫的机器人。
这个看似荒谬的反差,恰恰揭示了当前AI革命中一个被严重低估的矛盾:我们正在将最先进的算力和智力投入到最不紧迫的问题上,而真正能改变普通人日常生活的技术——让机器理解并操控物理世界的能力——却进展缓慢得令人沮丧。但Physical Intelligence在2024年发布的π0模型,以及Google重启的"Jarvis项目",或许预示着这个格局即将改写。问题不再是AI能否变得更聪明,而是它何时能真正走进我们的厨房和客厅。
从管家到算法,再回到管家
要理解这场技术路线的轮回,我们需要回到故事的起点。在漫威的原著漫画中,Jarvis从来不是什么人工智能——他是埃德温·贾维斯,一个忠诚的英国管家,负责打理托尼·斯塔克的豪宅和复仇者大厦。他的价值在于对物理世界的精准掌控:知道每个酒杯该放在哪里,记得每位客人的饮食偏好,能在混乱后迅速恢复秩序。
2008年电影改编时,漫威做了一个有趣的融合:将管家Jarvis与漫画中另一个不起眼的角色H.O.M.E.R.(启发式操作矩阵仿真平台)结合,创造出我们熟知的那个无所不能的AI助手。H.O.M.E.R.只是个任务导向的数据处理系统,功能严格、互动有限——说白了,就是我们今天Siri和Alexa的祖先。
这个转变背后隐藏着一个关键洞察:数字化能力的扩展远比物理能力的扩展容易得多。让AI处理数据、识别模式、生成文本,只需要算力和数据;但让AI在真实世界中抓取、移动、操控物体,需要解决的是一个复杂程度呈指数级增长的问题——传感器融合、实时决策、力反馈控制、环境不确定性应对。
扎克伯格2016年的"个人Jarvis项目"完美诠释了这种不对称。他花了100小时用Python和PHP搭建了一个能控制家中灯光、温度、音乐和安防的系统,甚至能识别访客并娱乐女儿。但这个系统的核心仍然是数字层面的整合——调用现有智能设备的API,用自然语言处理和人脸识别技术作为交互界面。它没有解决任何物理操控问题:它不会开门,不会端茶,不会收拾玩具。
今天,扎克伯格的100小时工作量或许能被AI编程助手压缩到一天。但即使有了最先进的代码生成工具,我们仍然造不出一个能像管家一样在物理空间中工作的机器人。这不是编程效率的问题,而是根本性的技术鸿沟。
Google的Jarvis与AI发展的错位
Google最新的Project Jarvis延续了这条"数字管家"路线。基于Gemini大语言模型,它能通过截图理解网页,自动执行订机票、网购、处理退货等任务——本质上是一个高度自动
