谷歌 DeepMind 重磅出击,多款 AI 模型震撼登场
在科技飞速发展的当下,谷歌旗下的 DeepMind 一直是人工智能领域的先锋力量。近期,DeepMind 动作频频,接连推出多款 AI 模型,在业界掀起了轩然大波,每一款模型都蕴含着足以改变相关领域格局的巨大潜力。
一、Gemini Robotics 与 Gemini Robotics - ER:为机器人注入智能 “灵魂”
3 月 13 日,DeepMind 推出两款基于 Gemini 2.0 的机器人模型,犹如为机器人领域带来了两颗璀璨的新星。Gemini Robotics 作为一款视觉语言行动模型,依托 Gemini 2.0 强大的多模态理解能力,实现了质的飞跃。它让机器人拥有了前所未有的通用性,能够迅速适应家庭、办公室、工厂等各类不同场景。无论是打包餐盒、抓取细小物品,还是用海绵擦擦拭字迹等精细操作,Gemini Robotics 都能轻松驾驭,在综合泛化基准上的性能较其他 VLA 模型平均提升一倍有余。
在交互性方面,Gemini Robotics 利用 Gemini 2.0 出色的语言理解能力,能够精准理解并回应各种自然语言指令,甚至可以根据用户输入灵活调整自身行为。当用户发出 “帮我把篮球扣进篮筐中” 的指令时,配备该模型的机器人能迅速理解意图,找到篮球与篮筐,完成一场精彩的 “桌面扣篮” 表演。而且,它还能持续监测周围环境变化,与人类实现高效协作。例如在将葡萄和香蕉放入同一个透明碗的任务中,即便碗的位置不断变换,机器人也能准确应对。其灵巧性更是令人惊叹,复杂的折纸任务对于搭载 Gemini Robotics 的机器人而言,也不在话下。不仅如此,该模型还展现出强大的适配能力,训练数据虽主要来源于双臂机器人平台 ALOHA 2,但能完美驾驭 Franka 机械臂的双臂平台等其他机器人形态,对于像 Apptronik 开发的人形机器人 Apollo 这样复杂的形态,同样能够良好适配 。
Gemini Robotics - ER 则专注于增强机器人对复杂动态物理世界的理解,尤其是在空间推理方面。它大幅提升了 Gemini 2.0 现有的精确指向和三维检测能力,通过结合空间推理与 Gemini 的编码能力,能让机器人瞬间获得新的能力。比如面对一个从未见过的咖啡杯,该模型可以直观判断出用两指抓住手柄的合适方式以及接近它的安全轨迹。在执行控制机器人所需的感知、状态估计、空间理解、规划和代码生成等一系列步骤时,Gemini Robotics - ER 的成功率比 Gemini 2.0 高出 2 到 3 倍。在代码生成不足以解决问题的情况下,它还能借助上下文学习能力,按照少量人类演示的模式提供解决方案。同时,DeepMind 正在开发 “分层方法”,使 Gemini Robotics - ER 能与针对每个具身形式的 “低级” 安全关键控制器连接,确保机器人在执行任务时的安全性。
目前,谷歌 DeepMind 已与 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作,共同探索 Gemini Robotics 模型在实际场景中的应用,这无疑将加速智能机器人在各个领域的普及与发展 。
二、AlphaGeometry 2:数学领域的智能 “解题高手”
时间回溯到 2025 年 1 月,DeepMind 发布了神经 - 符号混合 AI 系统 AlphaGeometry 2,其在数学领域展现出了惊人的实力。该系统的语言模型基于 Gemini,并在比前身多一个数量级的合成数据上从头开始训练。它创新性地结合了语言模型(Neural)和符号推理引擎(Symbolic),采用混合推理方法来攻克几何问题。
在 AlphaGeometry 2 中,Gemini 模型辅助符号引擎,符号引擎则利用数学规则推导问题解决方案,为给定的几何定理提供可行证明。由于几何训练数据匮乏,DeepMind 为其语言模型创建了超过 3 亿个不同复杂度的定理和证明的合成数据 。
事实证明,AlphaGeometry 2 的实力不容小觑。2 月,DeepMind 研究人员发表的研究显示,它能够解决 2000 年至 2024 年国际数学奥林匹克竞赛中所有几何问题的 84%。研究团队从这 25 年间的竞赛中挑选了 45 个几何问题,包括线性方程和需要在平面上移动几何对象的方程,并将其扩展为 50 个问题的集合(因技术原因,部分问题拆分为两个),AlphaGeometry 2 成功解决了其中 42 个问题,得分超过了平均金牌得主的 40.9 分。它在原始 AlphaGeometry 语言基础上进行扩展,使语言覆盖率从 66% 提升至 88%,能够处理更复杂的几何问题。此外,它采用的 Gemini 语言模型具备更强的数学推理能力,可预测几何构造,帮助生成解题步骤。同时,新型搜索算法(Shared Knowledge Search Trees, SKEST)的运用,引入知识共享机制,将多个搜索树结合在一起,不同搜索路径可共享已验证的数学推理,显著提升了其在 IMO 竞赛的求解能力 。不过,AlphaGeometry 2 也存在一定局限性,例如因技术问题无法解决涉及可变数量点、非线性方程和不等式的问题,在面对一组更具挑战性的国际数学奥林匹克竞赛问题时,表现也不尽如人意 。
三、AlphaFold3:生命科学领域的 “结构预测大师”
回顾 2024 年 5 月 9 日,DeepMind 和 Isomorphic Labs 研究团队推出的 AlphaFold3,堪称生命科学领域的重磅炸弹。这一人工智能模型将预测范围从蛋白质结构扩展到大部分生命分子,准确率更是提高了一倍。
AlphaFold3 能够对蛋白质、DNA、RNA 等生物大分子以及小分子(配体)进行建模,还可模拟这些分子的化学修饰。为应对更高的复杂性,DeepMind 采用扩散技术改进底层模型架构。其核心是 Evoformer 模块的改进版本,处理完输入内容后,使用扩散网络组合预测,类似人工智能图像生成工具的预测过程,从一群原子开始,经过多步形成最准确的分子结构 。
该模型功能十分强大,能预测蛋白质与其他蛋白质、核酸、小分子、离子、修饰蛋白质残基的复合物,以及抗体 - 抗原相互作用。相比 Alphafold2 只能预测蛋白质单体结构,AlphaFold3 不仅预测准确度大幅提升,预测范围也进一步扩大,成功将 AI 能力扩展到 DNA、RNA 等领域。在蛋白质与其他分子类型相互作用的基准测试中,AlphaFold3 的准确率比现有最好的传统方法高出 50%,成为首个在生物分子结构预测方面超越基于物理工具方法的 AI 系统。此外,DeepMind 为 AlphaFold3 发布了名为 AlphaFold Server 的公共接口,这一工具可帮助人们提出新颖假设以便在实验室测试,加快工作流程并推动创新。同年 10 月 9 日,2024 年诺贝尔化学奖授予三位对蛋白质结构的设计和预测作出杰出贡献的科学家,其中两位获奖者来自 DeepMind,这也从侧面彰显了 AlphaFold3 在生命科学领域的重大影响力 。
谷歌 DeepMind 推出的这些 AI 模型,无论是在机器人领域赋予机器人更强大的智能与适应性,还是在数学领域助力解决复杂难题,亦或是在生命科学领域推动分子结构预测的进步,都展示了人工智能技术的巨大潜力与无限可能。随着这些模型的不断优化与应用拓展,我们有理由相信,它们将在更多领域引发深刻变革,为人类社会的发展带来更多惊喜。