【深度学习新浪潮】游戏中的agents技术研发进展一览
近三年(2022-2025年),游戏中Agent技术的研发取得了显著突破,尤其在通用智能体、多模态交互、生成式内容和实时决策等领域展现出颠覆性进展。以下是基于最新研究和行业实践的核心进展总结:
一、通用智能体的泛化能力突破
-
多任务学习与自然语言交互
Google DeepMind于2024年推出的SIMA(Scalable Instructable Multiworld Agent),首次实现了基于自然语言指令的跨游戏3D环境操作。该智能体通过观察屏幕图像和解析文本指令,可在《我的世界》《GTA V》等9款3D游戏中完成超过600种任务(如导航、物品交互、菜单操作),其决策效率与人类玩家接近。SIMA的核心创新在于将大语言模型(LLM)与强化学习结合,无需访问游戏源代码即可实现泛化能力,被视为“智能体的ChatGPT时刻”。 -
跨场景迁移与基础模型探索
英伟达的Minedojo(2022)和DeepMind的Gato(2022)分别代表了“单一复杂任务”和“多任务覆盖”两种路径。Minedojo基于《我的世界》训练,可完成建造图书馆等创造性任务;Gato则能同时处理雅达利游戏、机器人控制等跨模态任务。2023年英伟达提出的“基础模型”概念,进一步推动智能体从虚拟到现实的能力迁移,例如通过游戏训练的决策逻辑应用于自动驾驶场景。