当前位置：首页 > news >正文

AutoToM：让AI像人类一样“读心”的突破性方法

news 2025/11/4 21:34:57

引言：AI如何理解人类的“内心世界”？

如何让AI像人类一样理解他人的意图、情感和动机？这一问题的核心是心智理论（Theory of Mind, ToM），即通过观察行为推断心理状态的能力。近日，约翰霍普金斯大学（JHU）的研究团队提出了一种革命性方法——AutoToM，首次实现了全自动、开放式的心智推理，在五大基准测试中横扫所有对手。本文将带您深入解析这一突破性技术。

什么是心智理论（ToM）？

ToM（Theory of Mind）是人类理解他人心理状态的能力，例如“他为什么这样做？”“她知道什么？”等。对于AI而言，ToM是构建社会智能的关键，使其能够与人类自然交互。然而，现有方法存在两大挑战：

基于语言模型（LLM）的方法：虽能处理复杂场景，但在推理时易出现系统性错误。
基于模型的推理（如BIP）：依赖人工设计的模型，难以泛化到新领域。

AutoToM：全自动的ToM推理框架

AutoToM是首个开放场景、全自动的基于模型的ToM方法，其核心是**贝叶斯逆向规划（BIP）与大语言模型（LLM）**的结合。它通过以下创新实现突破：

1. 全流程自动化

模型发现与调整：无需人工设计模型，AutoToM通过LLM自动提出初始模型，并动态优化结构。
假设生成与筛选：LLM根据观测信息生成假设，通过筛选机制压缩假设空间，减少计算负担。
贝叶斯推理：LLM估计模型中的局部条件概率，通过边缘化非目标变量，推断目标心理状态的后验概率。

2. 开放式推理能力

任意场景适用：无需领域知识，可在任意情境中运行。
多智能体与递归推理：支持任意数量智能体，以及高阶心智推理（如“A知道B认为C在撒谎”）。
高效性与可解释性：通过变量调整和时间节点优化，平衡推理准确性与计算成本，且推理过程可通过概率模型解释。

技术细节：AutoToM的三大核心模块

模块1：假设采样与筛选

假设生成：LLM根据观测信息（如动作、语言、状态）生成潜在心理假设（如目标、信念、意图）。
假设筛选：通过规则或概率阈值，去除低可能性假设，聚焦关键候选。

模块2：贝叶斯推理

条件概率估计：LLM为BToM模型中的变量（如状态、信念、动作）间依赖关系赋值概率。
后验计算：通过贝叶斯公式，推断目标变量的后验分布，例如“该智能体的目标是什么？”

模块3：模型发现与优化

变量调整：在特定时间点引入新变量（如“是否撒谎”“是否知情”），扩展模型以减少不确定性。
时间节点调整：动态选择相关历史信息，避免冗余计算，提升效率。

实验结果：横扫五大基准测试

AutoToM在以下五个权威基准上均取得最优表现：

ToMi：测试基础ToM能力，如目标推理。
BigToM：复杂多智能体场景，涉及递归推理。
MMToM-QA：多模态任务，结合语言与视觉信息。
MuMA-ToM：大规模多智能体协作任务。
Hi-ToM：高阶ToM推理（如“我知道你不知道”）。

与其他方法对比：

LLM基线：在复杂场景中易出错，尤其在长上下文推理中表现差。
传统BIP方法：依赖人工模型，无法泛化。
AutoToM：在准确率与计算效率间取得平衡，且可解释性强。

AutoToM的意义与未来展望

AutoToM的突破在于：

通用性：无需领域知识，适应开放场景。
鲁棒性：通过贝叶斯推理减少系统性错误。
可解释性：推理过程透明，便于人类理解。

未来，AutoToM可应用于：

人机协作：理解人类意图，提升交互自然性。
社会机器人：构建具备共情能力的AI伙伴。
教育与医疗：分析用户心理状态，提供个性化服务。

结语：迈向更“人性化”的AI

AutoToM不仅是技术上的创新，更是AI社会智能发展的里程碑。它证明了通过结合符号推理与机器学习，AI可以像人类一样“读心”。随着研究的深入，我们或许能见证AI真正理解人类情感与意图的那一天。

论文信息

标题：AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind
链接：arXiv | 项目主页 | 代码
团队：JHU Social Cognitive AI Lab（负责人：Tianmin Shu）

查看全文

http://www.dtcms.com/a/137305.html